我有一个字符串列表,我想迭代循环。但是,我不知道如何为此任务创建for循环。该功能从网站上删除信息。这些表有几万行,具体取决于“名称”。我怎样才能做到这一点?
我有清单:
list = ['name1', 'name2', 'name3']
这是我的代码:
import selenium
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import selenium.webdriver as webdriver
import pandas as pd
import time
from bs4 import BeautifulSoup
def get_results(search_term):
global df
url = "https://investor.dn.no/#!/NorgesAksjer/"
browser = webdriver.Chrome("C:/Users/Downloads/chromedriver.exe"))
browser.get(url)
search_box = browser.find_element_by_id("ar-search-input")
search_box.send_keys(search_term)
browser.find_element_by_css_selector(".btn.btn-lg.btn-primary").click()
WebDriverWait(browser, 5).until(EC.element_to_be_clickable((By.LINK_TEXT, search_term))).click()
WebDriverWait(browser, 5).until(EC.element_to_be_clickable((By.XPATH,
"//*[@id='dninvestor-content']/div[1]/div/div[1]/div[2]/div[2]/div[1]/div[3]/div/div[2]/div/div[1]/a"))).click() #
WebDriverWait(browser, 10).until(EC.element_to_be_clickable((By.XPATH,
"//*[@id='dninvestor-content']/div[1]/div/div[1]/div[2]/div[2]/div[1]/div[3]/div/div[2]/div/table/tbody/tr[101]/td[1]/a"))).click()
time.sleep(5)
result = []
html = browser.page_source
soup = BeautifulSoup(html, 'html.parser')
for posts in soup.findAll('div',{'class':'col-xs-12 ng-scope'}):
for tr in posts.findAll('tr')[1:]:
sh = [td for td in tr.stripped_strings]
result.append(list(sh))
df = pd.DataFrame(result)
return result
我想创建一个for循环,使get_results(list)
成为:
get_results('name1')
get_results('name2')
get_results('name3')
结果将被添加到df
我会做以下事情:
final_result = []
names = ['name1', 'name2', 'name3']
for name in names:
final_result.append(get_results(name))
您转换为数据帧的方法实际上取决于您正在构建的结构。
如果您的函数返回了一个列表,您可以在final_result中建立一个列表列表,然后使用pd.DataFrame转换为dataframe。
myListLen = len(list)
for i in range(0, myListLen):
getResults(list[i])