为什么我的python selenium scraper错过了文字？

Question

我正在做一个简单的刮刀来从steamDB（https://steamdb.info/sales/?min_discount=50&min_rating=70）中提取蒸汽销售信息。这是我的代码：

from selenium import webdriver
driver = webdriver.Chrome()

driver.get("https://steamdb.info/sales/?min_discount=50&min_rating=70")

# extract the sale table and list of entries
table = driver.find_element_by_xpath("//*[@id='DataTables_Table_0']/tbody")

# key info: name/ price/ discount/ rating/ end time/ appid
for i in driver.find_elements_by_xpath(".//tr"):

    for cnt, td in enumerate(i.find_elements_by_xpath(".//td")):
        print(cnt, td.text)
    print(i.get_attribute("data-appid"))
    print("===========================")

基本上我只是发现该表包含所有销售信息，并提取游戏名称，价格，折扣，销售开始时间，结束时间等关键文本。

但是，我发现表格中的几行数据后，销售结束/开始/游戏发布时间的文本丢失了：

这是一个很好的应该是这样的：

0
1 
2 Undertale
Daily Deal 
3 -61%
4 ¥ 14
5 94.18%
6 2 hours # sales end in
7 2 days ago # sales start from
8 4 years ago # game released
391540 # appid
===========================

这是一个糟糕的看起来像：

0 
1 
2 South Park™: The Stick of Truth™
Ubisoft Publisher Weekend new highest discount
3 -80%
4 $5.99
5 95.53%
6 
7 
8 
213670

如您所见，刮刀可以检测到索引6,7,8中的td标记，但它无法从中提取任何文本。

一些观察：

我检查了dom，但我没有看到好的和坏的一行之间有任何区别
该问题仅在前10行后再现

Answer 1

这是因为滚动时动态加载这些列信息。请使用以下脚本来处理此问题。

driver.get("https://steamdb.info/sales/?min_discount=50&min_rating=70")

# extract the sale table and list of entries
table = driver.find_element_by_xpath("//*[@id='DataTables_Table_0']/tbody")

# key info: name/ price/ discount/ rating/ end time/ appid
for i in table.find_elements_by_xpath(".//tr"):
    driver.find_element_by_xpath("//li[@class='paginate_button next']").location_once_scrolled_into_view
    for cnt, td in enumerate(i.find_elements_by_xpath(".//td")):
        print(cnt, td.text)
    print(i.get_attribute("data-appid"))
    print("===========================")

Answer 2

正如supputuri所说，问题来自网页的动态加载。经过一些实验，我发现一个很好的解决方案是手动模拟向下滚动页面的过程，所以代码看起来像这样：

driver.execute_script("window.scrollTo(0, document.body.scrollHeight/2);")
time.sleep(0.5)
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(0.5)

该脚本将向下滚动到页面的一半，然后等待半秒钟让网页加载内容，然后通过。这取决于网页的长度（如果长度太长，每个卷轴之间会有一些“间隙”）

我知道这个解决方案很天真所以请告诉我是否有更好的解决方案。

为什么我的python selenium scraper错过了文字？

问题描述投票：0回答：2

2个回答

最新问题

为什么我的python selenium scraper错过了文字？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2