在Python中设计一个简单的Web scraper的问题

Question

我已经按照在线教程进行了操作，并成功地创建了一个与逐步跟踪时相同的Web scraper。

但是，当尝试在我想要的网站上实现此代码时，我的控制台上将返回所有空白数据。我希望有人可以看一下我收集的短代码来收集数据，看看我是否已经正确地完成了这项工作，或者我不知道网站上的某些协议不允许从中删除数据。

# import libraries
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup 

myurl = "http://smartgriddashboard.eirgrid.com/#all/generation"

# opening up connection, grabbing the page
uClient = uReq(myurl)
page_html = uClient.read()
uClient.close()

# html parsing
page_soup = soup(page_html, "html.parser")

# find the data of interest
key_stats = page_soup.findAll("div",{"class":"key-stats-container"})

一旦我尝试调用key_stats，所有出现的都是[]。正如我之前所说，当在在线教程的示例网页上执行此操作时，该类中的所有数据都已存储。

我不是专业的程序员，所有这些对我来说都是新的，所以任何和所有的帮助都会非常感激。

Answer 1

问题是你试图从页面中抓取的div是使用Javascript动态生成的。它不在HTML source code，这意味着urllib.request无法访问该信息。当您在浏览器中加载页面时，您应该注意到该信息不会立即出现在屏幕上，统计信息会在页面加载后几秒钟出现。

您可以尝试查看网站的Javascript或源文件，并尝试使用find where the information is coming from（通常是JSON或XML文件），或使用类似selenium（自动浏览器）的内容在页面上相关元素后解析页面：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

try:
    driver.get("http://smartgriddashboard.eirgrid.com/#all/generation") # load the page
    WebDriverWait(driver, 15).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.key-stats-container > .stat-box'))) # wait till relevant elements are on the page
except:
    driver.quit() # quit if there was an error getting the page or we've waited 15 seconds and the stats haven't appeared.
stat_elements = driver.find_elements_by_css_selector('.key-stats-container > .stat-box')
for el in stat_elements: 
    print(el.find_element_by_css_selector('label').text)
    print(el.find_element_by_css_selector('p').text)
driver.quit()

WebDriverWait(driver, 15).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.key-stats-container > .stat-box')))将等待15秒或until它会在超时之前通过css选择器找到一个元素，你可以根据需要改变15秒。

而不是只是等待.key-stats-container，我等待.key-stats-container > .stat-box（一个类stats-box，这是.key-stats-container的直接孩子的元素），因为.key-stats-container有一个点，但统计数据没有：

   <span class="load"></span>
    <div class="error-msg">
        <p>We had some trouble gathering the data.</p>
        <p>Refresh to try again.</p>
    </div>
</div>

这是输出：

LATEST SYSTEM
GENERATION
4,885 MW
THERMAL GENERATION
(COAL, GAS, OTHER)
56.81 %
RENEWABLE
GENERATION
43.03 %
NET
IMPORT
0.16 %

Answer 2

它看起来不像整个页面正在下载。你可以用print(page_soup.prettify())来检查。

解决这个问题的方法是使用Selenium打开Web浏览器，然后下载页面：

from selenium import webdriver
from bs4 import BeautifulSoup as soup
driver = webdriver.Firefox(profile)
driver.get('http://smartgriddashboard.eirgrid.com/#all/generation')
page_soup = soup(driver.page_source, 'html.parser')

请注意，Selenium需要安装geckodriver。
我确信有更好的方法，使用Requests或其他东西。
一种非常简单的方法是通过右键单击Web浏览器获取页面源，然后使用Beautiful Soup来使用它。

在旁注，虽然它的工作原理，你的findAll似乎是旧的方法。 new method或CSS selectors可能更好。

在Python中设计一个简单的Web scraper的问题

问题描述投票：0回答：2

2个回答

最新问题

在Python中设计一个简单的Web scraper的问题

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2