[Web Scraping链接来自先前找到的链接

问题描述 投票:1回答:2

我正在网上抓取一个网站,该网站在美国包含开放的Christmas tree farms。我的最终目标是获取每个服务器场的电话名称,电话号码,地址和电子邮件。尽管这是我的最终目标,但我还没有编码那么远,所以请只帮我解决问题。我也想尽可能地靠近我的代码,以便我能理解它(对此我很陌生),但当然也感谢其他建议。

我首先在家庭网站上找到了一个带有嵌入式链接的状态表。我可以在第一段代码中收集所有这些链接。在各州内,有一张显示每个县的地图(带有另一个嵌入式链接)。我现在正在尝试抓住每个链接。我可以用与所示的第一段代码类似的方式执行一个状态,但我想循环遍历以消除不必要/重复的代码。我尝试创建一个循环,但是我的.text命令出现错误。我假设我抓取的每个链接都必须像我的.text变量一样在末尾有一个source。所以我尝试添加它,但是显然存在问题。有什么建议吗?

enter image description here

enter image description here

source = requests.get('http://www.pickyourownchristmastree.org/').text
soup = BeautifulSoup(source, 'lxml')
concatenate = 'http://www.pickyourownchristmastree.org/'

find_state_group = soup.find('div', class_ = 'alert')
for link in find_state_group.find_all('a', href=True):
    if 'xmastrees' in link['href']:
        states = concatenate + link['href']

i = 1
for source_state in states:
    source_state = states[-1 + i:]
    x = source_state().text
    soup_state = BeautifulSoup(x, 'lxml')
    state_county = soup_state.find('div', class_='alert')
    for county_link in state_county.find_all('area', href=True):
        if '.php' in county_link['href']:
            county_link_update = concatenate + county_link['href']
            print(county_link_update)
    i = i + 1
    x = source_state().text
TypeError: 'str' object is not callable
python web-scraping pycharm
2个回答
0
投票

这是我尝试过的方法,但是遇到了我似乎无法修复的错误。

source = requests.get('http://www.pickyourownchristmastree.org/').text
soup = BeautifulSoup(source, 'lxml')
concatenate = 'http://www.pickyourownchristmastree.org/'
state_links = []
ab = ['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE', 'FL', 'GA', 'HI', 'ID','IL', 'IN', 'IA', 'KS', 'KY', 'LA',
          'ME', 'MD', 'MA', 'MI', 'MN', 'MS', 'MO', 'MT', 'NE', 'NV', 'NH', 'NJ', 'NM', 'NY', 'NC', 'ND', 'OH', 'OK',
          'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VT', 'VA', 'WA', 'WV', 'WI', 'WY']
print(ab[1])
j = 1
find_state_group = soup.find('div', class_ = 'alert')
for link in find_state_group.find_all('a', href=True):
    for y in ab:
        y = ab[-1 + j:]
        if y in link['href']:
            states = concatenate + link['href']
            state_links.append(states)
        j = j + 1
print(state_links)
    if y in link['href']:
TypeError: 'in <string>' requires string as left operand, not list

0
投票

根据您对我的评论的回复,我对您的解决方案进行了一些小的更改。您应该能够遵循此逻辑来获取和导航到地图中的每个链接。

  1. 我一开始创建了一个空列表state_links
    • 对于找到的每个状态链接,我都将其附加到该列表中。
  2. 对于state_links中的每个状态链接,我们都提出了一个新请求,以获取该页面的文本内容。

source = requests.get('http://www.pickyourownchristmastree.org/').text
soup = BeautifulSoup(source, 'lxml')
concatenate = 'http://www.pickyourownchristmastree.org/'
state_links = []
ab = ['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE', 'FL', 'GA', 'HI', 'ID','IL', 'IN', 'IA', 'KS', 'KY', 'LA',
          'ME', 'MD', 'MA', 'MI', 'MN', 'MS', 'MO', 'MT', 'NE', 'NV', 'NH', 'NJ', 'NM', 'NY', 'NC', 'ND', 'OH', 'OK',
          'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VT', 'VA', 'WA', 'WV', 'WI', 'WY']
ab = [x + "xmastrees" for x in ab]
j = 1
find_state_group = soup.find('div', class_ = 'alert')
for link in find_state_group.find_all('a', href=True):
    if link in ab:
        states = concatenate + link['href']
        state_links.append(states)
    j = j + 1
print(state_links)
© www.soinside.com 2019 - 2024. All rights reserved.