Instagram向下滚动……使用python硒

Question

total_link = []

temp = ['a']

total_num = 0

while driver.find_element_by_tag_name('div'):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    Divs=driver.find_element_by_tag_name('div').text


    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    my_titles = soup.select(
    'div._6d3hm > div._mck9w'
    )

    for title in my_titles:
        try:
            if title in temp:
                #print('중복')
                pass
            else:
                #print('중복이 아니다')
                link = str(title.a.get("href")) #주소를 가져와!
                total_link.append(link)
                #print(link)

        except:
            pass
    print("현재 모은 개수: " + str(len(total_link)))

    temp = my_titles
    time.sleep(2)
    if 'End of Results' in Divs:
        print('end')
        break
    else:
        continue

Blockquote您好，我在用韩国的标签抓取instagram数据。我的代码包含在以下内容中。

向下滚动页面
1. 通过使用bs4和请求，获取其HTML
2. 定位到时间日志，图片源，文本，标签，ID的位置
3. 全部选中并进行爬网。
4. 完成页面上的HTML之后，向下滚动
5. 做同样的事情直到最后
通过执行此操作，并使用此站点中的人员代码，它似乎可以正常工作...但是在向下滚动几下之后，在某些点上，滚动停止并显示错误消息]
''읽어드리지못합니다'或英语'无法阅读'
我能否知道错误弹出的原因以及如何解决该问题？我正在使用python和硒谢谢您的回答

total_link = [] temp = ['a'] total_num = 0，而driver.find_element_by_tag_name（'div'）：driver.execute_script（“ window.scrollTo（0，document.body.scrollHeight）;”）Divs = driver。 ...

Answer 1

Instagram试图防止恶意攻击，例如抓取或任何其他自动方式。当您尝试异常快速地访问Instagram页面时，通常会发生这种情况。因此，您必须更频繁或更长时间地设置time.sleep()选项。

Instagram向下滚动……使用python硒

问题描述投票：0回答：1

1个回答

最新问题

Instagram向下滚动……使用python硒

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1