HTTP 错误 999:请求被拒绝

问题描述 投票:0回答:3

我正在尝试使用 BeautifulSoup 从 LinkedIn 抓取一些网页,但我不断收到错误“HTTP 错误 999:请求被拒绝”。有没有办法避免这个错误。如果您查看我的代码,我已经尝试过 Mechanize 和 URLLIB2,但两者都给我同样的错误。

from __future__ import unicode_literals
from bs4 import BeautifulSoup
import urllib2
import csv
import os
import re
import requests
import pandas as pd
import urlparse
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import urllib
import urlparse
import pdb
import codecs
from BeautifulSoup import UnicodeDammit
import codecs
import webbrowser
from urlgrabber import urlopen
from urlgrabber.grabber import URLGrabber
import mechanize

fout5 = codecs.open('data.csv','r', encoding='utf-8', errors='replace')

for y in range(2,10,1):


    url = "https://www.linkedin.com/job/analytics-%2b-data-jobs-united-kingdom/?sort=relevance&page_num=1"

    params = {'page_num':y}

    url_parts = list(urlparse.urlparse(url))
    query = dict(urlparse.parse_qsl(url_parts[4]))
    query.update(params)

    url_parts[4] = urllib.urlencode(query)
    y = urlparse.urlunparse(url_parts)
    #print y



    #url = urllib2.urlopen(y)
    #f = urllib2.urlopen(y)

    op = mechanize.Browser() # use mecahnize's browser
    op.set_handle_robots(False) #tell the webpage you're not a robot
    j = op.open(y)
    #print op.title()


    #g = URLGrabber()
    #data = g.urlread(y)
    #data = fo.read()
    #print data

    #html = response.read()
    soup1 = BeautifulSoup(y)
    print soup1
python web-scraping beautifulsoup linkedin mechanize
3个回答
5
投票

您应该直接使用 LinkedIn REST API,或者使用

python-linkedin
。它允许直接访问数据,而不是试图抓取大量使用 JavaScript 的网站。


4
投票

尝试设置

User-Agent
标题。在
op.set_handle_robots(False)

之后添加这一行
op.addheaders = [('User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36")]

编辑: 如果你想抓取网站,首先检查它是否有处理 API 的 API 或库。


0
投票

我之前曾尝试使用 Crawlbase 来抓取 LinkedIn,它非常有效。但是自从我阅读了他们的一些文档后,它说您需要启用 JS 来抓取/抓取动态站点,这就是付费的。这就是它变得有趣的地方https://crawlbase.com/docs/crawling-api/scrapers/#linkedin。只要确保注册即可。

注意:我不想陷入复杂的过程,只是为了意识到我需要一些外部帮助!

© www.soinside.com 2019 - 2024. All rights reserved.