Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。
WP 站点的 Live Robots.txt 与通过 SFTP 访问的本地 Robots.txt 不同
我有一个托管在 WPEngine 上的 Wordpress 站点,它通过端点充当我们网站的 CMS。 在Wordpress网站上,我安装了YoastSEO插件,并编辑了robots.txt文件...
仅禁止主页 ( / ) 并允许 robots.txt 的所有其他页面
我需要阻止 Google 网络爬虫仅爬行我的主页,位于 / 但我需要允许抓取所有其他页面。我怎样才能做到这一点? 我尝试这样做: 用户代理: * 迪萨洛...
我想使用Scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的文字换行符。 这是一个
我想使用scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的转义字符。 这是一个示例...
我需要为我正在运行的网站设置一个维护页面,例如当我执行站点维护(计划停机时间)或者某些东西确实发生故障而我需要暂停时显示...
我是爬行初学者。我有个问题。这是我的代码和爬行的成功,但没有“更多”。 这是我的代码 从硒导入网络驱动程序 来自 selenium.webdriver.common.by ...
我是网络抓取新手,试图从 redfin.com 抓取一些住房信息,我使用 python requests 包来获取网站代码。但是,该代码有时会起作用并返回
我正在尝试用 Go 制作一个爬虫来生成 X 个 goroutine。目前,我只生成一个 goroutine (workers=1),并且我正在使用一个通道来发送/读取它。期望的结果是...
在下面的页面上,我有3个属于受害者、恶意软件和威胁源的链接列表,当我在抓取过程中到达上述项目时,我想输入它们的链接并抓取它们的内容...
在下面的页面上,我有3个属于受害者、恶意软件和威胁源的链接列表,当我在抓取过程中到达上述项目时,我想输入它们的链接并抓取它们的内容...
循环迭代时访问第二个元素时出错,SELENIUM Python
我尝试过保留 DOM,但没有成功。我尝试过睡眠时间和等待时间,但仍然遇到同样的错误。 工作。我尝试过睡眠时间和等待时间,但仍然遇到同样的错误。
我正在检查此网页。我可以发现音频文件一开始就没有加载。当我单击播放按钮时,以下标记将附加到 html 中。 我正在检查this网页。我可以发现音频文件一开始就没有加载。当我点击播放按钮时,以下标签会附加到 html 中。 <div id="mp3_jplayer_items" style="position:relative; overflow:hidden; margin:0; padding:0; border:0; width:0px; height:0px;"> <div id="mp3_jplayer_1_8" style="left: -999em; width: 0px; height: 0px;"> <img id="jp_poster_0" style="width: 0px; height: 0px; display: none;"> <audio id="jp_audio_0" preload="none" src="http://www.parand.se/audio/kodak/minoo-javan-04-pache-laili.mp3"></audio> </div> </div> 当我单击另一个音频时,src属性会更改为新音频的链接。 当我在打开检查器的网络选项卡的情况下加载页面时,我首先收到很多请求,然后它停止了。然后,当我单击音频文件时,我收到此请求: curl 'http://www.parand.se/audio/kodak/minoo-javan-14-khorouskhan.mp3' -H 'Host: www.parand.se' -H 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0' -H 'Accept: audio/webm,audio/ogg,audio/wav,audio/*;q=0.9,application/ogg;q=0.7,video/*;q=0.6,*/*;q=0.5' -H 'Accept-Language: en-US,en;q=0.5' -H 'Referer: http://parand.se/?p=5026' -H 'Range: bytes=0-' -H 'DNT: 1' -H 'Connection: keep-alive' 这是下载文件的请求。无法获取文件的链接。 另一方面,当我使用 Firefox 下载网页时,我没有找到任何指向任何 mp3 文件的链接,也没有找到任何作品 khorouskhan,它位于链接内且位于歌曲名称中。 # fox is the directory in which I've downloaded the webpage. $ grep -RPo 'khorouskhan' fox | sort | uniq # this has no output at all. $ grep -RPo '[^"]*\.mp3' fox | sort | uniq fox/files/jquery_002.js:),this.element.empty(),delete this.instances[this.internal.instance]},enable:function(){},disable:function(){},_testCanPlayType:function(t){try{return t.canPlayType(this.format.mp3 fox/files/mp3-jplayer-2.js: data = { is_download: p.download , url: p.list[track].mp3 fox/files/mp3-jplayer-2.js: exData.mp3 = p.list[track].mp3 fox/files/mp3-jplayer-2.js: that.dl_runinfo( p.list[p.tr].mp3 fox/files/mp3-jplayer-2.js: media[ track.formats[0] ] = track.mp3 fox/files/mp3-jplayer-2.js: media['mp3'] = this.plugin_path + '/mp3/silence.mp3 fox/files/mp3-jplayer-2.js: var pU = ( preL !== false ) ? preL[ this.pl_info[this.tID].tr ].mp3 fox/files/mp3-jplayer-2.js: arr[j].mp3 = this.f_undo.f_con( arr[j].mp3 fox/files/mp3-jplayer-2.js:' + p.list[track].mp3 fox/files/v1-silver.css:.mp3 fox/files/v1-silver.css:div.mp3 fox/files/v1-silver.css:div.player-track-title.mp3 fox/files/v1-silver.css:iframe.mp3 fox/files/v1-silver.css:span.mp3-finding, span.mp3 fox/files/v1-silver.css:ul.ul-mjp.mp3 fox/files/v1-silver.css: div.mp3 fox/files/v1-silver.css: span.mp3 fox/files/v1-silver.css: div.mp3 fox/files/v1-silver.css: div.mp3 fox/files/v1-silver.css: .dark div.mp3 fox/files/v1-silver.css: .dark div.mp3 fox/files/v1-silver.css: .text div.mp3 fox/files/v1-silver.css: .bigger1 span.mp3 fox/files/v1-silver.css: .bigger2 span.mp3 fox/files/v1-silver.css: .bigger3 span.mp3 fox/files/v1-silver.css: .bigger4 span.mp3 fox/files/v1-silver.css: .bigger5 span.mp3 fox/files/v1-silver.css: .dark .mp3 fox/files/v1-silver.css: .dark div.mp3 fox/files/v1-silver.css: .dark.outline div.mp3 fox/files/v1-silver.css: .nopopoutbutton div.mp3 fox/files/v1-silver.css: .noscreen div.mp3 fox/files/v1-silver.css: .outline div.mp3 fox/files/v1-silver.css: .statusMI span.mp3-finding, .statusMI span.mp3-tint, div.statusMI span.mp3 fox/files/v1-silver.css: .statusMI span.mp3-tint, .statusMI span.mp3 fox/files/v1-silver.css: .text div.mp3 fox/index.html:.mp3 fox/index.html:.a-mjp.mp3 fox/index.html:.transport-MI div, .mp3 我的问题是: 我认为 JavaScript 应该从对服务器的 API 调用中获取链接,或者应该对链接进行硬编码。我认为 grep 结果显示 1.1 它不是硬编码的,或者 1.2 我从浏览器下载的网页并不是服务器提供给我的浏览器的全部内容。另一方面,除了网络选项卡中的下载请求之外,我没有看到任何其他请求。我相信这意味着它要么是 2.1 不是从 API 调用中获取的,要么是 2.2 网络选项卡不显示从我的浏览器发送的所有请求。 基本上就是这样。我的想法是: (1.1 or 2.1) = true (!1.1 or 1.2) = true (!2.1 or 2.2) = true 那么这里的 {1.1, 1.2, 2.1, 2.2} 哪一个是正确的?或者我错了什么? 这是一个非常古老的问题,但我也可以提供答案,以防有人想知道。 在加载所有脚本后,有一个请求,对于 id=42768 的播放列表,该请求位于这里 它看起来是一个简单的 JSON API,该网站是基于 WordPress 的 Audioignitor 音乐播放器插件构建的。至于它如何获取播放列表id,这似乎是一些服务器端渲染(我假设它是由插件完成的),并通过类audioigniter-root的div的标签传递。
我试图弄清楚如何使用 python 2.7 将脚本的结果导出到 CSV 文件。 CSV 文件应包含两列: 第一列应包含 URL 结果,我会...
Python:禁用 Selenium Google ChromeDriver 中的图像
我花了很多时间搜索这个。 最后,我结合了一些答案,结果很有效。我分享我的答案,如果有人编辑它或为我们提供一个简单的方法,我将不胜感激......
如何使用 Python 获取网站的 HTML,就像我们通过 chrome 中的检查选项获取的那样。?
对于我的学士论文,我想从某个网站自动下载文件。对我来说,第一步是使用 python 脚本获取网站的 html,这样我就可以抓取所有内容...
如何使用 Python 获取网站的 HTML,就像使用 Chrome -> Inspect 一样?
对于我的学士论文,我想从某个网站自动下载文件。对我来说,第一步是使用 python 脚本获取网站的 html,这样我就可以抓取所有内容...
构建网络爬虫时如何定义 sleep 函数而不使用 sleep() ?
定义一个crawlSleep过程。此过程将利用 datetime 模块来计算自上次抓取以来已经过去了多少天。它将保持在睡眠*模式(在适当的时间内...
我试图实现的目标: 我正在使用 Firebase Cloud Functions 来抓取一些网站。一般来说,一切工作正常,但对于某些网站,我需要抓取一个大约有 300 页的列表,每个页面......
我有一个情况,我应该访问多个链接并从中提取信息。问题是,当我使用“colly.Visit(URL)”时,我的访问量会增加。 例子: 包马...
我正在 Ubuntu 上安装 Stormcrawler,一切正常,但无法注入 seeds.txt 文件。 当我使用此命令运行注入器“java -cp target/crawler-1.0-SNAPSHOT.jarcrawlerc...