Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。
我需要抓取网站并在提交表单后从动态创建的页面中提取一些信息。 我需要抓取的信息主要来自这些网站上的数据库。
网络抓取 Indeed/linkedIn Jobs/Google/Google 地图
我正在寻找如何抓取以下网站的最佳和最有效的解决方案: Indeed.com 领英职位 谷歌地图 谷歌搜索 我现在使用 Scrapingtool Octoparse,但是...
所以我有一段Python代码,它运行在一个美味的页面上,并从中删除一些链接。 extract 方法包含一些神奇的功能,可以提取所需的内容。然而,运行...
如何阻止谷歌索引<script type="application/json">内容
我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像嵌入在 标签中的 json 中的链接的路径。 这个 json 稍后被解析...</desc> <question vote="7"> <p>我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像嵌入在 <pre><code><script type="application/json"></code></pre> 标签中的 json 中的链接的路径。 这个 json 稍后会在客户端解析并使用。</p> <p>问题是 json 包含不是有效链接的路径,而 Google 将它们视为链接,因此尝试抓取它们并获得稳定增加的 404 数量,从而增加了不必要的爬虫流量。</p> <p>我该怎么做才能阻止谷歌尝试抓取这些路径? 我可以向 robots.txt 添加一些模式,但我想确保 google 完全忽略脚本标记的内容,并且不尝试解析它以查找看起来像链接的路径。</p> </question> <answer tick="false" vote="4"> <p>尝试这个标记:</p> <pre><code><!--googleoff: all--> <script type="application/json"> // your json content here </script> <!--googleon: all> </code></pre> <p>如<a href="https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/" rel="nofollow noreferrer">this</a>帖子中所写。</p> <p>再加上几篇文章:<br/> <a href="https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html" rel="nofollow noreferrer">准备爬行</a><br/> <a href="https://novascotia.ca/search/faq/faq_011.asp" rel="nofollow noreferrer">常见问题解答 - 如何使用 googleon/googleoff 标签?</a></p> <p><strong>PS:</strong></p> <p>为了更安全的方式:如果可能的话,<br/> 尝试使用“即时”生成的内容,例如 ajax 加载。</p> </answer> <answer tick="false" vote="0"> <p>我会尝试这样的事情:</p> <pre><code><script type="application/my-binary-format"> {"urlLikeThing":"//some/path/like/string"} </script> <script> // if (navigator.userAgent !== ...) document.querySelectorAll('script[type="application/my-binary-format"]').forEach(s => s.setAttribute('type', 'application/json')) </script> </code></pre> <ul> <li>在服务器端,脚本是使用谷歌机器人忽略的某些内容类型创建的:<pre><code>application/my-binary-format</code></pre>,<pre><code>application/octet-stream</code></pre>或类似的东西</li> <li>之后,您在页面中内联一个附加脚本,该脚本会搜索具有特殊内容类型的脚本并将其更改为正常</li> <li>此脚本可以检查谷歌机器人(例如通过用户代理)并仅对真实用户执行其操作</li> </ul> </answer> </body></html>
我一直在寻找 npm 软件包,但它们似乎都没有维护,并且依赖于过时的用户代理数据库。是否有可靠且最新的软件包可以帮助我检测爬虫? (
我正在用硒刮擦,scrapy。这里,主要问题是链接init和parse。现在因为解析不接受响应,在解析中错过了 driver.get(url) 的调用 导入scrapy 从 scrapy 导入
有一份报告,我想从中提取一个值 该值由用 java 脚本编写的组件生成 这是当我检查元素时突出显示的特定部分代码...
在这些网站(https://coinalyze.net/ethereum-classic/liquidations/, BTC/USDT)上,我可以将以下指示添加到 grpah [清算、多头清算、空头清算、汇总
Selenium Click() 不适用于 scrapy 蜘蛛
我正在尝试使用 scrapy 蜘蛛从列表页面抓取产品页面的链接。该页面显示前 10 台机器,并有一个调用一些 javascript 的“显示所有机器”按钮。
如何抓取 OTT 流媒体平台(Netflix、Prime video、HULU、Hotstar 等)目录列表,其中包含 flixjini、justwatchit 等详细信息?
Common Crawl 每月都会释放大量数据负载,大小接近数百 TB。这种情况已经持续了8-9年。 这些快照是独立的(可能不是)?或者我们必须
我的任务是抓取用 React 构建的网站。我正在尝试填写输入字段并使用 javascript 注入到页面(移动设备中的 selenium 或 webview)提交表单。这有效...
如何使用化合物名称以编程方式对 pubchem 进行模糊搜索
当我使用关键字“1-(2-羟基苯基)-2-苯基乙酮”手动搜索pubchem网页时,我得到了以下结果。 尽管没有任何化合物与上述键完全匹配...
我找不到任何使用带有规则的start_requests的解决方案,而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单,我想重新定义 start_request 函数以获得一个
我一直在尝试从这个网站提取交易记录:https://www.house730.com/en-us/deal/?type=rent。 研究堆栈溢出时,我偶然发现了一个使用 urllib.re 的解决方案...
我使用 `rvest` 抓取网页并将 read_html() 的结果存储在列表对象中。我关闭了 Rstudio,当我重新打开并尝试加载时,出现错误
这就是我所做的: 图书馆(rvest) 列表[[i]] <- read_html(link) save(list, path = "path.Rdata") Then I closed and reopened the environment. load("path.Rdata") list[[i]] ...
Python、Selenium 网页抓取:从第一个网页到第二个网页的弹出问题
这个问题困扰了我好几天了,一直没找到合适的解决办法。目前,我正在使用 Python 和 Selenium 进行网络抓取。单击 f 上的按钮后...
我正在尝试整理门户网站下所有文章的列表:水 (例如 json "url": "https://en.wikipedia.org/wiki/Heavy_water", "title": "重水&quo...
Bingbot 每天会在几个小时内非常频繁地访问我的网站,而在其余时间里会非常轻松。 我要么想平滑其爬行,降低其速率限制,要么……