Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。
寻找一个可以抓取API请求并将XML解析为csv的开源网络爬虫[已关闭]
我正在研究网络爬虫,通过 API 进行爬网并将 XML 解析为 XML 或 CSV 文件。 我一直在尝试处理一些 API 提要的请求,但如果我不必这样做那就太好了......
我编写了一个 Scrapy 蜘蛛,并在其中使用 Selenium 来废弃“devgrossonline.com”中的产品。 它不适用于多个类别 url,但当我只提供一个 url 时它可以工作。任何帮助都是
我正在考虑制作一个网络爬虫/蜘蛛,但我需要有人为我指明正确的方向才能开始。 基本上,我的蜘蛛将搜索音频文件并为其建立索引。 我只是
我无法真正弄清楚网络爬行和网络抓取之间的区别。 如果我使用每个跟踪号码从联邦快递网站抓取数据,是网络抓取还是网络爬行...
有一种方法可以从谷歌索引中排除完整页面。但是有没有办法专门从谷歌的抓取中排除网页的某些部分呢?例如,排除侧边栏
我需要抓取网站并在提交表单后从动态创建的页面中提取一些信息。 我需要抓取的信息主要来自这些网站上的数据库。
网络抓取 Indeed/linkedIn Jobs/Google/Google 地图
我正在寻找如何抓取以下网站的最佳和最有效的解决方案: Indeed.com 领英职位 谷歌地图 谷歌搜索 我现在使用 Scrapingtool Octoparse,但是...
所以我有一段Python代码,它运行在一个美味的页面上,并从中删除一些链接。 extract 方法包含一些神奇的功能,可以提取所需的内容。然而,运行...
如何阻止谷歌索引<script type="application/json">内容
我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像嵌入在 标签中的 json 中的链接的路径。 这个 json 稍后被解析...</desc> <question vote="7"> <p>我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像嵌入在 <pre><code><script type="application/json"></code></pre> 标签中的 json 中的链接的路径。 这个 json 稍后会在客户端解析并使用。</p> <p>问题是 json 包含不是有效链接的路径,而 Google 将它们视为链接,因此尝试抓取它们并获得稳定增加的 404 数量,从而增加了不必要的爬虫流量。</p> <p>我该怎么做才能阻止谷歌尝试抓取这些路径? 我可以向 robots.txt 添加一些模式,但我想确保 google 完全忽略脚本标记的内容,并且不尝试解析它以查找看起来像链接的路径。</p> </question> <answer tick="false" vote="4"> <p>尝试这个标记:</p> <pre><code><!--googleoff: all--> <script type="application/json"> // your json content here </script> <!--googleon: all> </code></pre> <p>如<a href="https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/" rel="nofollow noreferrer">this</a>帖子中所写。</p> <p>再加上几篇文章:<br/> <a href="https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html" rel="nofollow noreferrer">准备爬行</a><br/> <a href="https://novascotia.ca/search/faq/faq_011.asp" rel="nofollow noreferrer">常见问题解答 - 如何使用 googleon/googleoff 标签?</a></p> <p><strong>PS:</strong></p> <p>为了更安全的方式:如果可能的话,<br/> 尝试使用“即时”生成的内容,例如 ajax 加载。</p> </answer> <answer tick="false" vote="0"> <p>我会尝试这样的事情:</p> <pre><code><script type="application/my-binary-format"> {"urlLikeThing":"//some/path/like/string"} </script> <script> // if (navigator.userAgent !== ...) document.querySelectorAll('script[type="application/my-binary-format"]').forEach(s => s.setAttribute('type', 'application/json')) </script> </code></pre> <ul> <li>在服务器端,脚本是使用谷歌机器人忽略的某些内容类型创建的:<pre><code>application/my-binary-format</code></pre>,<pre><code>application/octet-stream</code></pre>或类似的东西</li> <li>之后,您在页面中内联一个附加脚本,该脚本会搜索具有特殊内容类型的脚本并将其更改为正常</li> <li>此脚本可以检查谷歌机器人(例如通过用户代理)并仅对真实用户执行其操作</li> </ul> </answer> </body></html>
我一直在寻找 npm 软件包,但它们似乎都没有维护,并且依赖于过时的用户代理数据库。是否有可靠且最新的软件包可以帮助我检测爬虫? (
我正在用硒刮擦,scrapy。这里,主要问题是链接init和parse。现在因为解析不接受响应,在解析中错过了 driver.get(url) 的调用 导入scrapy 从 scrapy 导入
有一份报告,我想从中提取一个值 该值由用 java 脚本编写的组件生成 这是当我检查元素时突出显示的特定部分代码...
在这些网站(https://coinalyze.net/ethereum-classic/liquidations/, BTC/USDT)上,我可以将以下指示添加到 grpah [清算、多头清算、空头清算、汇总
Selenium Click() 不适用于 scrapy 蜘蛛
我正在尝试使用 scrapy 蜘蛛从列表页面抓取产品页面的链接。该页面显示前 10 台机器,并有一个调用一些 javascript 的“显示所有机器”按钮。
如何抓取 OTT 流媒体平台(Netflix、Prime video、HULU、Hotstar 等)目录列表,其中包含 flixjini、justwatchit 等详细信息?
Common Crawl 每月都会释放大量数据负载,大小接近数百 TB。这种情况已经持续了8-9年。 这些快照是独立的(可能不是)?或者我们必须
我的任务是抓取用 React 构建的网站。我正在尝试填写输入字段并使用 javascript 注入到页面(移动设备中的 selenium 或 webview)提交表单。这有效...
如何使用化合物名称以编程方式对 pubchem 进行模糊搜索
当我使用关键字“1-(2-羟基苯基)-2-苯基乙酮”手动搜索pubchem网页时,我得到了以下结果。 尽管没有任何化合物与上述键完全匹配...
我找不到任何使用带有规则的start_requests的解决方案,而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单,我想重新定义 start_request 函数以获得一个