web-crawler 相关问题

我通过 Google 的网站管理员工具发现，Google 正在抓取看起来像嵌入在标签中的 json 中的链接的路径。这个 json 稍后被解析...</desc> <question vote="7"> <p>我通过 Google 的网站管理员工具发现，Google 正在抓取看起来像嵌入在 <pre><code><script type="application/json"></code></pre> 标签中的 json 中的链接的路径。这个 json 稍后会在客户端解析并使用。</p> <p>问题是 json 包含不是有效链接的路径，而 Google 将它们视为链接，因此尝试抓取它们并获得稳定增加的 404 数量，从而增加了不必要的爬虫流量。</p> <p>我该怎么做才能阻止谷歌尝试抓取这些路径？我可以向 robots.txt 添加一些模式，但我想确保 google 完全忽略脚本标记的内容，并且不尝试解析它以查找看起来像链接的路径。</p> </question> <answer tick="false" vote="4"> <p>尝试这个标记：</p> <pre><code> <script type="application/json"> // your json content here </script> <!--googleon: all> </code></pre> <p>如<a href="https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/" rel="nofollow noreferrer">this</a>帖子中所写。</p> <p>再加上几篇文章：<br/> <a href="https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html" rel="nofollow noreferrer">准备爬行</a><br/> <a href="https://novascotia.ca/search/faq/faq_011.asp" rel="nofollow noreferrer">常见问题解答 - 如何使用 googleon/googleoff 标签？</a></p> <p><strong>PS：</strong></p> <p>为了更安全的方式：如果可能的话，<br/> 尝试使用“即时”生成的内容，例如 ajax 加载。</p> </answer> <answer tick="false" vote="0"> <p>我会尝试这样的事情：</p> <pre><code><script type="application/my-binary-format"> {"urlLikeThing":"//some/path/like/string"} </script> <script> // if (navigator.userAgent !== ...) document.querySelectorAll('script[type="application/my-binary-format"]').forEach(s => s.setAttribute('type', 'application/json')) </script> </code></pre> <ul> <li>在服务器端，脚本是使用谷歌机器人忽略的某些内容类型创建的：<pre><code>application/my-binary-format</code></pre>，<pre><code>application/octet-stream</code></pre>或类似的东西</li> <li>之后，您在页面中内联一个附加脚本，该脚本会搜索具有特殊内容类型的脚本并将其更改为正常</li> <li>此脚本可以检查谷歌机器人（例如通过用户代理）并仅对真实用户执行其操作</li> </ul> </answer> </body></html>

javascript json web-crawler

回答 0 投票 0

如何使用 Express 检测网络爬虫以进行 SEO？

我一直在寻找 npm 软件包，但它们似乎都没有维护，并且依赖于过时的用户代理数据库。是否有可靠且最新的软件包可以帮助我检测爬虫？ (

npm web-crawler user-agent

回答 4 投票 0

403 禁止结合使用 selenium 和 scrapy

我正在用硒刮擦，scrapy。这里，主要问题是链接init和parse。现在因为解析不接受响应，在解析中错过了 driver.get(url) 的调用导入scrapy 从 scrapy 导入

selenium-webdriver scrapy web-crawler

回答 1 投票 0

如何出现在跨度标签的标题中

有一份报告，我想从中提取一个值该值由用 java 脚本编写的组件生成这是当我检查元素时突出显示的特定部分代码...