Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。
我有一个托管帐户,上面停有 2 个域名,网站通过读取正在使用的域名来显示不同的内容。 Google 会抓取此内容并将这 2 个域列为不同的网站...
我正在尝试运行以下代码,但收到此错误“NameError:名称'scrapedate'未定义” 导入scrapy 从日期时间导入日期时间,时间增量 从 dogscraper.items 导入 Dog...
我面临着通过 ssh 自动化与服务器交互的流程的任务(它启动一个程序,可以通过按键导航)。 在某个时刻,它需要刮掉一些......
在 WordPress 中,有没有办法排除单个目录被元机器人标签而不是单个页面或帖子索引?
我知道这会将元机器人标签应用于特定页面或帖子: ID == X || $post->ID == Y) { echo ' 我知道这会将元机器人标签应用于特定页面或帖子: <?php if ($post->ID == X || $post->ID == Y) { echo '<meta name="robots" content="noindex,follow">'; } ?> 但我想将相同的元标记应用到包含 70 个文件的特定目录。有什么办法可以在php中完成这个任务吗?我非常感谢您的回答。 元机器人标签仅在网页上使用。这些网页可以是帖子,也可以是 WordPress 中的页面。现在,要隐藏目录以使其不被索引,您需要使用不同的方法。 首先,确保您没有通过 robots.txt 文件禁止该目录。然后,在您的目录中创建一个 htaccess 文件并添加以下行以防止索引。 Header set X-Robots-Tag "noindex, nofollow" 现在看看,如果 Google 已经对其中的文件建立了索引,那么您应该转到网站管理员工具并从 Google 索引中删除这些网址。上述解决方案适用于您使用此解决方案后创建的文件。但是,我希望您在回答中澄清的一件事是目录中的文件类型?如果您可以让我知道您目录中文件的扩展名,那么我可以为您提供自定义解决方案。例如,假设您有 60 个 pdf 文件和 10 个 html 文件,并且您只想隐藏 pdf 文件,那么也有一个解决方案。 否则,如果您的疑问得到解决,那就太好了。 机器人.txt 添加以下行: Disallow: /your/path/to/the/folder/that/should/not/be/indexed/ 我不确定你有什么类型的页面,wordpress还是自定义的 php 方法也是可能的,创建一个带有 array() 的文件,其中包含不应索引的所有页面,并在 if 和 else 语句中对其执行某些操作,例如,如果页面在数组中,则写入元标记如果页面不在数组中,则执行其他操作或不执行任何操作。该文件应包含在您的页面中,如果您使用同一文件在所有页面上加载元标记,则可以将其包含在那里.. <?php $nofollow = array('name1', 'name2', 'name3', 'name4'); $curr_ID = 'get the current page ID'; // write something that is able to put the current page ID here.. if (in_array($curr_ID, $nofollow)) { echo '<meta name="robots" content="noindex,follow">'; // the page ID is in the array } else { echo '<!--// Do nothing or do something else //-->'; // The page ID is not in your array, do what you'd like to do here.. } ?> 这是您一直在寻找的吗? 编辑 500 个索引页面是很多页面和不需要的结果,但您可以将它们从 Google 索引中完全删除这里,如果文档包含个人信息,您也可以请求删除,在 Google 上搜索有关此法律的信息:european法律:你有被遗忘的权利 关于 noindex、nofollow、noarchive: noindex 是:禁止为您的页面建立索引 nofollow 是:禁止关注.. noarchive 是:禁止在搜索引擎中为您的页面现金 下面的 .htaccess 答案也是可能的,但正如 Aman Kapoor 在他的答案中所说,不要同时使用 robots.txt 和 .htaccess 来完成您想做的同一件事。您只能使用 1 种方法。 .htaccess 示例代码1: <IfModule mod_headers.c> # Header set X-Robots-Tag "noindex, nofollow, noarchive" # this can be used to exclude the html extension, change html # to an other extension if you need an other to exclude.. # Remove your-folder in the code below and use the htaccss file in the same folder, # your-folder was added to explaine if there is something you would like to exclude in a folder inside the folder where you would like to exclude something, this is how you can do that... <FilesMatch "^your-folder\.html$"> Header set X-Robots-Tag: "noindex, nofollow, noarchive" </FilesMatch> </IfModule> 下面使用 .htaccess 的示例确实排除了与您添加的扩展名匹配的所有文件,示例 2: <IfModule mod_headers.c> # Add more extensions if needed or remove the extensions you do not want to exclude! (jpe?g is both jpeg and jpg) <FilesMatch "\.(php|htm?l|html|doc|pdf|png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex, noarchive, nosnippet" </FilesMatch> # </IfModule> 我用正确的 .htaccess 代码更新了我的答案,以使用 .htaccess 执行此操作,它正在工作,但您也可以使用服务器配置文件或 robots.txt 方法来停止索引文件夹。 我想说,只需尝试您最喜欢的内容,然后添加您的选择(robots.txt 或 .htaccess 或服务器配置):不要忘记转到 google 网站管理员工具并从索引,之后您需要在网站管理员工具中请求为您的网站建立完整的网站索引.. 最好做什么? 如果可能的话,服务器配置是最好的,大多数网站所有者无法这样做,因为他们无权访问文件... 第二个.htaccess示例,如果有多个扩展名应从搜索索引中排除,如果您无权访问配置文件,这是执行您想要的操作的最佳选择。 robots.txt 在文档根目录中,您始终需要一个 robots.txt 文件,因为这是蜘蛛下载以检查要索引的内容的第一件事,但是如果您使用服务器配置或.htaccess 我相信您能做的最好的事情就是添加第二个 htaccess 示例(编辑扩展名以满足您的需求),转到 webmastertools 并从其索引中删除 500 个文档,然后请求完整的网站爬行/在网站管理员中再次添加网站以进行索引工具
我正在尝试使用python在playwright中向浏览器添加cookie,当我打印BrowserContext cookies时,我可以看到我添加的cookie,但是当我从浏览器中检查它时,它并没有...
拒绝访问但允许机器人(即 Google)访问 sitemap.xml
有没有一种方法可以让您只允许 Google、Yahoo 或其他搜索引擎机器人等机器人访问我的站点地图(位于 http://www.mywebsite.com/sitemap.xml)。这可以不吗
我正在尝试使用 scrapy 工具抓取 sofifa.com 。使用下面的代码,我试图抓取仅存在于第一页中的 60 名玩家的全名和评分,但我得到了超过 60 名并且......
如何使用Python BeautifulSoup爬取javascript/JSON混合内容?
我正在尝试从我的批发商网站抓取产品数据信息,该网站使用 Prestashop CMS 并使用混合 JSON/Javascript 内容。 我用 python BeautifulSoup 和 req 编写了一个脚本...
好的,所以我必须完全编辑它。我已经让脚本部分工作,我可以毫无问题地启动它,这是脚本。粘贴链接在这里:http://pastebin.com/SKa5Wh1h 和...
URL警告: allowed_domains 仅接受域,而不接受 URL
我是 python 和爬虫的新手,需要帮助来理解我尝试从起始 URL 获取的每个链接上发生的以下错误:['https://www.eskom.co.za /类别/新闻/] 2024-01...
我正在完成我的个人学士学位期末项目,预计将在大约 50 天后完成。我想要创建的网站是一个用户可以分享他们找到 amu 的文章链接的网站......
在我读过的每一篇关于爬虫提案的论文中,我发现一个重要的组件是 DNS 解析器。 我的问题是: 为什么有必要?我们不能直接向 http://www.some-do 发出请求吗...
python:[Errno 10054]现有连接被远程主机强制关闭
我正在使用 Twitter-py 编写 python 来抓取 Twitter 空间。我已将爬网程序设置为在每次请求 api.twitter.com 之间休眠一段时间(2 秒)。然而,经过一段时间的运行(a...
我想在自动化完成后将电影/连续剧的 IMDB 评级打印到终端
我使用 Google 搜索来查找元素,因为它似乎比 IMDB 更容易导航。 导入 selenium.webdriver 作为 webdriver print("该程序查找电影或电视剧的 IMDB 评级...
我使用 scrapy 创建了一个爬虫,从 Indeed 上抓取数据,希望将职位、公司、地点、描述、资格返回到 csv 文件中。但我遇到了问题:它没有返回...
WP 站点的 Live Robots.txt 与通过 SFTP 访问的本地 Robots.txt 不同
我有一个托管在 WPEngine 上的 Wordpress 站点,它通过端点充当我们网站的 CMS。 在Wordpress网站上,我安装了YoastSEO插件,并编辑了robots.txt文件...
仅禁止主页 ( / ) 并允许 robots.txt 的所有其他页面
我需要阻止 Google 网络爬虫仅爬行我的主页,位于 / 但我需要允许抓取所有其他页面。我怎样才能做到这一点? 我尝试这样做: 用户代理: * 迪萨洛...
我想使用Scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的文字换行符。 这是一个
我想使用scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的转义字符。 这是一个示例...
我需要为我正在运行的网站设置一个维护页面,例如当我执行站点维护(计划停机时间)或者某些东西确实发生故障而我需要暂停时显示...