scrapy-splash 相关问题

scrapy-splash是一个scrapy插件,用于将Scrapy框架与Splash集成--JavaScript渲染服务

ScrapySplash表单要求方法不是post

我使用此请求使用scrapy plash进行表单请求,但它说该方法是没有的,飞溅只能处理和发布 产生splashformrequest(url, args = {'wait':5 ...

回答 1 投票 0

杂交剪裁等待页面加载

i天真地尝试了一个python

回答 1 投票 0

在https://www.diy.com/home-furniture-storage/cooking-dining/cookware.cat中,有一个“类别”列表:

在页面上的页面上://www.diy.com/home-furniture-storage/cooking-dining/cookware.cat,有一个“类别”列表:<section class="mb-xl"> <h2 class="mb-md !border-x-0 !border-t-0 pb-md text-lg font-bold [border:--border-normal]" data-testid="category-filters-list-title">Categories</h2> <a data-testid="link-component" class="inline-flex w-auto cursor-pointer items-start no-underline" data-discover="true" href="/home-furniture-storage/cooking-dining.cat"> <span class="my-xs text-[--color-text-light]">See more <span class="font-bold text-[--color-text]">Cooking &amp; dining</span></span> </a> <ul id=":R19lkd5:" data-testid="categories-list"> <!-- Category list items --> </ul> <div class="py-sm"> <button aria-expanded="false" aria-controls=":R19lkd5:" data-testid="show-more-categories" class="inline-flex w-auto cursor-pointer items-start underline hover:no-underline focus-visible:no-underline">Show more</button> </div> </section> 描述: 该页面最初显示“类别”列表的一部分。向下滚动时,一个“显示更多”按钮变得可见。单击此按钮将使用其他项目展开列表,并且按钮文本更改为“显示少”。 DOM更新以反映此更改。 dom更新示例: <section class="mb-xl"> <h2 class="mb-md !border-x-0 !border-t-0 pb-md text-lg font-bold [border:--border-normal]" data-testid="category-filters-list-title">Categories</h2> <a data-testid="link-component" class="inline-flex w-auto cursor-pointer items-start no-underline" data-discover="true" href="/home-furniture-storage/cooking-dining.cat"> <span class="my-xs text-[--color-text-light]">See more <span class="font-bold text-[--color-text]">Cooking &amp; dining</span></span> </a> <ul id=":R19lkd5:" data-testid="categories-list"> <!-- Expanded category list items --> </ul> <div class="py-sm"> <button aria-expanded="true" aria-controls=":R19lkd5:" data-testid="show-more-categories" class="inline-flex w-auto cursor-pointer items-start underline hover:no-underline focus-visible:no-underline">Show less</button> </div> </section> 对象: 主要任务是检索整个类别列表,而不仅仅是一部分。为了实现这一目标,LUA脚本需要: 滚动页面,直到“显示更多”按钮变得可见。 单击“显示更多”按钮以展开列表,将ARIA扩展的属性更改为“ True”。 扫描扩展的列表并收集所有项目。 问题: 是否可以使用Scrapy Splash执行此任务?具体: 滚动页面,直到可见“显示更多”按钮。 单击“显示更多”按钮,以确保列表扩展,并将ARIA扩展的属性更改为“ true”。 我已经安装了Splash桌面,在那里我尝试了各种LUA脚本选项,例如: function main(splash) splash:set_viewport_size(1024, 768) assert(splash:go("https://www.diy.com/home-furniture-storage/cooking-dining/cookware.cat")) splash:wait(3) -- Scroll down to ensure the button is visible splash:runjs("window.scrollTo(0, document.body.scrollHeight);") splash:wait(2) -- Find and click the "Show more" button local js_code = [[ var button = document.querySelector("button[data-testid='show-more-categories']"); if (button) { var event = new MouseEvent('click', { 'view': window, 'bubbles': true, 'cancelable': true }); button.dispatchEvent(event); return 'Clicked'; } else { return 'Button not found'; } ]] local result = splash:runjs(js_code) -- Wait for all asynchronous processes to complete splash:wait(10) -- Return the HTML of the page return { html = splash:html(), click_result = result } end 检测到该按钮,单击,但列表没有扩展,并且按钮的aria expanded =“ false”状态不会更改。 @@telman boltaev,我正在面对同样的问题,您找到了解决方案吗?

回答 0 投票 0

Lua脚本失败但JS在控制台工作

我有这个非常基本的 lua 脚本,它返回一个错误,但是直接在控制台中运行 querySelector 就可以了。 关于我的 lua 出了什么问题有什么提示吗? 函数 main(splash, args...

回答 2 投票 0

我正在使用docker自定义网络驱动程序macvlan运行splash容器

splash 未暴露在端口 8050 上。 #!/bin/bash # 自定义网络名称 NETWORK_NAME="我的网络" # 循环启动50个容器 对于我在{1..20} 做 docker 运行 -d \ --名称splash_$i \ ...

回答 1 投票 0

抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

Scrapy - 抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

Scrapy + Splash:连接被拒绝

我正在学习如何使用 scrapy +splash。我已经在虚拟环境中创建了一个项目,现在正在执行本教程:https://github.com/scrapy-plugins/scrapy-splash。 我已经跑了...

回答 3 投票 0

从 dockerhub 拉取镜像时出现 Docker Authentication required 错误

我在 Windows 上并尝试使用 powershell 提取 spcrapy-splash 基础映像。 命令是: docker pull scrapinghub/splash 我正在运行 docker 桌面。我做了 docker 登录并成功登录...

回答 3 投票 0

使用 Scrapy-Splash 从远程 AJAX 请求获取 HAR 数据

我正在抓取一个网页,该网页进行多次ajax调用来获取数据。 render.har 返回同一域中的数据,但不包括来自远程域的数据。有没有办法获得HAR...

回答 1 投票 0

Scrapysplash无法像我直接在浏览器终端中执行js那样

我最近尝试使用 scrapysplash 从网站上抓取数据,该网站在滚动到底部时会加载更多数据。网址:https://www.openrice.com/zh/hongkong/restaurants/district/%E5%B0%96%E6%B2%9...

回答 1 投票 0

Scrapysplash不加载动态内容

我正在使用 Splash 和 Scrapy 在页面中加载动态渲染的内容,但它没有按我的预期工作。 在setting.py中我设置了这些变量 SPIDER_MIDDLEWARES = { 'scrapy_splash。

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时,什么也没有发生,我只是得到一个空白的 CSV 文件,但如果我将所有报价项放入解析函数中,它就能够抓取报价。我究竟做错了什么? 定义...

回答 1 投票 0

没有 <a> 节点/href 属性的 Scrapy web

相信你做得很好! 我需要您的支持,我正在尝试抓取此网页:https://servicio.mapa.gob.es/regfiweb# 进入后,您必须前往: 布斯卡多雷斯。 产品。 我愿意

回答 1 投票 0

通过滚动抓取动态亚马逊页面

我正在尝试在亚马逊畅销书 100 中抓取特定类别的产品。例如 - https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0 100 个产品...

回答 2 投票 0

如何使用 chromium 引擎将 scrapy_splash 与 lua 结合使用?

您好, 我正在尝试为使用 javascript 的网站制作抓取机器人。我有大约 20 个来自该网站的网址,并且希望扩展到数百个,我需要经常抓取这些网址,所以我尝试了

回答 1 投票 0

Splash 无法呈现整个页面

我无法弄清楚如何通过启动来渲染整页。我尝试设置代理和不同的用户代理,但没有成功。包含内容的主 div 未呈现。如果有人 c...

回答 1 投票 0

如何将cloudscraper与scrapy一起使用

我正在尝试解析来自站点的数据,我使用scrapy,但该站点受cloudflare保护。我找到了解决办法,使用cloudscraper,这个cloudscraper确实可以绕过防护。但我没有

回答 1 投票 0

Scrapy 403 HTTP 状态代码未处理或不允许

我正在尝试使用 scrapy 和splash 从 ScienceDirect 网站上抓取文章用于学校项目,我尝试了很多在网上找到的解决方案,但我不断收到 403 禁止错误。我已经...

回答 1 投票 0

PYTHON:使用 scrapy 抓取 Researchgate.net 返回“Just a moment”而不是作者页面

对于一个项目,我想从researchgate收集合着数据。 我对网络抓取完全陌生,并为这个项目推荐了 scrapy。 我想从这个 url 开始抓取 (url = h...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.