我正在尝试用飞溅来擦除网络上的动态内容,我在Windows 10家庭版上。有没有办法使用Docker工具箱而不是docker-desktop来处理启动?
docker工具箱说,它是无法运行docker-desktop的系统的替代方案。 docker桌面应用程序对于启动非常重要,它需要Windows 10专业版或企业版。
我找不到配置docker-toolbox for splash的方法。在我的Windows 10家庭版上,是否有任何可能有助于使用docker-toolbox配置启动的指南。谢谢!
它也可以和docker-toolbox
一起使用。只需按照类似的过程进行操作,并确保提供可通过以下方式访问的docker全局URL:
docker-machine ip default
如果你不知道这个过程,这是一种方法,你可以使用scrapy-splash
:
# Install Docker 'http://docker.io/'
# Pull the image:
$ sudo docker pull scrapinghub/splash
# Start the container:
$ sudo docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash
# Splash is now available at 192.168.99.100 at ports 8050 (http) and 5023 (telnet).
scrapy.setting
# splash for scripting or js dependent web-page
# Access docker-machine ip=> docker-machine ip default
SPLASH_URL = '<docker-hosted machine ip:port>' # docker url
#SPLASH_URL = 'http://192.168.99.100:8050' # docker url
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
response.meta['splash'] = {'args': { 'html': 1, 'png': 1}, 'endpoint': 'render.json'}
yield scrapy.Request(response.url, callback=self.parse_page, meta=response.meta)
有关详细信息,请查看此文档: javascript-in-scrapy-with-splash splash-through-http-api