捕获可见网页内容(或文本),就像从浏览器复制一样

问题描述 投票:0回答:1

有没有办法捕获可见的网页内容或文本,就像从浏览器显示复制以便稍后解析一样(可能使用正则表达式等)?我并不是要清理 html 标签、javascript 等,而只是显示剩余的文本。 我想复制所有可见文本,因为某些样式元素可能会隐藏一些 html 文本,同时在浏览器中显示其他文本。 到目前为止,我已经研究过 nltk、lxml Cleaner 和 selenium,但没有运气。 也许我可以在 selenium 中捕获屏幕截图,然后使用 ocr 提取文本,但这似乎需要大量计算机? 感谢您的帮助!

python selenium-webdriver web-scraping screenshot
1个回答
2
投票

当然。使用 Selenium 并循环遍历所有可见、可显示的元素。

© www.soinside.com 2019 - 2024. All rights reserved.