我试图从一些网站收集大量数据,将页面保存为PDF,然后将统计数据转换为文本格式以供进一步使用和分析。这些网站包含无法以任何其他方式批量访问的医疗数据。这些数据对于我的论文是必要的,能够对其进行分析将非常有帮助。
我的问题如下
在任何主要浏览器中都没有用于将页面打印为 PDF 的选项,但 Opera 浏览器中的“另存为 PDF”选项可以 - 这是实际获取完整数据的唯一方法。从给定页面创建 PDF 的其他形式会产生几乎空白的页面 - 例如,有对象,但没有描述它们的数据(数字)。 我已经尝试了各种修改 pdf 打印但无济于事。
我已经尝试过网络上的几种软件,这些软件声称是专门为从给定 URL 创建 pdf 的目的而构建的(包括 Adobe Acrobat),但它们都没有给出令人满意的输出 - 我得到的只是在空白页面上“加载应用程序”。从我设法整理的少量信息来看,该软件在实际创建 PDF 之前无法正确加载网页。如果我错了请纠正我。
说到重点 我可以进行无数次尝试来寻找另一种方法,但似乎没有其他解决方案,只能在 Opera 网络浏览器中自动执行 PDF 创建操作,这让我找到了你们先生们。
您能帮我自动化打开给定 URL(最好是从保存的 URL 列表)然后从该网页创建 PDF 的过程吗?这一切都在 Opera Web 浏览器中进行?
迄今为止采取的步骤
我设法发现 Chrome 片段过去可以通过某些扩展在 Opera 中工作,但现在不行了。
我还发现有浏览器测试程序可以完成这项工作,如果你知道如何编写某个任务(循环运行?)。
我还成功在 Windows 10 上安装了 Playwright,但甚至找不到将其连接到 Opera Web 引擎以控制浏览器行为的方法。
我已经成功服用了几次羟锌过量
Opera 是您发现将 PDF 保存为连续页面的独特工具。然而,在某些条件下,它也可以将页面保存为对流尺寸。所以我想说,在任何更快的浏览器中保存 PDF,然后将页面拼接在一起可能更简单。
这里是关于 Hydroxyzine 的常规保存,共 6 页,因此使用 Opera 在这里没有什么特别的。
但是,为了缝合这些页面,我们可以使用单个程序行。正如这里所讨论的https://stackoverflow.com/a/76783553/10802527关键是使用跨平台库cpdf,最简单的是使用指令:-
cpdf -impose-xy "1 0" Hydroxyzine.pdf -o Output.pdf
生成单页Output.pdf
您询问了“自动保存”编程,我之所以说在某些情况下最好通过常规方式保存,是因为这是同一页面的自动输出。所以请注意,它只有 5 页,因此缺少一些内容,这是由于 JavaScript 手风琴部分未扩展。
opera --headless --print-to-pdf=output.pdf Https://www.drugs.com/hydroxyzine.html