使用 Python 删除 PDF 中的内容

问题描述 投票:0回答:1

我需要从 PDF 内容中清除大量 PDF,只保留其中的图像(PDF 的结构始终相同)。

以下是PDF内容截图:

enter image description here

黄色标记的图像是我要保留的图像,所有这些路径和文本以及其他较小的图像都将被删除。我已经检查了一些用于 PDF 的 Python 库,例如 PyPDF,但在我看来,它不允许我访问该内容,只能访问注释和注释等内容。

有人有解决办法吗?

python pdf
1个回答
0
投票

地籍(有线网络)计划的问题。它们是否经常平铺,因此对于一个计划,您可能只需要一张图像,但对于另一计划,您可能需要 4 或 6 个背景图像。

这是一个类似的,仅保留一张图像仍然保留其他数据。

enter image description here

原因是页面是以混合矢量颜色和其他标量变换的随机方式组成的。

35 0 obj
<</Length 4257>>
stream
q
.12 0 0 .12 0 0 cm
/R9 gs
q
193 247 3967 4485 re
W
n
q
0 4494.2 -3976.2 0 4160.1 237.9 cm
/R10 Do
Q
Q
q
4717.8 5875.72 m
4717.8 247.063 l
193.012 247.063 l
193.012 6817.49 l
4245.75 6817.49 l
4245.75 5875.72 l
4717.8 5875.72 l
W

这是可编程图表、绘图或绘图的常见方面,实际上是大多数 PDF 页面的合成方式。

© www.soinside.com 2019 - 2024. All rights reserved.