使用Java将MHTML文件转换为pdf文件时如何保留标题内容?

问题描述 投票:0回答:1

下面我简单描述一下问题:

首先,我将 DOC 文件转换为 MHTML 文件(单个网页文件)。 其次,我想将此 MHTML 文件转换为 pdf 文件。但我发现新的pdf文件中页眉和页脚的内容丢失了。

我的代码如下:

Document doc = new Document("XXX.mht");
doc.save("XXX1.pdf", SaveFormat.PDF);

使用的工具包是aspose.jar;

有人知道原因吗?非常感谢您的回答。

我发现mht文件中的头部是这样写的:

<div style=3D'mso-element:header' id=3Dh1>

<div style=3D'mso-element:para-border-div;border:none;border-bottom:solid w=
indowtext 1.0pt;
mso-border-bottom-alt:solid windowtext .75pt;padding:0cm 0cm 1.0pt 0cm'>

<p class=3DMsoHeader><span lang=3DEN-US>This is the header</span></p>

</div>

</div>

但是当我将其转换为PDF文件时,这些内容就消失了。

java pdf itext aspose mhtml
1个回答
0
投票

MS Word 和 HTML/MHTML 文档的结构有很大不同,相互转换后不可能提供 100% 的保真度。由于 HTML 没有分页,因此很难将页眉和页脚有意义地输出到 HTML/MHTML。如果您使用 Aspose.Words 将 DOC 转换为 MHTML,默认情况下,在保存为 HTML/MHTML 时,Aspose.Words 仅导出每个部分文档的主页眉/页脚。因此,保留原始 DOC 文档格式的唯一方法是将 DOC 直接转换为 PDF。

© www.soinside.com 2019 - 2024. All rights reserved.