下面我简单描述一下问题:
首先,我将 DOC 文件转换为 MHTML 文件(单个网页文件)。 其次,我想将此 MHTML 文件转换为 pdf 文件。但我发现新的pdf文件中页眉和页脚的内容丢失了。
我的代码如下:
Document doc = new Document("XXX.mht");
doc.save("XXX1.pdf", SaveFormat.PDF);
使用的工具包是aspose.jar;
有人知道原因吗?非常感谢您的回答。
我发现mht文件中的头部是这样写的:
<div style=3D'mso-element:header' id=3Dh1>
<div style=3D'mso-element:para-border-div;border:none;border-bottom:solid w=
indowtext 1.0pt;
mso-border-bottom-alt:solid windowtext .75pt;padding:0cm 0cm 1.0pt 0cm'>
<p class=3DMsoHeader><span lang=3DEN-US>This is the header</span></p>
</div>
</div>
但是当我将其转换为PDF文件时,这些内容就消失了。
MS Word 和 HTML/MHTML 文档的结构有很大不同,相互转换后不可能提供 100% 的保真度。由于 HTML 没有分页,因此很难将页眉和页脚有意义地输出到 HTML/MHTML。如果您使用 Aspose.Words 将 DOC 转换为 MHTML,默认情况下,在保存为 HTML/MHTML 时,Aspose.Words 仅导出每个部分文档的主页眉/页脚。因此,保留原始 DOC 文档格式的唯一方法是将 DOC 直接转换为 PDF。