python - 将 docx 转换为 HTML,包括字体和字体大小

问题描述 投票:0回答:1

我正在尝试使用Python中的字体系列、字体大小和颜色将文件从Docx转换为HTML,我尝试了几种解决方案,即Python docxdocx2htmlPython Mammoth

但是这些软件包都不适合我。这些包正在转换为 HTML,但许多与样式相关的内容(即字体、大小和颜色)都被跳过。

我尝试使用Python打开和读取docx文件

zipfile
并获取word文件的XML,我得到了XML中的所有docx信息,所以现在我正在考虑在Python中将XML解析为HTML,也许我可以找到任何解析器为了这个目的。

这是我用 Python docx 尝试过的代码片段,但我在这里得到了

None
值。

d = Document('1.docx')
d_styles = d.styles
for key in d_styles:
    print(f'{key} : {d_styles[key]}')

对于 XML 使用

zipfile
这是我的代码片段。

docx = zipfile.ZipFile(path)
content = docx.read('word/document.xml').decode('utf-8')

任何帮助将不胜感激。

python xml-parsing python-docx mammoth
1个回答
0
投票

docx-parser-converter 库 可以将 docx 转换为 html,包含所有样式、编号、表格,包括来自不同 xml 文件(document.xml、numbering.xml 和 styles.xml)的样式继承。目前不支持图像、页眉、页脚、评论,因为我的项目不需要它,但如果人们提出问题并要求它,我会在将来添加它。其他一切都是所见即所得,它也适用于 docx 到 txt 的转换。

© www.soinside.com 2019 - 2024. All rights reserved.