我正在尝试使用Python中的字体系列、字体大小和颜色将文件从Docx转换为HTML,我尝试了几种解决方案,即Python docx、docx2html、Python Mammoth。
但是这些软件包都不适合我。这些包正在转换为 HTML,但许多与样式相关的内容(即字体、大小和颜色)都被跳过。
我尝试使用Python打开和读取docx文件
zipfile
并获取word文件的XML,我得到了XML中的所有docx信息,所以现在我正在考虑在Python中将XML解析为HTML,也许我可以找到任何解析器为了这个目的。
这是我用 Python docx 尝试过的代码片段,但我在这里得到了
None
值。
d = Document('1.docx')
d_styles = d.styles
for key in d_styles:
print(f'{key} : {d_styles[key]}')
对于 XML 使用
zipfile
这是我的代码片段。
docx = zipfile.ZipFile(path)
content = docx.read('word/document.xml').decode('utf-8')
任何帮助将不胜感激。
docx-parser-converter 库 可以将 docx 转换为 html,包含所有样式、编号、表格,包括来自不同 xml 文件(document.xml、numbering.xml 和 styles.xml)的样式继承。目前不支持图像、页眉、页脚、评论,因为我的项目不需要它,但如果人们提出问题并要求它,我会在将来添加它。其他一切都是所见即所得,它也适用于 docx 到 txt 的转换。