我需要将带有彩色单词的 .docx 文件转换为 html。我尝试过庞大的图书馆,但颜色丢失了。我怎样才能实现我的目标?
import win32com.client
doc = win32com.client.GetObject("demo.docx")
doc.SaveAs (FileName="hey.html", FileFormat=8)
doc.Close ()
将 docx 转换为 html 同时保持样式和格式(包括编号、继承样式、表格等)的更好方法是使用 docx-parser-converter 库(我为我的另一个项目编写了它,并决定开源它)。使用方法如下:
from docx_parser_converter.docx_to_html import DocxToHtmlConverter
from docx_parser_converter.docx_parsers.utils import read_binary_from_file_path
docx_path = "path_to_your_docx_file.docx"
html_output_path = "output.html"
docx_file_content = read_binary_from_file_path(docx_path)
converter = DocxToHtmlConverter(docx_file_content, use_default_values=True)
html_output = converter.convert_to_html()
converter.save_html_to_file(html_output, html_output_path)