我目前正在尝试使用 PHPWord 库及其模板系统来处理 docx 文件。我已经找到并更新了一些人(不记得名字,但这并不重要)可以使用表的库的路径(复制其行,然后在每一行上使用 PHPWord 中的标准 setValue() )。
如果我创建自己的文档,xml中的数据是正常结构,因此要替换的变量${variable}位于它自己的标签中,如下所示:
<w:tbl>
<w:tr>
...
${variable}
</w:tr>
</w:tbl>
我简化了代码,在实际代码中还有许多其他标签描述尺寸、样式等。
我的问题是我必须处理其他人的文档,而我被禁止进行大的更改,我得到的文档在某些时候是一张带有一个空白行的表格。我添加 ${variable} 变量并通过 PHPWord 运行它。问题是,它失败了。经过一些研究,我发现源 XML 看起来像这样:
....
...
${va
...
riab
...
le}
....
(再次大幅简化,但你明白了)
这个结构对我来说是一个问题,因为克隆行的函数使用 strpos()、substr() 和正则表达式来工作,但不适用于这个结构(我无法想象优雅的方法来做到这一点)。
所以问题是 - 有谁知道 docx 为什么这样做以及如何防止他?我正在寻找通过 word 的解决方案,而不是 PHP(我需要当前的函数无需太多编辑即可工作)
我经常处理这个问题:
在word中,文档可以这样保存
<w:t>{</w:t>...
<w:t>variable</w:t>
<w:t>}</w:t>
因此,我创建了一个 JS 库,即使变量名称被拆分也可以工作:Docxtemplater(也可以在服务器端工作)。我在开发过程中发现,如果满足以下条件,则变量名称不会拆分:
我不认为有一种方法可以用 Word 中的一个命令来修复 docx 文档,但重写变量以将它们写在一笔中应该可行。
造成这种情况的主要原因是
proofErr
元素。 Word 会识别出它认为拼写错误的内容,并将其包装在 <w:proofErr>
元素中,不可避免地会拆分原始文本。
如果您遇到这种情况,我建议您执行以下操作,虽然很乏味,但唯一可靠的方法:
.docx
重命名为 .zip
。word\document.xml
。.zip
重命名为 .docx
。编辑
这个 Visual Studio 扩展 允许您直接编辑 OpenXML 包的内容。这允许您跳过步骤 1 和 2。