为什么 Office OpenXML 在标签之间分割文本以及如何防止这种情况?

问题描述 投票:0回答:2

我目前正在尝试使用 PHPWord 库及其模板系统来处理 docx 文件。我已经找到并更新了一些人(不记得名字,但这并不重要)可以使用表的库的路径(复制其行,然后在每一行上使用 PHPWord 中的标准 setValue() )。

如果我创建自己的文档,xml中的数据是正常结构,因此要替换的变量${variable}位于它自己的标签中,如下所示:

<w:tbl>
    <w:tr>
        ...
         ${variable}
    </w:tr>
</w:tbl>

我简化了代码,在实际代码中还有许多其他标签描述尺寸、样式等。

我的问题是我必须处理其他人的文档,而我被禁止进行大的更改,我得到的文档在某些时候是一张带有一个空白行的表格。我添加 ${variable} 变量并通过 PHPWord 运行它。问题是,它失败了。经过一些研究,我发现源 XML 看起来像这样:

    ....
        ...
         ${va

        ...
         riab

        ...
         le}
    ....

(再次大幅简化,但你明白了)

这个结构对我来说是一个问题,因为克隆行的函数使用 strpos()、substr() 和正则表达式来工作,但不适用于这个结构(我无法想象优雅的方法来做到这一点)。

所以问题是 - 有谁知道 docx 为什么这样做以及如何防止他?我正在寻找通过 word 的解决方案,而不是 PHP(我需要当前的函数无需太多编辑即可工作)

openxml docx phpword
2个回答
7
投票

我经常处理这个问题:

在word中,文档可以这样保存

  <w:t>{</w:t>...
  <w:t>variable</w:t>
  <w:t>}</w:t>

因此,我创建了一个 JS 库,即使变量名称被拆分也可以工作:Docxtemplater(也可以在服务器端工作)。我在开发过程中发现,如果满足以下条件,则变量名称不会拆分:

  • 要查找的文本仅由 a-zA-Z 字符组成(无 {、$ 或 })
  • 如果文本不是一笔写的,文本可能会被分割:例如,如果你犯了拼写错误,写成了 ${varuable} ,然后进行编辑 -> ${variable},xml 中的文本很有可能会分裂。基本上,您必须一笔写出变量名称,如果您想编辑变量名称,请完全重写变量名称。

我不认为有一种方法可以用 Word 中的一个命令来修复 docx 文档,但重写变量以将它们写在一笔中应该可行。


3
投票

造成这种情况的主要原因是

proofErr
元素。 Word 会识别出它认为拼写错误的内容,并将其包装在
<w:proofErr>
元素中,不可避免地会拆分原始文本。

如果您遇到这种情况,我建议您执行以下操作,虽然很乏味,但唯一可靠的方法:

  1. .docx
    重命名为
    .zip
  2. 提取存档的内容。
  3. 打开
    word\document.xml
  4. 进行更正(即将分割的文本放在一起)并保存。
  5. .zip
    重命名为
    .docx

编辑

这个 Visual Studio 扩展 允许您直接编辑 OpenXML 包的内容。这允许您跳过步骤 1 和 2。

© www.soinside.com 2019 - 2024. All rights reserved.