我正在研究文档布局分析,并一直在探索 CNN 和基于 Transformer 的网络来完成这项任务。通常,图像作为 3 通道 RGB 输入传递到这些网络。不过,我的数据源是PDF格式的,我可以直接从中提取准确的位置和字符信息。
我担心将此 PDF 数据转换为图像进行分析会导致宝贵的位置和字符信息丢失。我的想法是将 CNN 的输入维度从标准 3 个 RGB 通道修改为包含额外位置和字符信息的更高维度输入。
我了解 CNN 的工作原理,并高度怀疑这种方法可能行不通,但我很感激社区的任何反馈或建议。有没有人尝试过以这种方式增强输入通道,或者有人对将位置和字符数据直接集成到 CNN 有深入的了解吗?
我读过一些论文,其中研究人员尝试将位置和字符信息与 CNN 结合起来,但他们更关注基于网格的方法。电网变压器使用此类架构。
以下是一些关于基于网格的方法的论文,可能会有所帮助:
这些方法将带有布局信息的文本转换为 2D 语义表示:字符网格和句子网格。