我有一个富文本文档(.rtf或.doc),其中包含很多数据元素,需要读取这些数据元素并将其转换为XML或Json的结构化数据对象。这些文档在数据方面具有某些格式。我可以使用Java转换任何库吗?是否有人遇到过这种情况?
有人尝试过Apache POI或Apache Tika转换为XML
我将把这个任务分解成两个解析器和两个序列化器
对于1&2,使用POI是相当不错的标准。对于3&4,您还有更多选择,一个流行的选择是Jackson
我建议您查看RTF Parser Kit,可用于填充适合进一步处理或持久化的Java数据结构。