从纯文本中提取结构化数据的实用方法:寻找想法和反馈

问题描述 投票:0回答:1

我是一个本地乘车分享Facebook组的成员。该组特定于两个城市以及介于两者之间的所有内容,因此该帖子(主要是这样):

  • “我明天下午要从A市开车到Z市”
  • “任何人都想今晚从Z市加入-> A市今晚”
  • “明天下午4点,我需要从城市D开车到城市Z”

因此,我一直在思考为它构建一个简单的搜索引擎的可能方法,人们可以在其中选择日期/时间以及需要去的方向。我在想,最后,我希望有一个结构化的元组,例如{start: 'city A', end: 'city Z', time: '15/04/2020 14:00'}。 (我可能会从帖子元数据中获取日期。)

我在NLP /文本挖掘技术方面还不那么先进,可以在生产中使用它,所以我正在这里寻找我的想法的一些输入:

选项a):基于规则的方法

  • 使用像StanfordNLP这样的通用NLP库
  • [通过预处理(停用词删除,...),POS标记等构建经典管道
  • 注释我们知道的所有城市,并为缩写定义同义词
  • 创建足够的特定规则以涵盖大多数情况
  • 可能是一个可靠的基准,但还是一如既往:边缘案例很可能很乏味

选项b):监督学习

  • 以“ City A-> Z”和“ City Z-> A”为分类的分类问题
  • 问题1:需要手工标记的数据集
  • 问题2:城市A和Z之间的子路线变得困难
  • 不是我最喜欢的选项

选项c):无监督学习>
  • 使用自动编码器从帖子中提取有用的信息

  • 不需要手工标记数据
  • 理想情况下,潜在空间表示将包含我需要的所有信息
  • 选项c)是我最喜欢的,也是技术上最有趣的选项,但是我刚刚开始阅读有关此主题的内容。我对此有一些想法:

    • 我如何将自动编码器指向我特别感兴趣的信息?
    • 我读过可变自动编码器,您可以手动将瓶颈设置为“足够薄”,以便压缩后的代码包含您要查找的内容。这是一个反复试验的过程,还是背后有任何直觉?
    • 自动编码器甚至是从文本中提取结构化数据的正确选择吗?
    • 您看到我可能错过的其他方法吗?
    • 我真的很感谢您的一些想法,评论,论文或书籍推荐。在当前的所有停机时间中,我希望对此进行一些动手工作,并获得更多有关无监督学习的经验。

    我是一个本地乘车分享Facebook组的成员。该小组专门针对两个城市以及介于两者之间的所有事物,因此该职位(主要)是这样的:“我要从城市A开车到城市Z ...

    nlp text-mining information-retrieval unsupervised-learning information-extraction
    1个回答
    0
    投票

    这个主意超酷!我认为,如果帖子内容很明确,则选项A可能会很好地工作,但实际上并不那么令人兴奋。

    © www.soinside.com 2019 - 2024. All rights reserved.