我有很多这样的数学作业表。(这是一页pdf的图像)
所以我想制作一个Python程序来随机从这些工作表中提取问题并将它们保存到pdf文件中。
我可以轻松地从 pdf 中取出整个文本,但我不知道如何区分问题,更大的问题是要评估的表达式,因为它们是方程的图像而不是 LATEX 形式,这是唯一的问题,我将管理除此之外的任何事情(例如将问题保存到 pdf 等)。
注意:我不是要求代码本身,而是要求提取问题的提示/想法。
谢谢你们的努力。
也许可以从句子释义器加上机器学习模型开始,将符号转化为书面语言形式。一旦你掌握了这一点,你就可以使用关键词频率分布来抓取网络。返回的平均问题现在被解释并浓缩为其一般相对概念,将给出一个新问题,该新问题旨在通过从人工智能已打包的这些一般新问题中随机选择来提供最佳的理解证明。如果您只想随机选择问题并逐字回答,那么相同的过程只需取出释义解析器并依赖于随机选择函数的抓取。如果我完全错过了球,请告诉我,但如果没有,希望这会有所帮助。
基于规则的方法:
使用 NLP 的生成式人工智能:
图书馆:
教程:
本结构化指南旨在帮助您利用传统的基于规则的方法和先进的 NLP 技术,自动化从 PDF 生成问题的过程。