text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档（文本）中自动提取结构化信息的任务。

如何使用VBA提取字符串中两个相似字符之间的单词？

我需要从此字符串中提取 Wööörd_03： “https://Word01.com/Word_02/Wööörd_03/Word_04/Word_05=0” 我的代码没有，因为我得到不同的结果：子提取词() 暗淡的字符串作为圣...

excel vba string text-extraction

回答 1 投票 0

如何使用 PDFPlumber 从两列 PDF 中提取文本

我正在使用 python 进行主题建模任务，我想从年度/可持续发展报告中提取文本。然而我的问题是，当我尝试提取报告时，提取的行...

python text-extraction topic-modeling information-extraction pdfplumber

回答 1 投票 0

Google 表格：提取两个字符之间的文本

我有一个字段需要提取两个字符之间的文本。我找到了 REGEXEXTRACT 函数，并且仅当有一个字符时才使其工作。但我无法让它工作

regex google-sheets google-sheets-formula text-extraction

回答 2 投票 0

Google Sheets REGEXEXTRACT 用于提取 URL 查询参数的文本值

给定 A1 中的这个值： https://www.rositarococo.com/?modeload=modeload-sigma-1&adsetname=cbo-LLA1apilados&adname=Default+name+-+Conversiones&placement=Facebook_Mobile_Feed 例子为了...

regex google-sheets google-sheets-formula text-extraction

回答 1 投票 0

从 HTML 中提取主要内容

我正在寻找从 html 中提取主要文章内容的解决方案（非付费 API）。一般来说，我在.net 中工作。 python中有很多库，但.net中没有。当然我可以下载所有html...

html .net text-extraction

回答 1 投票 0

NLP - 特定文本提取

我必须从随机文本中识别国家/地区名称。我有国家名单。我正在努力寻找一种可以在国家/地区列表上训练模型的解决方案，当我提供随机文本时......

nlp text-extraction

回答 1 投票 0

PHP - 如何从包含杂项数据行的输入中识别电子邮件地址

提前为另一个电子邮件模式匹配查询道歉。这是我到目前为止所拥有的： $text = strtolower($intext); $lines = preg_split("/[\s]*[ ][\s]*/", $text); $pattern = '/[A-Za-z0-...

php email text-extraction

回答 1 投票 0

如何在Python中阅读pdf？ [重复]

如何在Python中阅读pdf？我知道一种将其转换为文本的方法，但我想直接从pdf中阅读内容。谁能解释一下 python 中的哪个模块最适合 pdf 提取

python python-2.7 pdf text-extraction

回答 2 投票 0

从 PDF 中提取阿拉伯语文本并向后获取文本

我制作了一个Python脚本，它可以获取带有短语的pdf并将它们提取到anki甲板中。该脚本对于非闪族语言效果很好，但是当有人要求我用 Ar 制作类似的套牌时......

python arabic pypdf text-extraction anki

回答 2 投票 0

提取以‘+’点缀的数字

我的表中有一个字符串格式的列，其中包含不同类型的折扣：整数小数复合折扣，即整数中间散布着 + 符号（例如 10+3，...

sql sql-server string text-extraction

回答 1 投票 0

从文本中获取单词和引用的短语作为数组

我想在 php 中使用正则表达式将单词和短语从字符串中分离出来。这些短语将用双引号和单引号分隔。正则表达式还必须包含

php regex quotes cpu-word text-extraction

回答 3 投票 0

如何从Document AI自定义提取器的JSON输出中提取有价值的信息？

我正在 Document AI 中使用一个简单的自定义提取器，它尝试在上传的任何 pdf 中查找以下字段：国家名字地址国家邮件地址城市我正在使用以下...

python google-cloud-platform ocr text-extraction google-cloud-document-ai

回答 1 投票 0

从逗号分隔的字符串中获取不带括号后缀的值

我如何分割下面的内容，以便所有“东西”都存储在一个数组中？ $string =“这里有东西（9），这里有东西2（20），东西3（30）”; 期望的结果： $something_a...

php text-extraction delimited

回答 2 投票 0

pdftotext 获取字体信息（字体系列、样式、大小）

我正在使用“pdftotext -bbox file.pdf”将 pdf 文件转换为 HTML。以下是输出的示例行：富我正在使用“pdftotext -bbox file.pdf”将 pdf 文件转换为 HTML。这是输出的示例行： <word xMin="351.852025" yMin="42.548936" xMax="365.689478" yMax="47.681498">foo</word> 有没有办法获取每个单词的字体信息，例如：字体系列，例如韦尔达纳样式，即无、粗体、斜体尺寸，例如字体大小9 我有兴趣知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。您可以使用 pdffonts 中的 poppler-utils 实用程序从 PDF（嵌入字体）中提取字体信息 - $ pdffonts textstr-05.pdf name type encoding emb sub uni object ID ------------------------------------ ----------------- ---------------- --- --- --- --------- LBLHZX+Roboto-Medium CID TrueType Identity-H yes yes yes 7 0 EDWRKS+Roboto-Medium TrueType WinAnsi yes yes yes 8 0 这里是如何检查哪个包在基于 RPM 的发行版上提供 poppler-utils 的示例： $ rpm -q --whatprovides /usr/bin/pdffonts poppler-utils-24.08.0-1.fc41.x86_64

text-extraction pdftotext poppler pdf-scraping xpdf

回答 1 投票 0

计算机视觉

我是计算机视觉新手。我正在尝试从视频帧和图像中提取文本。 github上提供的大部分代码都兼容python <3 versions. Any idea on how to proceed and...

computer-vision text-extraction

回答 3 投票 0

使用 iText 从 pdf 文件中提取文本列

我需要使用 iText 从 pdf 文件中提取文本。问题是：一些 pdf 文件包含 2 列，当我提取文本时，我得到一个文本文件，其中各列被合并为结果（即来自...的文本）

java pdf itext text-extraction

回答 6 投票 0

与文档智能 - Azure 认知服务相关

我在文档智能工作室（以前称为表单识别器）中构建了一个组合模型。它旨在从具有不同模式的不同类型文档中提取不同字段。 T...