text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

获取指定子串之前的子串

$title = 'the.test.hd.part12'; 我需要保持角色的状态,直到找到“部分”这个词。 应该返回 - the.test.hd.

回答 3 投票 0

使用 pdfminer 将 PDF 转换为 HTML?

我正在开发一个项目,将多个 PDF 文件转换为基本 HTML 以放入网站。我想从 PDF 中提取文本和字体大小以直接解析为 HTML 标签。 我已经尝试过...

回答 1 投票 0

从一串逗号分隔的短语中,获取每个短语的第一个单词

我有一个字符串,例如: “abc b、bcd vr、cd deb” 我想取这个字符串的第一个单词,直到这种情况下的每个点都会产生“abc bcd cd”。我的...

回答 5 投票 0

解析 HTML 并隔离在具有 id 属性的合格标签的已知前缀之后找到的整数

简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 ........................<... 简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 <li id="msg1"></li>..............<li id="msg1234567890"></li> 获取数字的最有效方法是什么? 在 VB 中,我会执行以下操作: str = "msg1" str = right(str,len(str)-3) 我如何在 PHP 中做类似(或更高效)的事情? 在 php 中也是一样(使用 substr): $str = "msg1"; $str = substr($str,3); 只需使用预浸料: preg_match_all('%<li id="msg(\d+)"></li>%i', $subject, $result, PREG_PATTERN_ORDER); substr( $string, 3 ); 参见 https://www.php.net/manual/en/function.substr.php 解析有效的 HTML 时,请使用 HTML 解析器。 下面演示了如何使用 DomDocument 和 XPath 查询来专门定位带有 li 前缀的 msg 值的 id 元素,然后在推送之前使用 sscanf() 隔离 msg 之后的整数(转换为整数)进入结果数组。 代码:(演示) $html = <<<HTML <ul> <li id="msg1"></li> <li id="msg1234567890"></li> </ul> HTML; $dom = new DomDocument(); $dom->loadHTML($html); $xpath = new DOMXPath($dom); $result = []; foreach ($xpath->evaluate("//li[starts-with(@id, 'msg')]/@id") as $id) { sscanf($id->nodeValue, 'msg%d', $result[]); } var_export($result); 输出: array ( 0 => 1, 1 => 1234567890, )

回答 4 投票 0

从 PDF 中提取文本和字体大小?

我正在尝试创建一个Python脚本,通过提取文本和字体大小并将它们解析为HTML,使用pdfplumber将PDF转换为HTML,但是,我遇到了一些困难。 我是

回答 1 投票 0

使用 pymupdf (fitz) 以自然阅读顺序提取文本

我尝试通过应用本教程使用 pymupdf 或 fitz 提取文本 https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 代替 块...

回答 1 投票 0

从 PDF 中提取时从文本中排除页码

我想使用 pypdf 包从实际文本中排除 PDF 的页码 从 pypdf 导入 PdfReader reader = PdfReader(“pdf-examples/kurdish-sample-2.pdf”) 全文=“...

回答 1 投票 0

尝试使用python从word中提取文本时出错?

我目前正在尝试用 Python 编写一个函数,该函数允许我从 .docx 文件中提取文本。为此,我使用 python-docx 库。我的程序也做了它应该做的事情,至少

回答 1 投票 0

获取XML字符串中二级标签的名称

我正在尝试从 XML 文件获取数据并将其转换为 JSON。 $xml = simplexml_load_file('types.xml','SimpleXMLElement',LIBXML_NOCDATA); $json = json_encode($xml); $array = json_decode(...

回答 2 投票 0

Excel - 在字符串中的特定文本后提取 2 个字符

我希望有人可以帮助我使用 Excel 公式来提取字符串中特定文本后的两个字符。 具体来说,该单元格包含以下文本“每 2 小时功率:1 航程:0...

回答 1 投票 0

从块文本中获取子字符串对并形成关联数组

如何过滤我的内容并在其他地方一起显示这些值。内容通过 XML 加载,并由我们的客户端填充。因此我无法更改这些值。问题是

回答 4 投票 0

从键中获取以特定子字符串开头的数字后缀

我有一个数组,在该数组中我有一个数组键,看起来像,show_me_160,这个数组键可能会稍微改变,所以有时页面可能会加载,数组键可能是show_me_120,我想...

回答 8 投票 0

正则表达式从 pdf 中提取段落并扩展到另一页

我是从 PDF 文件中提取数据的新手。我需要有关提取包含特定关键字的段落内容的帮助。我面临的问题是关键字是的段落,

回答 1 投票 0

获取字符串中最后一次出现空格后的子字符串[重复]

回显$cookie[4]; 结果: #HttpOnly_bacohuracm 假/真 0 PHPSESSID 3A8DB8BE067954EE327A56F7F8D8B19C 我想删除这部分: #HttpOnly_bacohuracm FALSE / TRUE 0 PHPSESSID 并且只得到...

回答 2 投票 0

获取最后一个正斜杠之后的字符串剩余部分

如何收集最后一个/之后的所有内容? 我正在提取 Google GData 使用的 ID。 我的示例字符串是 http://spreadsheets.google.com/feeds/spreadsheets/p1f3JYcCu_cb0i0JYuCu123 哪里...

回答 8 投票 0

Pdf2text 无法在 Azure 函数应用程序中工作

我使用 textract 构建了一个脚本,它读取 pdf 文件的内容。其中包含以下函数: 导入文本 导入临时文件 def read_file(字节): 与 tempfile.NamedTemporar...

回答 1 投票 0

Javascript:从 PDF 中提取选定的文本到 JavaScript 中的输入文本框

我正在开发一个项目,其中应将选定的 PDF 文本复制到光标所在的输入文本框。 有2个窗户。 1:输入文本框在哪里 2:PDF 是...

回答 1 投票 0

pypdf 文本提取在某些 PDF 上抛出 IndexError

我正在使用Python(v 3.10.11)和pypdf(v 3.17.0)从多个PDF中提取文本。 最近,我遇到了一种特殊类型的文件,我无法从中提取文本,因为库抛出了一个

回答 1 投票 0

如何从 PDF 中提取表格作为文本

我有一个 PDF,其中包含表格、文本和一些图像。我想在 PDF 中任何有表格的地方提取表格。 现在正在手动从页面中查找表。从那里我...

回答 4 投票 0

为什么从 PDF 文件中提取表格数据很困难?

我有一个关于从 PDF 文件中提取文本(精确的表格数据)的一般性问题。 PDF 查看器如何阅读和显示表格?为什么我们不能获得必要的专栏

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.