文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。
根据维基百科,“对于拉丁文字、打字文本的准确识别现在被认为很大程度上是在可以提供清晰成像的应用程序中解决的问题,例如扫描 p...
我需要帮助从我的一份谷歌文档中提取评论。基本上我想获取评论的文本以及评论框中的内容。例如,如果我评论...
有没有一种(对用户来说不显眼的)方法来使用 Javascript 获取页面中的所有文本?我可以获取 HTML、解析它、删除所有标签等,但我想知道是否有办法获取文本…
数据来自Wordpress元框,以单个长数组的形式。 我在元框中插入的数据如下所示: 莱茵雷司令1|0,75升|9,50欧元 莱茵雷司令2|0,75升|9,50欧元 铑...
我目前正在开发一个项目,我必须根据每个段落包含的主题给每个段落一个标签。 为了做到这一点,我从许多单词文档中提取每个段落......
我目前正在编写一个 PHP 函数,它应该可以帮助我从给定的自述文本中提取升级通知。 这是我的源文本: 在此通知之前的一些内容,例如带有版本的变更日志...
我需要从下面提供的字符串立即返回匹配项的帮助。我需要一个日期(括号之间)和状态(已注册/可联系): [2 月 28 日 13:22:37] 详细 [1111] chan_sip.c: --
我的输入字符串: AWS-HMAC-SHA256 凭证=eyJhbGciOiJIUzI1NiIsIngtc3MiOjEy/20160911/cn/user-service/request,SignedHeaders=主机;x-aws-date,签名=
所以我试图从 PDF 文件中提取英语和印地语文本。英文文本已正确提取。但是当我尝试提取印地语文本时,一些字符被圆形/正方形替换。 我
寻找专家,希望有人能够帮助我。 我有一个很长的联想产品清单,我正在寻找一种方法从中提取其产品编号。 问题是
com.google.firebase.functions.FirebaseFunctionsException:不存在图像
当我从 kotlin 代码调用函数注释图像时,我得到了 firebase Exception 的响应。 异常消息是===>“com.google.firebase.functions.FirebaseFunctionsException:没有图像
我想用python3编写一个函数,从有235页、大小为13.6mb的阿拉伯语pdf文件中提取数据,重点是从第51页到第67页(含)提取数据,然后过滤提取的数据...
我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。 这就是我现在所拥有的: 代码: $css = << 我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。 这就是我现在拥有的: 代码: $css = <<<CSS /* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #cccaaa; background-color:#ababab; } #bar { background-color:#123456 } CSS; preg_match_all('/#(?:[0-9a-fA-F]{6})/', $css, $matches); 输出: Array ( [0] => Array ( [0] => #abcdef [1] => #cccaaa [2] => #ababab [3] => #123456 ) ) 我不知道如何指定只匹配那些以标点符号、空格或换行符结尾的颜色。 由于十六进制颜色代码也可能由 3 个字符组成,因此您可以定义一个强制组和一组可选的字母和数字,因此长而详细的表示法将是: /#([a-f]|[A-F]|[0-9]){3}(([a-f]|[A-F]|[0-9]){3})?\b/ 或者,如果您想要一个漂亮而简短的版本,您可以说您想要 1 组或 2 组 3 个字母数字字符,并且它们应该不区分大小写地匹配 (/i)。 /#([a-f0-9]{3}){1,2}\b/i 如果正则表达式引擎支持此 posix 字符类,您也可以编写 [a-f0-9],而不是 [[:xdigit:]]。在这种情况下,您可以跳过末尾的 /i,整个公式仅多了两个字符,但可以说更具描述性。 /#([[:xdigit:]]{3}){1,2}\b/ 接受的答案向您展示了如何使用正则表达式提取十六进制代码,因为这是提出的问题。 如果您想要验证隔离字符串是否是十六进制代码,则可以使用两个非正则表达式函数。 if (ctype_xdigit($color) && strlen($color)==6) { // yay, it's a hex color! } GolezTrol 的答案的简短版本,避免两次写入字符集: /#([a-fA-F0-9]{3}){1,2}\b/ 尽管这个问题已经很久了,我还是想修改以下内容: ^#([[:xdigit:]]{3}){1,2}$,其中 [[:xdigit:]] 是 [a-fA-F0-9] 的简写。 所以: <?php preg_match_all("/^#(?>[[:xdigit:]]{3}){1,2}$/", $css, $matches) ?> 这里还值得注意的是非捕获组的使用(?>...),以确保我们不会将数据存储在我们本来不想存储的内存中。 在线尝试 我不完全确定我是否正确,但如果你只想在 CSS 行末尾匹配十六进制颜色: preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); 应该可以,我所做的就是添加可选的 \s; 字符组(可选的分号和空格)和换行符(不是可选的),它似乎可以工作。正如 @GolezTrol 指出的那样 #FFF;也有效。 对此进行测试时: $css = '/* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #CAB; background-color:#ababab; }'; preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); var_dump($matches); 输出是: array (array('#CAB;','#ababab;')) 如果您还想支持十六进制颜色的 Alpha 通道,例如#FF0000AA(9位数字),您可以使用: // make sure it is a valid hexcolor value if (preg_match("/(#[0-9A-Fa-f]{8})|(#[0-9A-Fa-f]{3,6})/", $color)) { // valid hexcolor value } 这对于 4 位数字(例如“#F00”)、7 位数字(例如“#FF0000”)和 9 位数字(例如“#FF0055AA”)的十六进制颜色有效。
我有一个工程数据表,我需要报告描述字段中提到的螺栓长度,以粗体标记: 双头螺栓套件,SANS 1700,GR 8.8,SANS 1700,GR 8,镀锌 (8...
$title = 'the.test.hd.part12'; 我需要保持角色的状态,直到找到“部分”这个词。 应该返回 - the.test.hd.
我正在开发一个项目,将多个 PDF 文件转换为基本 HTML 以放入网站。我想从 PDF 中提取文本和字体大小以直接解析为 HTML 标签。 我已经尝试过...
我有一个字符串,例如: “abc b、bcd vr、cd deb” 我想取这个字符串的第一个单词,直到这种情况下的每个点都会产生“abc bcd cd”。我的...
解析 HTML 并隔离在具有 id 属性的合格标签的已知前缀之后找到的整数
简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 ........................<... 简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 <li id="msg1"></li>..............<li id="msg1234567890"></li> 获取数字的最有效方法是什么? 在 VB 中,我会执行以下操作: str = "msg1" str = right(str,len(str)-3) 我如何在 PHP 中做类似(或更高效)的事情? 在 php 中也是一样(使用 substr): $str = "msg1"; $str = substr($str,3); 只需使用预浸料: preg_match_all('%<li id="msg(\d+)"></li>%i', $subject, $result, PREG_PATTERN_ORDER); substr( $string, 3 ); 参见 https://www.php.net/manual/en/function.substr.php 解析有效的 HTML 时,请使用 HTML 解析器。 下面演示了如何使用 DomDocument 和 XPath 查询来专门定位带有 li 前缀的 msg 值的 id 元素,然后在推送之前使用 sscanf() 隔离 msg 之后的整数(转换为整数)进入结果数组。 代码:(演示) $html = <<<HTML <ul> <li id="msg1"></li> <li id="msg1234567890"></li> </ul> HTML; $dom = new DomDocument(); $dom->loadHTML($html); $xpath = new DOMXPath($dom); $result = []; foreach ($xpath->evaluate("//li[starts-with(@id, 'msg')]/@id") as $id) { sscanf($id->nodeValue, 'msg%d', $result[]); } var_export($result); 输出: array ( 0 => 1, 1 => 1234567890, )
我正在尝试创建一个Python脚本,通过提取文本和字体大小并将它们解析为HTML,使用pdfplumber将PDF转换为HTML,但是,我遇到了一些困难。 我是
我尝试通过应用本教程使用 pymupdf 或 fitz 提取文本 https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 代替 块...