text-extraction 相关问题

我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。这就是我现在所拥有的：代码： $css = << 我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。这就是我现在拥有的：代码： $css = <<<CSS /* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #cccaaa; background-color:#ababab; } #bar { background-color:#123456 } CSS; preg_match_all('/#(?:[0-9a-fA-F]{6})/', $css, $matches); 输出： Array ( [0] => Array ( [0] => #abcdef [1] => #cccaaa [2] => #ababab [3] => #123456 ) ) 我不知道如何指定只匹配那些以标点符号、空格或换行符结尾的颜色。由于十六进制颜色代码也可能由 3 个字符组成，因此您可以定义一个强制组和一组可选的字母和数字，因此长而详细的表示法将是： /#([a-f]|[A-F]|[0-9]){3}(([a-f]|[A-F]|[0-9]){3})?\b/ 或者，如果您想要一个漂亮而简短的版本，您可以说您想要 1 组或 2 组 3 个字母数字字符，并且它们应该不区分大小写地匹配 (/i)。 /#([a-f0-9]{3}){1,2}\b/i 如果正则表达式引擎支持此 posix 字符类，您也可以编写 [a-f0-9]，而不是 [[:xdigit:]]。在这种情况下，您可以跳过末尾的 /i，整个公式仅多了两个字符，但可以说更具描述性。 /#([[:xdigit:]]{3}){1,2}\b/ 接受的答案向您展示了如何使用正则表达式提取十六进制代码，因为这是提出的问题。如果您想要验证隔离字符串是否是十六进制代码，则可以使用两个非正则表达式函数。 if (ctype_xdigit($color) && strlen($color)==6) { // yay, it's a hex color! } GolezTrol 的答案的简短版本，避免两次写入字符集： /#([a-fA-F0-9]{3}){1,2}\b/ 尽管这个问题已经很久了，我还是想修改以下内容： ^#([[:xdigit:]]{3}){1,2}$，其中 [[:xdigit:]] 是 [a-fA-F0-9] 的简写。所以： <?php preg_match_all("/^#(?>[[:xdigit:]]{3}){1,2}$/", $css, $matches) ?> 这里还值得注意的是非捕获组的使用(?>...)，以确保我们不会将数据存储在我们本来不想存储的内存中。在线尝试我不完全确定我是否正确，但如果你只想在 CSS 行末尾匹配十六进制颜色： preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); 应该可以，我所做的就是添加可选的 \s; 字符组（可选的分号和空格）和换行符（不是可选的），它似乎可以工作。正如 @GolezTrol 指出的那样 #FFF;也有效。对此进行测试时： $css = '/* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #CAB; background-color:#ababab; }'; preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); var_dump($matches); 输出是： array (array('#CAB;','#ababab;')) 如果您还想支持十六进制颜色的 Alpha 通道，例如#FF0000AA（9位数字），您可以使用： // make sure it is a valid hexcolor value if (preg_match("/(#[0-9A-Fa-f]{8})|(#[0-9A-Fa-f]{3,6})/", $color)) { // valid hexcolor value } 这对于 4 位数字（例如“#F00”）、7 位数字（例如“#FF0000”）和 9 位数字（例如“#FF0055AA”）的十六进制颜色有效。

php css colors hex text-extraction

回答 6 投票 0

使用 SQL 从字符串中提取这些整数的最有效方法是什么？

我有一个工程数据表，我需要报告描述字段中提到的螺栓长度，以粗体标记：双头螺栓套件，SANS 1700，GR 8.8，SANS 1700，GR 8，镀锌 (8...

sql ssms text-extraction

回答 1 投票 0

获取指定子串之前的子串

$title = 'the.test.hd.part12'; 我需要保持角色的状态，直到找到“部分”这个词。应该返回 - the.test.hd.

php string text-extraction

回答 3 投票 0

使用 pdfminer 将 PDF 转换为 HTML？

我正在开发一个项目，将多个 PDF 文件转换为基本 HTML 以放入网站。我想从 PDF 中提取文本和字体大小以直接解析为 HTML 标签。我已经尝试过...

python pdf text-extraction pdfplumber

回答 1 投票 0

从一串逗号分隔的短语中，获取每个短语的第一个单词

我有一个字符串，例如： “abc b、bcd vr、cd deb” 我想取这个字符串的第一个单词，直到这种情况下的每个点都会产生“abc bcd cd”。我的...

php string text-extraction delimited

回答 5 投票 0

解析 HTML 并隔离在具有 id 属性的合格标签的已知前缀之后找到的整数

简单来说，我有一个前缀为“msg”的字符串，后跟一些用作列表项 ID 的数字例如 ........................<... 简单来说，我有一个前缀为“msg”的字符串，后跟一些用作列表项 ID 的数字例如 <li id="msg1"></li>..............<li id="msg1234567890"></li> 获取数字的最有效方法是什么？在 VB 中，我会执行以下操作： str = "msg1" str = right(str,len(str)-3) 我如何在 PHP 中做类似（或更高效）的事情？在 php 中也是一样（使用 substr）： $str = "msg1"; $str = substr($str,3); 只需使用预浸料： preg_match_all('%<li id="msg(\d+)"></li>%i', $subject, $result, PREG_PATTERN_ORDER); substr( $string, 3 ); 参见 https://www.php.net/manual/en/function.substr.php 解析有效的 HTML 时，请使用 HTML 解析器。下面演示了如何使用 DomDocument 和 XPath 查询来专门定位带有 li 前缀的 msg 值的 id 元素，然后在推送之前使用 sscanf() 隔离 msg 之后的整数（转换为整数）进入结果数组。代码：（演示） $html = <<<HTML <ul> <li id="msg1"></li> <li id="msg1234567890"></li> </ul> HTML; $dom = new DomDocument(); $dom->loadHTML($html); $xpath = new DOMXPath($dom); $result = []; foreach ($xpath->evaluate("//li[starts-with(@id, 'msg')]/@id") as $id) { sscanf($id->nodeValue, 'msg%d', $result[]); } var_export($result); 输出： array ( 0 => 1, 1 => 1234567890, )

php arrays string html-parsing text-extraction

回答 4 投票 0

从 PDF 中提取文本和字体大小？

我正在尝试创建一个Python脚本，通过提取文本和字体大小并将它们解析为HTML，使用pdfplumber将PDF转换为HTML，但是，我遇到了一些困难。我是

python pdf text-extraction pdfplumber

回答 1 投票 0

使用 pymupdf (fitz) 以自然阅读顺序提取文本

我尝试通过应用本教程使用 pymupdf 或 fitz 提取文本 https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 代替块...

python pdf text-extraction pymupdf

回答 1 投票 0

text-extraction 相关问题

最新问题