string-matching 相关问题

字符串匹配是在另一个字符串(“text”,“haystack”)中查找一个字符串(“pattern”,“needle”)的问题。

查找具有特定汉明距离的字符串 LINQ

如果我们运行以下(感谢@octavioccl 的帮助)LINQ 查询: var 结果 = stringsList .GroupBy(s => s) .Where(g => g.Count() > 1) .OrderByDescending(g => g.Count())...

回答 4 投票 0

Powershell .contains() 检查不区分大小写

我有一个更大的 foreach 循环代码,但需要在不区分大小写的情况下执行以下代码。 下面的代码片段返回 false,我如何忽略区分大小写的 .contains() 和条件 a...

回答 2 投票 0

正则表达式来匹配具有特定属性的 html 标签

我正在尝试匹配所有没有“term”或“range”属性的HTML标签 这是 HTML 格式示例 日期: 12/01/10 我正在尝试匹配所有没有“term”或“range”属性的 HTML 标签 这是示例 HTML 格式 <span class="inline prewrap strong">DATE:</span> 12/01/10 <span class="inline prewrap strong">MR:</span> 1234567 <span class="inline prewrap strong">DOB:</span> 12/01/65 <span class="inline prewrap strong">HISTORY OF PRESENT ILLNESS:</span> Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum <span class="inline prewrap strong">MEDICATIONS:</span> <span term="Advil" range="true">Advil </span>and Ibuprofen. 我的正则表达式是:<(.*?)((?!\bterm\b).)> 不幸的是,这匹配所有标签...如果内部文本不匹配,那就太好了,因为我需要过滤掉除具有该特定属性的标签之外的所有标签。 如果您喜欢正则表达式,那么这对我有用。 (注意 - 不包括过滤掉评论、文档类型和其他实体。 其他警告;标签可以嵌入脚本、评论和其他内容中。) span标签(w/ attr)没有术语|范围属性 '<span (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ >' 任何标签(w/ attr)无术语|范围属性 '<[A-Za-z_:][\w:.-]* (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ >' 任何标签(w/o attr)无术语|范围属性 '< (?: [A-Za-z_:][\w:.-]* (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ | /?[A-Za-z_:][\w:.-]*\s*/? ) >' 更新 使用 (?>) 结构的替代方案 以下正则表达式适用于无“术语|范围”属性 标志 = (g)global 和 (s)dotall 带属性的跨度标签 链接:http://regexr.com?2vrjr 正则表达式:<span(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+> 任何带有属性的标签 链接:http://regexr.com?2vrju 正则表达式:<[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+> 任何带有attr或wo/attr的标签 链接:http://regexr.com?2vrk1 正则表达式:<(?:[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+|/?[A-Za-z_:][\w:.-]*\s*/?)> '匹配除 term="occasionally" 之外的所有标签' 链接:http://regexr.com?2vrka <(?:[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)term\s*=\s*(["'])\s*occasionally\s*\1)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+|/?[A-Za-z_:][\w:.-]*\s*/?)> 我认为你应该使用 HTML 解析器来解决这个问题。创建自己的正则表达式是可能的,但肯定是错误的。想象一下你的代码包含这样的表达式 < span class = "a" >b< / span > 它也是有效的,但是考虑正则表达式中所有可能的空格和制表符并不容易,并且需要进行测试才能确保它按预期工作。 这将实现你想要的。它是为 Perl 程序编写的,格式可能会根据您使用的语言而有所不同 /(?! [^>]+ \b(?:item|range)= ) (<[a-z]+.*?>) /igx 下面的代码在 Perl 程序中演示了这种模式 use strict; use warnings; my $pattern = qr/ (?! [^>]+ \b(?:item|range)= ) (<[a-z]+.*?>) /ix; my $str = <<'END'; <span class="inline prewrap strong">DATE:</span> 12/01/10 <span class="inline prewrap strong">MR:</span> 1234567 <span class="inline prewrap strong">DOB:</span> 12/01/65 <span class="inline prewrap strong">HISTORY OF PRESENT ILLNESS:</span> Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum <span class="inline prewrap strong">MEDICATIONS:</span> <span term="Advil" range="true">Advil </span>and Ibuprofen. END print "$_\n" foreach $str =~ /$pattern/g; 输出 <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <\w+\s+(?!term).*?>(.*?)</.*?> 我认为这个正则表达式可以正常工作。 此正则表达式将选择任何 HTML 标签的样式属性。 <\s*\w*\s*style.*?> 您可以在 https://regex101.com 上查看

回答 5 投票 0

在两个大的 Pandas DataFrame 中查找 str.contains

我有一个大熊猫数据框,如下所示。 将 pandas 导入为 pd 将 numpy 导入为 np df = pd.DataFrame( [ (“1”、“迪克森街”、“奥克兰”)、 (“2&

回答 1 投票 0

.jl 文件:查找整个单词匹配,忽略“!”前缀

我想找到我的变量/表达式的整个单词匹配(用 julia 编写,fwiw),但发现 vscode 正在跳过前缀为 ! 的变量实例。 (Julia 中的布尔否定)。那我...

回答 1 投票 0

使用 shell 从 URL 中提取多个部分

我有一个像这样的URL:bbc:osdb://user=&pass=abc%sec=true 我想提取,,, 例子: 英国广播公司:osdb://293.23.234.55:1234/bbc-dt-af/user=john&pass=pass123abc%sec=true 应该返回: 29...

回答 2 投票 0

Pandas 数据帧比较中的完整字符串匹配

这看起来应该是一个很容易解决的问题,但我一直在与之斗争,似乎找不到解决方案。 我有两个不同大小和不同列名的数据框。我是...

回答 1 投票 0

对于模式搜索,Z 算法还是 KMP 算法哪种算法更好?

两种算法的时间复杂度均为 O(m+n)。 n 和 m 是要搜索的文本和模式的长度。 Z 算法的空间复杂度为 O(m+n),...

回答 2 投票 0

如何匹配函数但排除对象方法而不进行负向后查找

我正在尝试编写一个匹配每次出现的 some_function(...) 的正则表达式,但是当它是 my.some_function(...) 等对象方法的一部分或者它是子字符串时,它不应该匹配阳极...

回答 1 投票 0

列出java store JKS中所有LEAF证书的具体信息

我希望仅列出我们应用程序的签名证书,而不是来自 java 商店的链签名证书,即 /jre/lib/security/cacerts 或任何此类 JKS 商店。 这个想法...

回答 1 投票 0

如何在python中根据xml标签获取文本?

这里是新人! 谁能帮我提取 XML 标签之间的文本 SAMPLE HEADING?还有一种方法可以根据 XML 标签中的标题 1 到标题 6 提取文本吗?如果是的话,如何...

回答 1 投票 0

Python 3.12 Pandas Difflib Get_Close_Matches 比较数据框中的两个字符串并返回 % 匹配

使用不规则的 Excel 表时,我尝试通过查看数据框中列中的字符串来匹配问题,如果它与我的目标字符串非常匹配,则对 % 匹配进行评分。 我的方式...

回答 1 投票 0

在 pandas 或数据清理中自动识别和标准化相似名称的动态方法

我有一个 DataFrame,其中有一列发布者名称,其中包含同一发布者的各种细微变化。例如,“Harlequin Romance”、“Harlequin Blaze&q...”等条目

回答 1 投票 0

C++ 函数返回极其缓慢,远慢于功能等效的 python 代码

我有一个在我编写的脚本中使用的函数,用于从列表中删除多余的阻塞关键字。基本上,输入(以任何顺序): {“苹果”,“巴苹果”,...

回答 1 投票 0

从文本中的方括号 key=value 占位符获取值

我想从字符串中的占位符获取值。 $string = "blah blah blha lorem ipsum [get_this_value=10] 更多 lorem ipsum"; 我想要一个返回“10”的函数...

回答 2 投票 0

通过匹配列/索引名称,使用另一个数据框中的字符串值重命名Python中的数据框列

主要修改: 显然很难理解我的问题,所以我会尽力将其具体化。 我有两个数据框,“df1”和“df2”。这些相当大,比...

回答 1 投票 0

查找最长的词典。短语中的关键匹配

我有一个 SortedDictionary,按密钥长度降序排序,格式为: 红狐 - 地址1 黄鼠狼 - 地址2 狐狸 - 地址3 狐狸-地址3 ETC。 以及短语列表,例如...

回答 1 投票 0

有没有办法获得一个以逗号分隔的列表作为str_extract_all的输出而不是R中的默认输出?

我到处搜索,似乎没有人问过这个确切的问题,所以我很茫然。 我有一个包含几列的数据框。本专栏之一包含各种不...

回答 1 投票 0

FsRtlIsNameInExpression 永远不会匹配任何内容

我使用 Boyer-Moore 算法在内核驱动程序中进行字符串匹配,但我还需要实现基本的通配符支持。这个答案提到了函数 FsRtlIsNameInExpression,它......

回答 1 投票 0

识别 Pandas 中正确的字符串顺序

我有一个数据框,如下所示,显示每行中不同实体的关系。 孩子 家长 Ult_Parent 全家福 A032 A001 A039 A001、A032、A039、A040、A041、A043、A043、A045、...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.