string-matching 相关问题

字符串匹配是在另一个字符串(“text”,“haystack”)中查找一个字符串(“pattern”,“needle”)的问题。


匹配类似名称

我有一个包含三列的数据库:姓名,职业和组织。在这些列中,我的名称略有不同。例如,安妮·苏·弗兰克(Anne Sue Frank)和安妮·S·弗兰克(Anne S.)

回答 1 投票 0

返回Python字符串中第一个非空白字符的最低索引

在 Python 中执行此操作的最短方法是什么? 字符串=“xyz” 必须返回索引 = 3

回答 8 投票 0

Excel 多列求和索引匹配

我在尝试解决问题时遇到了重大问题。本质上,我需要一个复制 SUMIFS 函数的 Excel 公式,因为看起来 sumifs 在我的场景中不起作用。有效...

回答 1 投票 0

如何匹配表中交叉引用的名称而不重复

有智慧的人, 我会让活动参与者注册,除了个人详细信息外,他们还提供双人合作伙伴的姓名或将其留空。所以,我会有两个专栏,参与...

回答 1 投票 0

为什么正则表达式从末尾开始搜索第二组?

我在应用程序中进行搜索并使用正则表达式突出显示找到的匹配项。但我注意到有时它的匹配有点不正确(?)。 例如,正则表达式(不区分大小写):(the).*(te)。以及测试结果...

回答 1 投票 0

查找具有特定汉明距离的字符串 LINQ

如果我们运行以下(感谢@octavioccl 的帮助)LINQ 查询: var 结果 = stringsList .GroupBy(s => s) .Where(g => g.Count() > 1) .OrderByDescending(g => g.Count())...

回答 4 投票 0

Powershell .contains() 检查不区分大小写

我有一个更大的 foreach 循环代码,但需要在不区分大小写的情况下执行以下代码。 下面的代码片段返回 false,我如何忽略区分大小写的 .contains() 和条件 a...

回答 2 投票 0

正则表达式来匹配具有特定属性的 html 标签

我正在尝试匹配所有没有“term”或“range”属性的HTML标签 这是 HTML 格式示例 日期: 12/01/10 我正在尝试匹配所有没有“term”或“range”属性的 HTML 标签 这是示例 HTML 格式 <span class="inline prewrap strong">DATE:</span> 12/01/10 <span class="inline prewrap strong">MR:</span> 1234567 <span class="inline prewrap strong">DOB:</span> 12/01/65 <span class="inline prewrap strong">HISTORY OF PRESENT ILLNESS:</span> Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum <span class="inline prewrap strong">MEDICATIONS:</span> <span term="Advil" range="true">Advil </span>and Ibuprofen. 我的正则表达式是:<(.*?)((?!\bterm\b).)> 不幸的是,这匹配所有标签...如果内部文本不匹配,那就太好了,因为我需要过滤掉除具有该特定属性的标签之外的所有标签。 如果您喜欢正则表达式,那么这对我有用。 (注意 - 不包括过滤掉评论、文档类型和其他实体。 其他警告;标签可以嵌入脚本、评论和其他内容中。) span标签(w/ attr)没有术语|范围属性 '<span (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ >' 任何标签(w/ attr)无术语|范围属性 '<[A-Za-z_:][\w:.-]* (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ >' 任何标签(w/o attr)无术语|范围属性 '< (?: [A-Za-z_:][\w:.-]* (?=\s) (?! (?:[^>"\']|(?>".*?"|\'.*?\'))*? (?<=\s) (?:term|range) \s*= ) \s+ (?:".*?"|\'.*?\'|[^>]*?)+ | /?[A-Za-z_:][\w:.-]*\s*/? ) >' 更新 使用 (?>) 结构的替代方案 以下正则表达式适用于无“术语|范围”属性 标志 = (g)global 和 (s)dotall 带属性的跨度标签 链接:http://regexr.com?2vrjr 正则表达式:<span(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+> 任何带有属性的标签 链接:http://regexr.com?2vrju 正则表达式:<[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+> 任何带有attr或wo/attr的标签 链接:http://regexr.com?2vrk1 正则表达式:<(?:[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)(?:term|range)\s*=)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+|/?[A-Za-z_:][\w:.-]*\s*/?)> '匹配除 term="occasionally" 之外的所有标签' 链接:http://regexr.com?2vrka <(?:[A-Za-z_:][\w:.-]*(?=\s)(?!(?:[^>"\']|"[^"]*"|\'[^\']*\')*?(?<=\s)term\s*=\s*(["'])\s*occasionally\s*\1)(?!\s*/?>)\s+(?:".*?"|\'.*?\'|[^>]*?)+|/?[A-Za-z_:][\w:.-]*\s*/?)> 我认为你应该使用 HTML 解析器来解决这个问题。创建自己的正则表达式是可能的,但肯定是错误的。想象一下你的代码包含这样的表达式 < span class = "a" >b< / span > 它也是有效的,但是考虑正则表达式中所有可能的空格和制表符并不容易,并且需要进行测试才能确保它按预期工作。 这将实现你想要的。它是为 Perl 程序编写的,格式可能会根据您使用的语言而有所不同 /(?! [^>]+ \b(?:item|range)= ) (<[a-z]+.*?>) /igx 下面的代码在 Perl 程序中演示了这种模式 use strict; use warnings; my $pattern = qr/ (?! [^>]+ \b(?:item|range)= ) (<[a-z]+.*?>) /ix; my $str = <<'END'; <span class="inline prewrap strong">DATE:</span> 12/01/10 <span class="inline prewrap strong">MR:</span> 1234567 <span class="inline prewrap strong">DOB:</span> 12/01/65 <span class="inline prewrap strong">HISTORY OF PRESENT ILLNESS:</span> Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum <span class="inline prewrap strong">MEDICATIONS:</span> <span term="Advil" range="true">Advil </span>and Ibuprofen. END print "$_\n" foreach $str =~ /$pattern/g; 输出 <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <span class="inline prewrap strong"> <\w+\s+(?!term).*?>(.*?)</.*?> 我认为这个正则表达式可以正常工作。 此正则表达式将选择任何 HTML 标签的样式属性。 <\s*\w*\s*style.*?> 您可以在 https://regex101.com 上查看

回答 5 投票 0

在两个大的 Pandas DataFrame 中查找 str.contains

我有一个大熊猫数据框,如下所示。 将 pandas 导入为 pd 将 numpy 导入为 np df = pd.DataFrame( [ (“1”、“迪克森街”、“奥克兰”)、 (“2&

回答 1 投票 0

.jl 文件:查找整个单词匹配,忽略“!”前缀

我想找到我的变量/表达式的整个单词匹配(用 julia 编写,fwiw),但发现 vscode 正在跳过前缀为 ! 的变量实例。 (Julia 中的布尔否定)。那我...

回答 1 投票 0

使用 shell 从 URL 中提取多个部分

我有一个像这样的URL:bbc:osdb://user=&pass=abc%sec=true 我想提取,,, 例子: 英国广播公司:osdb://293.23.234.55:1234/bbc-dt-af/user=john&pass=pass123abc%sec=true 应该返回: 29...

回答 2 投票 0

Pandas 数据帧比较中的完整字符串匹配

这看起来应该是一个很容易解决的问题,但我一直在与之斗争,似乎找不到解决方案。 我有两个不同大小和不同列名的数据框。我是...

回答 1 投票 0

对于模式搜索,Z 算法还是 KMP 算法哪种算法更好?

两种算法的时间复杂度均为 O(m+n)。 n 和 m 是要搜索的文本和模式的长度。 Z 算法的空间复杂度为 O(m+n),...

回答 2 投票 0

如何匹配函数但排除对象方法而不进行负向后查找

我正在尝试编写一个匹配每次出现的 some_function(...) 的正则表达式,但是当它是 my.some_function(...) 等对象方法的一部分或者它是子字符串时,它不应该匹配阳极...

回答 1 投票 0

列出java store JKS中所有LEAF证书的具体信息

我希望仅列出我们应用程序的签名证书,而不是来自 java 商店的链签名证书,即 /jre/lib/security/cacerts 或任何此类 JKS 商店。 这个想法...

回答 1 投票 0

如何在python中根据xml标签获取文本?

这里是新人! 谁能帮我提取 XML 标签之间的文本 SAMPLE HEADING?还有一种方法可以根据 XML 标签中的标题 1 到标题 6 提取文本吗?如果是的话,如何...

回答 1 投票 0

Python 3.12 Pandas Difflib Get_Close_Matches 比较数据框中的两个字符串并返回 % 匹配

使用不规则的 Excel 表时,我尝试通过查看数据框中列中的字符串来匹配问题,如果它与我的目标字符串非常匹配,则对 % 匹配进行评分。 我的方式...

回答 1 投票 0

在 pandas 或数据清理中自动识别和标准化相似名称的动态方法

我有一个 DataFrame,其中有一列发布者名称,其中包含同一发布者的各种细微变化。例如,“Harlequin Romance”、“Harlequin Blaze&q...”等条目

回答 1 投票 0

C++ 函数返回极其缓慢,远慢于功能等效的 python 代码

我有一个在我编写的脚本中使用的函数,用于从列表中删除多余的阻塞关键字。基本上,输入(以任何顺序): {“苹果”,“巴苹果”,...

回答 1 投票 0

© www.soinside.com 2019 - 2025. All rights reserved.