我的问题相当简单,即使它的目的相当复杂。我将使用一个简单的例子:
AzzAyyAxxxxByyBzzB
所以通常我会想要得到
A
和 B
之间的所有内容。但是,由于第一个 A
和最后一个 B
(一对)之间的一些内容包含额外的 AB
对,我需要推迟比赛的结束。 (不确定最后一部分是否有意义)。
所以我正在寻找一些正则表达式,它可以让我得到以下输出:
Match 1
Group 1: AzzAyyAxxxxByyBzzB
Group 2: zzAyyAxxxxByyBzz
然后我再匹配一下得到:
Match 2
Group 1: AyyAxxxxByyB
Group 2: yyAxxxxByy
然后终于再次得到:
Match 3
Group 1: AxxxxB
Group 2: xxxx
显然,如果我在整个输入上尝试
(A(.*?)B)
,我会得到:
Match x
Group 1: AzzAyyAxxxxB
Group 2: zzAyyAxxxx
这不是我要找的:)
我希望这是有道理的。我知道如果这不能在正则表达式中完成,但我想在我放弃它并尝试其他方法之前我会问你们中的一些正则表达式向导。谢谢!
附加信息:
我正在做的项目是用Java编写的。
另一个问题是我正在解析一个可能包含以下内容的文档:
AzzAyyAxxxxByyBzzB
Here is some unrelated stuff
AzzAyyAxxxxByyBzzB
AzzzBxxArrrBAssssB
顶部
AB
对需要与底部 AB
对分开
您通过使用
?
使您的正则表达式明确变得不贪婪。只需将其保留,正则表达式将在匹配 B
: 之前消耗尽可能多的内容
(A(.*)B)
但是,一般来说,嵌套结构超出了正则表达式的范围。在这样的情况下:
AxxxByyyAzzzB
您现在还可以从第一个
A
到最后一个 B
进行匹配。如果这在您的场景中是可能的,那么您最好自己逐个字符地检查字符串并计算 A
和 B
来找出哪些属于同一组。
编辑:
现在您已经更新了问题,并且我们在评论中弄清楚了这一点,您确实遇到了多个连续对的问题。在这种情况下,使用不支持递归的正则表达式引擎无法完成此操作。
但是你可以切换到从内到外的搭配。
A([^AB]*)B
这只会获得最里面的对,因为分隔符之间既不能有
A
也不能有 B
。如果找到,您可以删除该对并继续下一场比赛。
如果使用多行模式,请使用字边界:
\bA(.*)B\b #for matches that does not start from beginning of line to end
或
^A(.*)B$ #for matches that start from beginning of line till end
仅使用正则表达式无法做到这一点。您所描述的更多是“上下文无关”而不是“常规”。为了解析这样的内容,您需要每次遇到“A”时将新上下文压入堆栈,并在每次遇到“B”时弹出堆栈。您需要更像是下推自动机的东西,而不是正则表达式。 使用此模式“[^AB]+[^AB]?”