我正在Python中逐一阅读这些行。如果它们包含句子的结尾,我必须将它们分开。我正在使用re.split功能:
words= re.split(r'[.!?]', line)
这很有效,除非我遇到诸如'St.'之类的缩写。有没有办法分开'。!?'但当它被用作'圣'时忽略?
您可以尝试使用负面的lookbehind:
words = re.split(r'(?<!St)[.!?]', line)
Demo