我用 python 和 fitz 从 PDF 中获取姓名信息。
问题是,大多数信息都有空格来匹配背景,例如:名字=“
P I E R R E
”和姓氏“L E D U C D E C O L
”。
我需要删除字符之间的空格不与其他空格相邻。
当然,一开始我用“
s/\s//g
”删除了所有空格,但对于名称,它给了我“LEDUCDECOL
”,我需要“LE DUC DE COL
”。
# doing it with no loop, just regex
re.sub(r'\s+', " ",
re.sub(r'(LE|DUC|DE)', r" \1 ",
re.sub(r'\s', "", firstname + lastname)))
PIERRE LE DUC DE COL