嗨,我在 pandas 中有一个专栏,其结构如下
John Doe\n \n\n \n\n \nBlack
Jane Doe\r\n\n \r\n\n \r\n\n \r\nViolet
所有相关的不必要的字符串块都在名称对之后立即以 '\' 开头,并以 ' 结尾 '.
我希望将其分为两列,由名称对和后一个字符串组成
A 栏 | B 栏 |
---|---|
约翰·多伊 | 黑色 |
简·多伊 | 紫 |
非常感谢任何线索
我尝试了
df['column'].str.replace('\(.*$', '')
,但这给出了错误SyntaxError: unterminated string literal
。
我猜你想这样。如果您需要,它可以根据需要开发正则表达式模式。
import re
import pandas as pd
df = pd.DataFrame({'Unproccesed_data': ['John Doe\n \n\n \n\n \nBlack', 'Jane Doe\r\n\n \r\n\n \r\n\n \r\nViolet']})
df['Name'],df['Last_Name'] = df.Unproccesed_data.str.split('[\\n\\r]\s+')