使用Python和Cython的工业强度自然语言处理(NLP)
具有Spacy的其他命名实体识别所需的培训数据量是多少? 我使用spacy模块查找输入文本的名称实体。我正在训练该模型以预测医学术语。我目前可以使用200万张医疗票据,我为此写了一个程序。
我想知道是否有人成功培训了一个新实体,可以使我对他们在至少具有某种可靠的实体认可所必需的培训中的个人经验有所了解。
我想做什么 我想通过使用NLP库,将动词从现在的时态转换为过去时态。 当她离开厨房时,他的声音跟随她。 #输出 当她离开
from presidio_anonymizer import PresidioAnonymizer from presidio_reversible_anonymizer import PresidioReversibleAnonymizer config = { "nlp_engine_name": "spacy", "models": [{"lang_code": "pl", "model_name": "pl_core_news_lg"}], } anonymizer = PresidioAnonymizer(analyzed_fields=["PERSON", "PHONE_NUMBER", "EMAIL_ADDRESS"], languages_config=config) anonymizer_tool = PresidioReversibleAnonymizer(analyzed_fields=["PERSON", "PHONE_NUMBER", "EMAIL_ADDRESS"], languages_config=config) text = "Jan Kowalski mieszka w Warszawie i ma e-mail [email protected]." anonymized_result = anonymizer_tool.anonymize(text) anon_result = anonymizer.anonymize(text) deanonymized_result = anonymizer_tool.deanonymize(anonymized_result) print("Anonymized text:", anonymized_result) print("Deanonymized text:", deanonymized_result) print("Map:", anonymizer_tool.deanonymizer_mapping) print("Anonymized text:", anon_result)
现在我有这样的文件集合:
如何在 SpaCy config.cfg 文件中注册自定义组件?
如标题所示: 我似乎已经遵循了所描述的文档,并且我在网上寻找有用的答案,但到目前为止还没有找到太多。非常感谢任何帮助!...
我想知道哪个版本的 Rasa 与哪个版本的 spaCy 兼容。 我尝试创建一个 Rasa==3.5.10、Spacy==3.2.4 的机器人,但不能。 我尝试使用另一个版本的 spacy ...
尝试在M1、vscode上创建聊天机器人。使用 chatterbot 但使用 spacy 时出现错误
嗨,我正在尝试使用chatterbot创建一个聊天机器人,对于我应该如何处理该错误有什么想法吗? 我的代码: ///这只是为了训练机器人/// 从聊天机器人导入 ChatBot 来自聊天机器人。
我想检测英语句子中动词的祈使语气。从这个问题我知道spaCy可以访问扩展的形态特征,但是当我使用它时我看不到它们,...
spaCy 的 EntityRuler 中具有不同标签的相似模式的匹配顺序是什么?
我正在尝试将 EntityRuler 管道添加到现有的统计 NER 模型中,以更好地处理更结构化的实体类型,例如数字、年龄和金钱。 然而,其中一些数字模式......
我正在使用 spacy 来完成一些下游任务,主要是名词短语提取。我的文本包含很多括号,在应用引理时,我注意到所有不结束句子的标点符号
阿罗哈!大家都知道如何在家安装模型: python -m spacy 下载 ru_core_news_md 但由于 Kaggle 上的 python 笔记本与全球网络隔离,因此似乎不可能这样做......
尝试使用 pip 在 M1 Mac 上安装 spaCy: pip install 'spacy[apple]' 出现错误: × 用于安装构建依赖项的 pip 子进程未成功运行。 │ 退出代码:1 ╰─> 参见上文...
将自定义 KB 附加到 Spacy“entity_linker”管道会使 NER 调用非常糟糕
我想单独使用自定义知识库来运行实体链接作业,而不是使用需要训练数据集/Spacy 语料库的第二步 ML 重新排序器。我希望 NEL 管道只能 ass...
我有来自多个网站的一系列产品评论,我正在尝试识别可能重复的评论(即所使用的词语非常相似)。我知道锅的空间很大...