我需要合并几个数据集(包括标题中提到的列表),以估计意大利 IUCN 物种评估的差距。我的主要数据集是意大利存在的所有动物物种的 20 年前清单,我想将其按物种和亚种名称合并到国家、欧洲和全球红色名录以及政策评估和优先级列表中。由于这么旧,我的参考清单可能有许多过时的物种名称以及亚种名称,这些名称在红色名录数据集中会出现不同。
我尝试过使用 Excel 中的合并工具或 RStudio 中的 fuzzyjoin,但这并不像我希望的那样有效,特别是对于那些多年来名称发生了巨大变化的物种。
这么长的物种列表(主清单和其他一些清单中的物种数量在 60,000 到 80,000 之间)不太可能手动处理以检查合并错误,所以我在这里询问 Python 中是否有机器学习方法(或任何其他方法)我上面没有列出)以高精度合并数据集。
谢谢!
附注我已经考虑过将数据集细分为物种和亚种,然后进行相应的合并,至少可以降低错误率。您推荐这个选项吗?