当物种名称不一致时,如何将 80,000 个物种的数据集与多次评估的红色名录数据合并

问题描述 投票:0回答:1

我需要合并几个数据集(包括标题中提到的列表),以估计意大利 IUCN 物种评估的差距。我的主要数据集是意大利存在的所有动物物种的 20 年前清单,我想将其按物种和亚种名称合并到国家、欧洲和全球红色名录以及政策评估和优先级列表中。由于这么旧,我的参考清单可能有许多过时的物种名称以及亚种名称,这些名称在红色名录数据集中会出现不同。

我尝试过使用 Excel 中的合并工具或 RStudio 中的 fuzzyjoin,但这并不像我希望的那样有效,特别是对于那些多年来名称发生了巨大变化的物种。

这么长的物种列表(主清单和其他一些清单中的物种数量在 60,000 到 80,000 之间)不太可能手动处理以检查合并错误,所以我在这里询问 Python 中是否有机器学习方法(或任何其他方法)我上面没有列出)以高精度合并数据集。

谢谢!

附注我已经考虑过将数据集细分为物种和亚种,然后进行相应的合并,至少可以降低错误率。您推荐这个选项吗?

merge dataset fuzzyjoin
1个回答
0
投票

我不知道有任何类似问题的 ML 方法,但 R 中的

taxize
库可能会有所帮助。 Here 是该库的 github 存储库。具体来说,有
gnr_resolve()
函数,它可能非常适合您的用例。请参阅该函数的文档此处

另一个可能有用的库是

taxdb
,它说它可以用来将分类名称解析为标识符,但我从未使用过它。回购这里.

您还可以循环遍历物种,发出您有多少缺失条目,以便您了解数据集中按分类单元的错误率。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.