对于一个大学项目,我需要创建一个包含多个错误的数据集,每个错误都有一个与其关联的错误报告、GitHub 提交和 Stack Overflow 帖子。我正在寻找将这些元素链接在一起的方法,并考虑 BM25 等相似性评分技术。还有其他建议吗?
为深度学习/机器学习创建错误数据集 了解挑战 为机器学习创建强大的错误数据集是一项具有挑战性的任务,因为: