我想比较来自两个不同数据库的 2 个大对象表:
每个对象都是具有 30 个属性的科学出版物。目的是识别重复的标题。但由于标题在两个数据库中的输入方式并不完全相同,我想使用此答案中实现的编辑距离对出版物标题进行比较:Compare Strings Javascript Return %of Likely
我测试了两种方法:
这两个过程都非常耗时。您认为有更有效的方法吗?
非常感谢您的回答。
这个问题与所有编程语言固有的基本性能瓶颈有关。我假设您的目标是“简单地”通过任何必要的手段降低处理时间(因此不仅优化代码本身,还优化计算的完成方式)。
在这种情况下,根据我的经验,这些是大多数解决问题的方法:
threads
。基本上,使用“并行性”来加速该过程。您的情况可以相对容易地解决。
话题
worker threads
可能有助于加快处理速度(我认为您不需要
child process
es,但是为了以防万一,我会在这里列出他们的名字)。唯一的障碍是弄清楚如何拆分数组、处理它并将其合并回来。优化
的软件包提供了性能基准。根据它与您已有的功能相比的快(或慢)程度,您可能最好使用包的实现。但就目前而言,没有太多需要优化的地方。
最小化
精确匹配:首先遍历数组并检查精确匹配(可能是小写且没有特殊字符),然后从数组中删除它们
Continue stripping the array