parallel --pipepart --block -1 --jobs 10 -a large_file.csv grep -f small_file.csv
[我如何在基于多内核的单台计算机上使用GNU并行运行grep时,根据我使用的“ large_file”文件大小,“ small_file”文件大小和正在使用的计算机来设置block-size参数,以获取最快的性能(还是请纠正我(如果我在这里还缺少其他内容)?将其设置得太高或太低,我会遇到哪些性能问题/速度瓶颈?我理解what块大小会这样做,因为它将块中的large_file阻塞,然后将这些块发送给每个作业,但是我仍然不知道如何以及为什么这会影响执行速度。] >
有关命令:
parallel --pipepart --block 100M --jobs 10 -a large_file.csv grep -f small_file.csv
其中large_file.csv所在的位置:
123456 1 234567 2 345667 22
和其中small_file.csv:
1$
2$
依此类推...
谢谢!
[基于“ large_file”文件大小,“ small_file”文件大小和我正在使用的计算机,如何在具有多个内核的单台计算机上使用GNU并行运行grep时如何设置块大小参数?]] >
parallel --pipepart --block -1 --jobs 10 -a large_file.csv grep -f small_file.csv
[--block -1
将large_file.csv拆分为每个作业块一个块(此处为10个块)。
parallel --pipepart --block -1 --jobs 10 -a large_file.csv grep -f small_file.csv