如何使用数字后缀拆分文件

Question

我正在使用以下命令拆分文件。它应该每50,000行拆分并使用一个4位数字后缀。该文件大约有1.4亿行。

split -d -l -n 4 50000 domains.xml domains_

但是，当我运行时，我收到此错误：

split: -n: invalid number of lines
Try `split --help' for more information.

对此有什么正确的命令？

Answer 1

我会用awk。它使您可以更好地控制输出文件和文件名。它应该只是快速问。以下是将100行文件拆分为20个行块的方法：

awk 'NR%20==1 { file = FILENAME "_" sprintf("%04d", NR+19) } { print > file }' domains.xml

这应该创建一些文件，如：

file_0020
file_0040
file_0060
file_0080
file_0100

相应调整。 HTH。

Answer 2

由于GNU split的主要帮助说：

Usage: /usr/gnu/bin/split [OPTION]... [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is 'x'.  With no INPUT, or when INPUT
is -, read standard input.

Mandatory arguments to long options are mandatory for short options too.
  -a, --suffix-length=N   generate suffixes of length N (default 2)
      --additional-suffix=SUFFIX  append an additional SUFFIX to file names.
  -b, --bytes=SIZE        put SIZE bytes per output file
  -C, --line-bytes=SIZE   put at most SIZE bytes of lines per output file
  -d, --numeric-suffixes[=FROM]  use numeric suffixes instead of alphabetic.
                                   FROM changes the start value (default 0).
  -e, --elide-empty-files  do not generate empty output files with '-n'
      --filter=COMMAND    write to shell COMMAND; file name is $FILE
  -l, --lines=NUMBER      put NUMBER lines per output file
  -n, --number=CHUNKS     generate CHUNKS output files.  See below
  -u, --unbuffered        immediately copy input to output with '-n r/...'
      --verbose           print a diagnostic just before each
                            output file is opened
      --help     display this help and exit
      --version  output version information and exit

在我看来，你需要稍微重新组织你的选项：

split -a 4 -d -l 50000 domains.xml domains_

Answer 3

（来自manpage，GNU coreutils 8.21）你需要的似乎是-a / - suffix-length = N（生成长度为N的默认值（默认为2）），而不是-n / - number = CHUNKS（生成CHUNKS输出文件））

split -d -l 50000 -a 4 domains.xml domains_

你应该得到：domains_0000，domains_0001 ......

Answer 4

我不知道这是否对您有所帮助，但如果您在文件名前缀中添加1，即outfile1，您将最终得到：

outfile101
outfile102
outfile103

我知道这可能不是你想要的，但是各种程序都不能解析作业数组中的前导零等等，无论计算机科学家“总是从零开始计算”。至少通过这种方式，您可以使用更广泛的程序解析文件。

如何使用数字后缀拆分文件

问题描述投票：20回答：4

4个回答

最新问题

如何使用数字后缀拆分文件

问题描述 投票：20回答：4

4个回答

最新问题

问题描述投票：20回答：4