如何使用分隔符从单个文件创建多个文件？

Question

我正在尝试从带有分隔符的

.txt

文件生成多个文件。在本例中，列分隔符为

，记录分隔符为：

║

。

这是我正在尝试的代码：

awk -F'║', -vOFS=, -vc=1 '
NR == 1 {
    for (i=1; i<NF; i++) {
        if ($i != "") {
            g[c]=i;
            f[c++]=$i
        }
    }
}
NR>2 {
    for (i=1; i < c; i++) {
        print $1,$2, $g[i] > "output_"f[i]".tex"
    }
}' biennalis.txt

biennalis.csv

的内容是这样的：

name|content
║Is-id27-ref06-01-13-1914|El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:

 \textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.

 Se conmovieron los quicios y los dinteles a la voz de los que clamaban, y la casa se llenó de humo.

 Yo dije:

 \textquote{¡Ay de mí, que estoy perdido, pues soy un hombre de labios impuros, y entre un pueblo de labios impuros habito: que al rey el Señor de los ejércitos han visto mis ojos!}

 Entonces voló hacia mí uno de los serafines con una brasa en la mano, que con las tenazas había tomado de sobre el altar, y tocó mi boca y dijo:

 \textquote{He aquí que esto ha tocado tus labios: se ha retirado tu culpa, tu pecado está expiado.}

 Y percibí la voz del Señor que decía:

 \textquote{¿A quién enviaré? ¿y quién irá de parte nuestra}?

 Yo contesté:

 \textquote{Heme aquí: envíame.}

 Dijo:

 \textquote{Ve y di a ese pueblo: \textquote{Escuchad bien, pero no entendáis, ved bien, pero no comprendáis.} Engorda el corazón de ese pueblo, hazle duro de oídos, y pégale los ojos, no sea que vea con sus ojos y oiga con sus oídos, y entienda con su corazón, y se convierta y se le cure.}

 Yo pregunté:

 \textquote{¿Hasta dónde, Señor?}

 Y él me contestó:

 \textquote{Hasta que se vacíen las ciudades y queden sin habitantes, las casas sin hombres, la campiña desolada, y haya alejado el Señor a las gentes, y cunda el abandono dentro del país. Aun el décimo que quede en él volverá a ser devastado como la encina o el roble, en cuya tala queda un tocón. Este tocón será semilla santa.}


║Is-id27-ref01-01-18-0045|Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.

 Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.

 El buey conoce a su amo, y el asno el pesebre de su dueño; Israel no me conoce, mi pueblo no comprende}.

 ¡Ay, gente pecadora, pueblo cargado de culpas, raza malvada, hijos corrompidos! Han abandonado al Señor, han despreciado al santo de Israel, le han vuelto la espalda.

我期望的最终结果是单独的文件，其名称是第一列的内容，内容是第二列中的内容：

Is-id27-ref06-01-13-1914.tex

El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:

 \textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.

...

Is-id27-ref01-01-18-0045.tex

Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.

 Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.

...

等等...

执行命令时出现错误如下：

awk: syntax error at source line 10
    context is
        print $1,$2, $g[i] > >>>  "output_"f <<< [i]".tex"
awk: illegal statement at source line 10

Answer 1

您的脚本似乎正在做一些与您正在尝试的事情完全不同的事情。假设实际的输入文件格式正确，让我们放弃您所拥有的内容并重试。

awk 'FNR==1 { next }
  /[║|]/ { split($0, n, /║/);
    if(f) { print n[1] >>f; close(f) }
    split(n[2], m, /\|/);
    f = "output_" m[1] ".tex"; print m[2] >>f; next }
f { print >>f; next }
{ print "orphan input: " $0 }' biennalis.csv

这会分割其中包含

║

或

的任何行，并使用第一个字段作为新文件名的基础。它接受

║

之前的任何内容，并将其附加到之前打开的文件（如果有），因此分隔符可以出现在一行中的任何位置；但如果一行包含多个分隔符，这将以特殊的方式中断。

这至关重要地假设您在第一个条目之前有一个

║

，在文件名和该文件中所需的文本之间有

。

演示：https://ideone.com/jsRJKf

我原来的答案在 Linux 上运行良好，但在 MacOS 上不行：

awk 'BEGIN { RS="║"; FS="|" }
  FNR > 1 { o = "output_" $1 ".tex"; print $2 >>o; close(o) }' biennalis.csv

我们只需指示 Awk 使用正确的记录和字段分隔符，然后指示它将第二个字段打印到名称源自第一个字段的文件中。

如上所述，要使其工作，您必须在第一个条目之前有一个

║

，并在文件名和该文件中所需的文本之间有

。

演示：https://ideone.com/LU1y4Y

Answer 2

输入或输出重定向右侧未加括号的表达式是未定义的行为，因此不同的 awks 会用它做不同的事情，有些会做你想要的事情，而另一些会像你当前看到的那样失败。改变这个：

print $1,$2, $g[i] > "output_"f[i]".tex"

对此：

print $1,$2, $g[i] > ("output_"f[i]".tex")

解决该特定问题。

您可能遇到的下一个问题是您没有随时关闭输出文件，因此您可能会遇到一个进程一次可以打开的文件数量的限制。要解决此问题，请将循环更改为：

for (i=1; i < c; i++) {
    out = "output_"f[i]".tex"
    if ( !seen[out]++ ) {
        printf "" > out
    }
    print $1,$2, $g[i] >> out
    close(out)
}

带有

if

的

seen[]

语句是为了确保脚本在第一次写入时清空任何现有的输出文件 - 如果您在脚本外部处理该文件，则可以删除该

if

语句。

如何使用分隔符从单个文件创建多个文件？

问题描述投票：0回答：2

2个回答

最新问题

如何使用分隔符从单个文件创建多个文件？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2