我正在尝试从带有分隔符的
.txt
文件生成多个文件。在本例中,列分隔符为 |
,记录分隔符为:║
。
这是我正在尝试的代码:
awk -F'║', -vOFS=, -vc=1 '
NR == 1 {
for (i=1; i<NF; i++) {
if ($i != "") {
g[c]=i;
f[c++]=$i
}
}
}
NR>2 {
for (i=1; i < c; i++) {
print $1,$2, $g[i] > "output_"f[i]".tex"
}
}' biennalis.txt
biennalis.csv
的内容是这样的:
name|content
║Is-id27-ref06-01-13-1914|El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:
\textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.
Se conmovieron los quicios y los dinteles a la voz de los que clamaban, y la casa se llenó de humo.
Yo dije:
\textquote{¡Ay de mí, que estoy perdido, pues soy un hombre de labios impuros, y entre un pueblo de labios impuros habito: que al rey el Señor de los ejércitos han visto mis ojos!}
Entonces voló hacia mí uno de los serafines con una brasa en la mano, que con las tenazas había tomado de sobre el altar, y tocó mi boca y dijo:
\textquote{He aquí que esto ha tocado tus labios: se ha retirado tu culpa, tu pecado está expiado.}
Y percibí la voz del Señor que decía:
\textquote{¿A quién enviaré? ¿y quién irá de parte nuestra}?
Yo contesté:
\textquote{Heme aquí: envíame.}
Dijo:
\textquote{Ve y di a ese pueblo: \textquote{Escuchad bien, pero no entendáis, ved bien, pero no comprendáis.} Engorda el corazón de ese pueblo, hazle duro de oídos, y pégale los ojos, no sea que vea con sus ojos y oiga con sus oídos, y entienda con su corazón, y se convierta y se le cure.}
Yo pregunté:
\textquote{¿Hasta dónde, Señor?}
Y él me contestó:
\textquote{Hasta que se vacíen las ciudades y queden sin habitantes, las casas sin hombres, la campiña desolada, y haya alejado el Señor a las gentes, y cunda el abandono dentro del país. Aun el décimo que quede en él volverá a ser devastado como la encina o el roble, en cuya tala queda un tocón. Este tocón será semilla santa.}
║Is-id27-ref01-01-18-0045|Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.
Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.
El buey conoce a su amo, y el asno el pesebre de su dueño; Israel no me conoce, mi pueblo no comprende}.
¡Ay, gente pecadora, pueblo cargado de culpas, raza malvada, hijos corrompidos! Han abandonado al Señor, han despreciado al santo de Israel, le han vuelto la espalda.
我期望的最终结果是单独的文件,其名称是第一列的内容,内容是第二列中的内容:
Is-id27-ref06-01-13-1914.tex
El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:
\textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.
...
Is-id27-ref01-01-18-0045.tex
Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.
Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.
...
等等...
执行命令时出现错误如下:
awk: syntax error at source line 10
context is
print $1,$2, $g[i] > >>> "output_"f <<< [i]".tex"
awk: illegal statement at source line 10
您的脚本似乎正在做一些与您正在尝试的事情完全不同的事情。假设实际的输入文件格式正确,让我们放弃您所拥有的内容并重试。
awk 'FNR==1 { next }
/[║|]/ { split($0, n, /║/);
if(f) { print n[1] >>f; close(f) }
split(n[2], m, /\|/);
f = "output_" m[1] ".tex"; print m[2] >>f; next }
f { print >>f; next }
{ print "orphan input: " $0 }' biennalis.csv
这会分割其中包含
║
或 |
的任何行,并使用第一个字段作为新文件名的基础。它接受 ║
之前的任何内容,并将其附加到之前打开的文件(如果有),因此分隔符可以出现在一行中的任何位置;但如果一行包含多个分隔符,这将以特殊的方式中断。
这至关重要地假设您在第一个条目之前有一个
║
,在文件名和该文件中所需的文本之间有 |
。
我原来的答案在 Linux 上运行良好,但在 MacOS 上不行:
awk 'BEGIN { RS="║"; FS="|" }
FNR > 1 { o = "output_" $1 ".tex"; print $2 >>o; close(o) }' biennalis.csv
我们只需指示 Awk 使用正确的记录和字段分隔符,然后指示它将第二个字段打印到名称源自第一个字段的文件中。
如上所述,要使其工作,您必须在第一个条目之前有一个
║
,并在文件名和该文件中所需的文本之间有 |
。
输入或输出重定向右侧未加括号的表达式是未定义的行为,因此不同的 awks 会用它做不同的事情,有些会做你想要的事情,而另一些会像你当前看到的那样失败。改变这个:
print $1,$2, $g[i] > "output_"f[i]".tex"
对此:
print $1,$2, $g[i] > ("output_"f[i]".tex")
解决该特定问题。
您可能遇到的下一个问题是您没有随时关闭输出文件,因此您可能会遇到一个进程一次可以打开的文件数量的限制。要解决此问题,请将循环更改为:
for (i=1; i < c; i++) {
out = "output_"f[i]".tex"
if ( !seen[out]++ ) {
printf "" > out
}
print $1,$2, $g[i] >> out
close(out)
}
带有
if
的 seen[]
语句是为了确保脚本在第一次写入时清空任何现有的输出文件 - 如果您在脚本外部处理该文件,则可以删除该 if
语句。