如何使用分隔符从单个文件创建多个文件?

问题描述 投票:0回答:2

我正在尝试从带有分隔符的

.txt
文件生成多个文件。在本例中,列分隔符为
|
,记录分隔符为:

这是我正在尝试的代码:

awk -F'║', -vOFS=, -vc=1 '
NR == 1 {
    for (i=1; i<NF; i++) {
        if ($i != "") {
            g[c]=i;
            f[c++]=$i
        }
    }
}
NR>2 {
    for (i=1; i < c; i++) {
        print $1,$2, $g[i] > "output_"f[i]".tex"
    }
}' biennalis.txt

biennalis.csv
的内容是这样的:

name|content
║Is-id27-ref06-01-13-1914|El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:

 \textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.

 Se conmovieron los quicios y los dinteles a la voz de los que clamaban, y la casa se llenó de humo.

 Yo dije:

 \textquote{¡Ay de mí, que estoy perdido, pues soy un hombre de labios impuros, y entre un pueblo de labios impuros habito: que al rey el Señor de los ejércitos han visto mis ojos!}

 Entonces voló hacia mí uno de los serafines con una brasa en la mano, que con las tenazas había tomado de sobre el altar, y tocó mi boca y dijo:

 \textquote{He aquí que esto ha tocado tus labios: se ha retirado tu culpa, tu pecado está expiado.}

 Y percibí la voz del Señor que decía:

 \textquote{¿A quién enviaré? ¿y quién irá de parte nuestra}?

 Yo contesté:

 \textquote{Heme aquí: envíame.}

 Dijo:

 \textquote{Ve y di a ese pueblo: \textquote{Escuchad bien, pero no entendáis, ved bien, pero no comprendáis.} Engorda el corazón de ese pueblo, hazle duro de oídos, y pégale los ojos, no sea que vea con sus ojos y oiga con sus oídos, y entienda con su corazón, y se convierta y se le cure.}

 Yo pregunté:

 \textquote{¿Hasta dónde, Señor?}

 Y él me contestó:

 \textquote{Hasta que se vacíen las ciudades y queden sin habitantes, las casas sin hombres, la campiña desolada, y haya alejado el Señor a las gentes, y cunda el abandono dentro del país. Aun el décimo que quede en él volverá a ser devastado como la encina o el roble, en cuya tala queda un tocón. Este tocón será semilla santa.}


║Is-id27-ref01-01-18-0045|Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.

 Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.

 El buey conoce a su amo, y el asno el pesebre de su dueño; Israel no me conoce, mi pueblo no comprende}.

 ¡Ay, gente pecadora, pueblo cargado de culpas, raza malvada, hijos corrompidos! Han abandonado al Señor, han despreciado al santo de Israel, le han vuelto la espalda.

我期望的最终结果是单独的文件,其名称是第一列的内容,内容是第二列中的内容:

Is-id27-ref06-01-13-1914.tex

El año de la muerte del rey Ozías vi al Señor sentado en un trono excelso y elevado, y sus haldas llenaban el templo. Unos serafines se mantenían erguidos por encima de él; cada uno tenía seis alas: con un par se cubrían la faz, con otro par se cubrían los pies, y con el otro par aleteaban, y se gritaban el uno al otro:

 \textquote{Santo, santo, santo, el Señor de los ejércitos: llena está toda la tierra de su gloria.}.

...

Is-id27-ref01-01-18-0045.tex

Visión de Isaías, hijo de Amós, acerca de Judá y de Jerusalén, en tiempos de Ozías, Jotán, Ajaz y Ezequías, reyes de Judá.

 Oíd, cielos, escucha tierra, que habla el Señor: \textquote{Hijos he criado y educado, y ellos se han rebelado contra mí.

...

等等...

执行命令时出现错误如下:

awk: syntax error at source line 10
    context is
        print $1,$2, $g[i] > >>>  "output_"f <<< [i]".tex"
awk: illegal statement at source line 10
macos awk
2个回答
1
投票

您的脚本似乎正在做一些与您正在尝试的事情完全不同的事情。假设实际的输入文件格式正确,让我们放弃您所拥有的内容并重试。

awk 'FNR==1 { next }
  /[║|]/ { split($0, n, /║/);
    if(f) { print n[1] >>f; close(f) }
    split(n[2], m, /\|/);
    f = "output_" m[1] ".tex"; print m[2] >>f; next }
f { print >>f; next }
{ print "orphan input: " $0 }' biennalis.csv

这会分割其中包含

|
的任何行,并使用第一个字段作为新文件名的基础。它接受
之前的任何内容,并将其附加到之前打开的文件(如果有),因此分隔符可以出现在一行中的任何位置;但如果一行包含多个分隔符,这将以特殊的方式中断。

这至关重要地假设您在第一个条目之前有一个

,在文件名和该文件中所需的文本之间有
|

演示:https://ideone.com/jsRJKf


我原来的答案在 Linux 上运行良好,但在 MacOS 上不行:

awk 'BEGIN { RS="║"; FS="|" }
  FNR > 1 { o = "output_" $1 ".tex"; print $2 >>o; close(o) }' biennalis.csv

我们只需指示 Awk 使用正确的记录和字段分隔符,然后指示它将第二个字段打印到名称源自第一个字段的文件中。

如上所述,要使其工作,您必须在第一个条目之前有一个

,并在文件名和该文件中所需的文本之间有
|

演示:https://ideone.com/LU1y4Y


1
投票

输入或输出重定向右侧未加括号的表达式是未定义的行为,因此不同的 awks 会用它做不同的事情,有些会做你想要的事情,而另一些会像你当前看到的那样失败。改变这个:

print $1,$2, $g[i] > "output_"f[i]".tex"

对此:

print $1,$2, $g[i] > ("output_"f[i]".tex")

解决该特定问题。

您可能遇到的下一个问题是您没有随时关闭输出文件,因此您可能会遇到一个进程一次可以打开的文件数量的限制。要解决此问题,请将循环更改为:

for (i=1; i < c; i++) {
    out = "output_"f[i]".tex"
    if ( !seen[out]++ ) {
        printf "" > out
    }
    print $1,$2, $g[i] >> out
    close(out)
}

带有

if
seen[]
语句是为了确保脚本在第一次写入时清空任何现有的输出文件 - 如果您在脚本外部处理该文件,则可以删除该
if
语句。

© www.soinside.com 2019 - 2024. All rights reserved.