为了消除文本文件中的冗余,我发现 Kdiff3 具有所需的功能——只保留未着色的文本。但是尝试将文本文件自动标记为非 UTF-8——尽管重新保存为 UTF-8。
file -I FN.EXT
显示它们是二进制的。
我试了AWK和iconv,如下
awk '/[\x80-\xFF]/ { print }' test.txt
iconv -c -t ASCII 84-0.txt > test-2.txt
但它没有转换为 ASCII 或 UTF8。 Iconv 需要一种可识别的输入格式。 所以我拼了3行代码完成了3次转换。 .
代码:
1) from TXT to PDF (on MacOS).
2) from PDF to HTML.
3) from HTML to TXT.
如下。 .
cupsfilter test.txt > test.pdf 2> /dev/null
pdftohtml test.pdf test-2.html
textutil -convert txt test-2.html
这可以但不能批量使用——最好是在嵌套文件夹中。管道操作如何转换为find/exec? (通过管道传输到 {}.txt 会生成一个名为“{}.txt”的文件。)
更改文件名以避免覆盖原始TXT文件。 转换为 HTML 会创建 3 个文件,我只使用其中的 1 个。
建议赞赏!!