查找一组文件夹中的所有HTML文件，提取特定的HTML内容并将内容保存到新文件中

问题描述投票：1回答：1

我有一个文件夹结构，其中包含数以千计的HTML文件，我想使用pandoc清理并转换为markdown，但保留在现有结构中（或镜像该结构）。

我目前设法使用find定位所有HTML文件，并使用cat命令将该内容传递给pup，后者解析该内容并查看<article>标记，然后将内容通过管道传输到新文件称为article-content.txt。

我当时打算分两个阶段处理内容。

从每个文件中提取商品标签并另存为新文件（或覆盖现有文件）。
然后使用pandoc转换相同的结构。

我对bash的理解是有限的。我知道我可能需要遍历文件列表，并将路径/文件名作为变量传递到新的文件结构中。但不确定下一步要去哪里。

cat $(find . -type f -name "*.html") | pup 'article' > article-content.txt

bash pandoc pup

1个回答

0
投票

如果要分别对每个文件执行类似的操作，则find具有为此目的而内置的-exec和-execdir选项（请参阅man find：

find . -type f -name "*.html" -execdir (pup 'article' < {} > $(basename {}).article-content.txt) \;

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.