查找一组文件夹中的所有HTML文件,提取特定的HTML内容并将内容保存到新文件中

问题描述 投票:1回答:1

我有一个文件夹结构,其中包含数以千计的HTML文件,我想使用pandoc清理并转换为markdown,但保留在现有结构中(或镜像该结构)。

我目前设法使用find定位所有HTML文件,并使用cat命令将该内容传递给pup,后者解析该内容并查看<article>标记,然后将内容通过管道传输到新文件称为article-content.txt。

我当时打算分两个阶段处理内容。

  1. 从每个文件中提取商品标签并另存为新文件(或覆盖现有文件)。
  2. 然后使用pandoc转换相同的结构。

我对bash的理解是有限的。我知道我可能需要遍历文件列表,并将路径/文件名作为变量传递到新的文件结构中。但不确定下一步要去哪里。

cat $(find . -type f -name "*.html") | pup 'article' > article-content.txt
bash pandoc pup
1个回答
0
投票

如果要分别对每个文件执行类似的操作,则find具有为此目的而内置的-exec-execdir选项(请参阅man find

find . -type f -name "*.html" -execdir (pup 'article' < {} > $(basename {}).article-content.txt) \;
© www.soinside.com 2019 - 2024. All rights reserved.