我有一个文件夹结构,其中包含数以千计的HTML文件,我想使用pandoc清理并转换为markdown,但保留在现有结构中(或镜像该结构)。
我目前设法使用find
定位所有HTML文件,并使用cat
命令将该内容传递给pup
,后者解析该内容并查看<article>
标记,然后将内容通过管道传输到新文件称为article-content.txt。
我当时打算分两个阶段处理内容。
我对bash的理解是有限的。我知道我可能需要遍历文件列表,并将路径/文件名作为变量传递到新的文件结构中。但不确定下一步要去哪里。
cat $(find . -type f -name "*.html") | pup 'article' > article-content.txt
如果要分别对每个文件执行类似的操作,则find
具有为此目的而内置的-exec
和-execdir
选项(请参阅man find
:
find . -type f -name "*.html" -execdir (pup 'article' < {} > $(basename {}).article-content.txt) \;