我有一个HTML文件,其中包含大量类似的href链接;
href="data/self/dated/station1_140208.txt">Saturday, February 08, 2014/a>br/>
文件中还有大量其他http和ftp链接,我需要一个输出txt文件;
14/02/08: station1_140208.txt
14/02/09: station1_140209.txt
14/02/10: station1_140210.txt
14/02/11: station1_140211.txt
14/02/12: station1_140212.txt
我曾尝试编写自己的书,但花了我太多时间来习惯Python正则表达式。我可以打开源文件,应用尚无法确定的特定正则表达式,然后将其写回到磁盘。
我需要您在正则表达式方面的帮助。
pattern = 'href="data/self/dated/([^"]*)"[^>]*>([\s\S]*?)</a>'
我知道这不是您所要的,但我想我会展示一种将链接文本中的日期转换为所需输出示例(dd / mm / yy)中显示的格式的方法。我使用BeautifulSoup从html读取元素。