Python Regex提取相对的href链接

问题描述 投票:0回答:2

我有一个HTML文件,其中包含大量类似的href链接;

href="data/self/dated/station1_140208.txt">Saturday, February 08, 2014/a>br/>

文件中还有大量其他http和ftp链接,我需要一个输出txt文件;

14/02/08: station1_140208.txt  
14/02/09: station1_140209.txt  
14/02/10: station1_140210.txt  
14/02/11: station1_140211.txt  
14/02/12: station1_140212.txt  

我曾尝试编写自己的书,但花了我太多时间来习惯Python正则表达式。我可以打开源文件,应用尚无法确定的特定正则表达式,然后将其写回到磁盘。

我需要您在正则表达式方面的帮助。

python regex hyperlink relative-path
2个回答
0
投票
pattern = 'href="data/self/dated/([^"]*)"[^>]*>([\s\S]*?)</a>'

2
投票

我知道这不是您所要的,但我想我会展示一种将链接文本中的日期转换为所需输出示例(dd / mm / yy)中显示的格式的方法。我使用BeautifulSoup从html读取元素。

© www.soinside.com 2019 - 2024. All rights reserved.