我有大量 html 表格,我想将其转换为 CSV。将单个表格粘贴到 Excel 中并将其另存为 .csv 即可,就像将 html 表格粘贴到简单的在线转换器中一样。但我有数千个单独的表,所以我需要一个可以自动执行转换过程的脚本。
我想知道是否有人对我如何做到这一点有任何建议? Python 是我唯一熟悉的语言,因此某种 Python 脚本是理想的选择。我搜索过类似的问题,但我发现的所有 python 示例对我来说都相当复杂,超出了我的基本理解水平。
如有任何建议,我们将不胜感激。
使用
pandas
。 它有一个将 html 表读入数据结构的函数,然后有一个将该数据结构写入 csv 文件的函数。
import pandas as pd
url = 'http://myurl.com/mypage/'
for i, df in enumerate(pd.read_html(url)):
df.to_csv('myfile_%s.csv' % i)
注意,由于一个html页面可能有多个表,因此获取表的函数总是返回一个表列表(即使只有一个表)。 这就是我在这里使用循环的原因。
...更有用的脚本允许现有数据表电子表格数据库的 html 接口并对其进行编辑? IE mySQL 或其他数据库。 html GUI 足够简单,但数据可访问性并不是 html 的一部分 - 不幸的是,它从来都不是预期规范的一部分 - 然而,在当今世界,它 (html) 需要进行修改才能做到这一点! 80年代结束了!没有人只想要可见性,还想要实时编辑。