如何下载网站中提供的所有数据文件夹？

Question

通常，如果网站显示一系列包含文件夹的数据的链接（即带有经济数据的电子表格），我该如何编写识别所有链接并下载数据的程序？

特别是，我试图从这个网站https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html下载2012年到2018年的所有文件夹

我尝试了下面建议的方法，但似乎没有下载到数据的链接。

my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'


import requests
from bs4 import BeautifulSoup

r  = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)

links=[]
for link in soup.find_all('a'):
    links.append(link.get('href'))
    print(link.get('href'))

在附加到链接的所有URL中，none都不指向数据。

最后，即使我有正确的链接，它们如何用于实际下载文件？

非常感谢！ ;）

Answer 1

这是典型的网络抓取任务。

使用requests下载页面
然后解析内容并使用beutifulsoup提取URL
您现在可以使用提取的URL和requests下载文件

如何下载网站中提供的所有数据文件夹？

问题描述投票：0回答：1

1个回答

最新问题

如何下载网站中提供的所有数据文件夹？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1