通常,如果网站显示一系列包含文件夹的数据的链接(即带有经济数据的电子表格),我该如何编写识别所有链接并下载数据的程序?
特别是,我试图从这个网站https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html下载2012年到2018年的所有文件夹
我尝试了下面建议的方法,但似乎没有下载到数据的链接。
my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'
import requests
from bs4 import BeautifulSoup
r = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)
links=[]
for link in soup.find_all('a'):
links.append(link.get('href'))
print(link.get('href'))
在附加到链接的所有URL中,none都不指向数据。
最后,即使我有正确的链接,它们如何用于实际下载文件?
非常感谢! ;)
这是典型的网络抓取任务。