我是抓取数据的新手。我想从这个站点抓取数据:[http://kbbi.web.id/][
我希望通过来自.csv文件的输入来抓取数据,并使爬网数据像上面的图片一样为每个csv单行工作,并且仅从红色框中获取数据,例如。 mengabadi,mengabadikan,pengabadian,keabadian并将其保存在新的.csv文件中,如下所示:
那么,我该怎么做才能抓取它(可能使用python)?我认为网页使用javascript来加载/渲染数据。
使用requests
和bs4
示例代码:(自己阅读和实现,这只是为了给你一个想法!)
from bs4 import BeautifulSoup
import requests
url = "http://kbbi.web.id/"
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)
现在,使用检查工具挖掘网站,并且..代码!!
使用pip可以完成BeautifulSoup和Requests的安装:
$ pip install requests
$ pip install beautifulsoup4