我想在网站上自动执行搜索过程,并刮擦单个玩家的表格(我从Excel工作表中获取玩家的姓名)。我想将这些抓取的信息添加到具有播放器列表的现有Excel工作表中。对于该球员进入联赛的每一年,其姓名都必须在第一栏中。到目前为止,我已经能够从现有的Excel工作表中获取信息,但是我不确定如何使用它来自动执行搜索过程。我不确定Selenium是否可以提供帮助。该网站是https://basketball.realgm.com/。
import openpyxl
path = r"C:\Users\Name\Desktop\NBAPlayers.xlsx"
workbook = openpyxl.load_workbook(path)
sheet = workbook.active
rows = sheet.max_row
cols = sheet.max_column
print(rows)
print(cols)
for r in range(2, rows+1):
for c in range(2,cols+1):
print(sheet.cell(row=r,column=c).value, end=" ")
print()
您必须拥有玩家的网址列表,并使用漂亮的汤来刮擦页面。
import urllib2
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://example.com').read())