我试图用JS来搜刮Google Scholar网站。表格加载时,底部有一个 "加载更多 "按钮。供参考,请看这个页面。https:/scholar.google.comcitations?hl=en&user=m8dFEawAAAAJ。
显然,我在 "加载更多 "按钮上使用了btn.click(),直到该按钮被 "禁用"。然后,我就把数据刮掉了。谁能告诉我一个更好的方法来刮取整个表的数据?
如果你点击 Show more
按钮,你可以看到下一个请求是在url的末尾附加了以下查询字符串。
&cstart=20&pagesize=80
用 cstart
可能是指像count start这样的东西,你可以把参数值换成这样,应该从第一个开始显示下一个1000项。
https://scholar.google.com/citations?hl=en&user=m8dFEawAAAAJ&cstart=1&pagesize=1000