我正在构建一个项目,我在其中抓取在线商店等网站以搜索其社交媒体链接,以便深入了解给定网络商店的社交存在。我得到了 Instagram 链接和 Facebook 链接。我现在想获取有关这些公共页面的上述信息。当然,元页面充满了对网络抓取的防御,所以我想知道是否有办法以合规的方式获取此信息。我看过图形 API,但它是为在您的应用程序中集成社交媒体而制作的,我不想要任何集成。我只是在寻找公开信息。
Facebook 的 API 政策不允许在没有适当的应用程序审查流程和访问令牌的情况下抓取公共页面。因此,使用 Facebook 的 Graph API 将是获取公共信息的最合规方式。
但是,如果您不想与 Facebook 的 API 集成,您可以使用网页抓取技术从 Facebook 页面中提取公共信息。重要的是要注意,未经他们同意从 Facebook 页面上抓取数据可能会违反他们的服务条款,并可能导致法律后果。
如果您决定继续进行网络抓取,您可以使用 BeautifulSoup 或 Scrapy 等工具来抓取 Facebook 页面的 HTML 代码并提取喜欢和关注者数量等信息。请记住,Facebook 经常更新其网站,因此您的抓取代码可能也需要更新以适应这些变化。