Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
对于我在Python中的初学者课程中的“额外学分”,我想使用正则表达式从URL中提取数据。我知道还有其他方法可以做到这一点,但我的正则表达式......
Python web抓取特定类中的find_all(“a”)
我是网络抓取的新手,我正在处理我的小项目。任务是获取“相机”,“价格”和“快速规格”的名称(来自:https://www.dpreview.com/products/cameras/all?page = ...
我试图从网站获取每个图像,有时BeautifulSoup没有从HTML获得每个src属性。示例:data = requests.get('https://www.qmedichealth.com/')soup = ...
是否可以制作一个计算“ctrl F”的脚本?我有一份社团名单。我想得到(例如)这些社会的价值观。对于我列表中的每个社会我的剧本: - 继续......
所以,我正在抓一个网站,虽然我能够返回网页的HTML,但美丽的“查找”结果是不一致的。在一次又一次地运行检索同一页面时,BS4有时会发现...
使用Python的BeautifulSoup库从HTML中提取元素
我想从Instagram中提取数据并记录帖子的时间而不使用auth。下面的代码给了我IG发布的页面的HTML,但是我无法抽出时间......
如何使用python导出csv文件时将cp1252转换为UTF-8
我尝试导出CSV文件时出现Unicode错误(网页抓取,我正在使用Beautifulsoup并导入了CSV和Beautifulsoup)。该代码由Mac Linux使用,它非常支持UTF-8 ...
我正试图将表格刮成数据帧。我的尝试只返回表名,而不是每个区域的行内数据。这就是我到目前为止:从bs4导入BeautifulSoup作为bs4 ......
想要从href中提取文本,看起来我只能从bs4导入的HTML中提取整个href的BeautifulSoup汤= BeautifulSoup(“”“
我试图从链接获取文章的文本,但在导入文本时,我得到所有其他链接,广告链接和图像名称,我不需要它用于我的分析。进口......
使用BeautifulSoup进行基本的Python Web抓取
我对编码很新,最近我开始研究网络抓取。我一直在关注本教程并阅读BS4文档,但我无法理解为什么我的代码无效。 ...
使用Python BeautifulSoup进行Web Scraping时出错:从github配置文件中提取内容
这是使用BeautifulSoup库从github存储库中抓取内容的python代码。我面临错误:“NoneType”对象在这个简单的代码中没有属性'text'“。我正面临......
bs4.FeatureNotFound:...与MacOS和Conda / Python 3的lxml
我得到了与这个4年历史的线程相同的错误:bs4.FeatureNotFound:找不到具有您请求的功能的树构建器:lxml。你需要安装解析器库吗?但是我 ...
使用BeautifulSoup进行Web抓取时出现“浏览器不支持”错误
我正在尝试网络抓一个网站,但我一直得到这个“浏览器不支持”错误。有谁知道如何解决这一问题?谢谢。 import bs4 import requests headers = {'User-Agent':'Mozilla / 5.0(...
Python 3 web scraper非常简单无法正常工作
我正在写一本书“自学成才的程序员”,并且遇到了一些python代码问题。我让程序运行没有任何错误。问题是没有任何输出。 ...
我在一个文件夹中存储了大约150多个XML文件。我想打开并读取该文件夹中的XML文件(大约150多个XML文件);之后,我做下一个分析。我需要改变什么......
我想从python 2.0中的MCX网站https://www.mcxindia.com/market-data/market-watch获取不同商品的最后交易价格(LTP)。以下是我正在使用的代码。进口......
如何解决从导出到csv文件(python)的unicode错误
我正在尝试使用python从web-scraping导出文本。但是,结果显示:> UnicodeEncodeError Traceback(最近一次调用last)in()71>'ranking_title':ranking_title,---&...
使用BeautifulSoup解析数据并使用pandas DataFrame to_csv对数据进行排序
我的目标是从网站解析数据并将这些数据存储在文本文件中,格式化为在Excel中打开。这是代码:从bs4导入BeautifulSoup导入请求导入pprint导入重新...