如何使用BS4捕获异常跨度标签中的数据?

问题描述 投票:0回答:2

我正在努力抓一个网站工作,我不能得到美丽的汤来刮取不寻常标签之间的某些文字。

我只搜索了一个span标签,它显示在结果中但是我不能在不久后使用re.compile显示特定的单词。

这是一个剪辑的HTML

ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" 

这是用于抓取所有span标签的代码

soup.find_all('span')

但是,当我使用类似的东西

soup.find_all('span', {re.compile('Passed|Failed')}):

它似乎没有结果

我也试过了

soup.find_all('span', {'test-case-result status-2': re.compile('Passed|Failed')})

预期 - 所有通过和失败的实例都将被删除

实际 - 除了纯粹使用跨度图之外,所有刮擦的尝试都显得空白。

我确信这很简单,我错过了一些东西,但我真的很难进一步了解文档。谢谢您的帮助。

regex python-3.x web-scraping beautifulsoup
2个回答
1
投票

text=中使用find_all()

soup.find_all('span', text=re.compile('Passed|Failed'))

没有text=,它可能会使用regex来搜索标签名称。


0
投票

使用bs 4.7.1我会避免使用正则表达式并使用:contains伪类

from bs4 import BeautifulSoup
html = '''
  ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}"
  '''
soup = BeautifulSoup(html, 'lxml')

spans =  soup.select('span:contains(Passed),span:contains(Failed)')
print(spans)
© www.soinside.com 2019 - 2024. All rights reserved.