所以,我正在抓一个网站,虽然我能够返回网页的HTML,但美丽的“查找”结果是不一致的。在一次又一次地运行检索同一页面时,BS4有时可以找到某个标签,有时却找不到。
我测试了网页len,当美丽的汤能够检索想要的标签时,len是9220189(正确大小),当它不能,103557968.我打印了两种尺寸的网页,它们是一致的。事实上,我正在寻找的字符串可以在两个网页打印中找到。
这可能是美味汤的大小限制吗?我不确定发生了什么事?
编辑:链接:https://www.brenda-enzymes.org/ligand.php?brenda_ligand_id=1
我在找什么:soup.find(string ='Molecular Formula')
有时可以找到字符串,有时则不能。文本始终在网页中,并且未加载javascript。
我通过减少html的大小来解决这个问题。虽然我找不到更好的解决方案,但这必须要做。