如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本? (用蟒蛇)

问题描述 投票:0回答:0

我正在尝试从此链接中提取正确且格式良好的文本:

https://html.scribdassets.com/5lamlvj3nkau3ato/pages/100-ca9665a40f.jsonp

摘自该网站:

https://www.scribd.com/document/628782766/La-machoire-de-Cain

我尝试使用 beautifulsoup,但输出是错误的,它给出了这样的内容: 'peut-être moins tentre et plussincère。 Mon cœur se',您可以看到“plussincère”一词被连接起来。 (在 jsonp 中,文本和标签之间没有空格)。 然后我尝试在 和 文本之间添加一个空格,但它给出了一些奇怪的东西(在这个文件或另一个文件上,它返回这样的单词:“B on jour”,因为有些单词被分成不同的跨度..

然后我尝试将维特比算法与大数据集(300k)一起使用,但没有成功。

如果您需要的话,这里是其他页面的链接。

{'pageNum': 43, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/43-f3a7f37540.jsonp'}
{'pageNum': 44, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/44-a06fccf8e0.jsonp'}

提前谢谢您。

python html jsonp
© www.soinside.com 2019 - 2024. All rights reserved.