我正在尝试从此链接中提取正确且格式良好的文本:
https://html.scribdassets.com/5lamlvj3nkau3ato/pages/100-ca9665a40f.jsonp
摘自该网站:
https://www.scribd.com/document/628782766/La-machoire-de-Cain
我尝试使用 beautifulsoup,但输出是错误的,它给出了这样的内容: 'peut-être moins tentre et plussincère。 Mon cœur se',您可以看到“plussincère”一词被连接起来。 (在 jsonp 中,文本和标签之间没有空格)。 然后我尝试在 和 文本之间添加一个空格,但它给出了一些奇怪的东西(在这个文件或另一个文件上,它返回这样的单词:“B on jour”,因为有些单词被分成不同的跨度..
然后我尝试将维特比算法与大数据集(300k)一起使用,但没有成功。
如果您需要的话,这里是其他页面的链接。
{'pageNum': 43, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/43-f3a7f37540.jsonp'}
{'pageNum': 44, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/44-a06fccf8e0.jsonp'}
提前谢谢您。