如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本？（用蟒蛇）

Question

我正在尝试从此链接中提取正确且格式良好的文本：

https://html.scribdassets.com/5lamlvj3nkau3ato/pages/100-ca9665a40f.jsonp

摘自该网站：

https://www.scribd.com/document/628782766/La-machoire-de-Cain

我尝试使用 beautifulsoup，但输出是错误的，它给出了这样的内容： 'peut-être moins tentre et plussincère。 Mon cœur se'，您可以看到“plussincère”一词被连接起来。（在 jsonp 中，文本和标签之间没有空格）。然后我尝试在和文本之间添加一个空格，但它给出了一些奇怪的东西（在这个文件或另一个文件上，它返回这样的单词：“B on jour”，因为有些单词被分成不同的跨度..

然后我尝试将维特比算法与大数据集（300k）一起使用，但没有成功。

如果您需要的话，这里是其他页面的链接。

{'pageNum': 43, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/43-f3a7f37540.jsonp'}
{'pageNum': 44, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/44-a06fccf8e0.jsonp'}

提前谢谢您。

如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本？（用蟒蛇）

问题描述投票：0回答：0

最新问题

如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本？ （用蟒蛇）

问题描述 投票：0回答：0

最新问题

如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本？（用蟒蛇）

问题描述投票：0回答：0