我正在尝试使用 Smalot PdfParser 从 PDF 中提取文本。
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile(myfile);
$text = $pdf->getText();
它工作得很好,除了外来字符(如 æ ø å ü ẞ)似乎会切断单词。像“Banegård”这样的单词将给出单词“Baneg”和“rd”,并且 å 字符消失了。 这是使用 LibreOffice Writer 默认设置编写的非常简单的 PDF 文件。所以没什么特别的。
谷歌搜索没有给我任何结果,这让我有点惊讶。在 2024 年,这肯定是一件相当简单的事情吗?我错过了什么?
似乎是编码问题。不幸的是,您提供的信息量非常少。您是在普通 PHP 项目中实现 Smalot PdfParser,还是使用框架?如果您使用的是UTF-8,您是否为整个项目定义了UTF-8?
过程中的许多部分都可能会出现输出错误的情况。