iText是否支持OCR?

问题描述 投票:0回答:4

我想问一个关于iText的问题。我在搜索PDF文件中的文本时遇到问题。

我可以使用getTextfromPage()方法创建纯文本文件,如以下代码示例中所述:

/** The original PDF that will be parsed. */
    public static final String PREFACE = "D:/B.pdf";
    /** The resulting text file. */
    public static final String RESULT = "D:/Result.txt";
public void ParsePDF(String From, String Destination) throws IOException{

        PdfReader reader = new PdfReader(PREFACE);  
        PrintWriter out = new PrintWriter(new FileOutputStream(RESULT));              
        for (int i = 1; i <= reader.getNumberOfPages(); i++) {                          
         out.println(PdfTextExtractor.getTextFromPage(reader, i));  
        }
        out.flush();
        out.close();
        reader.close();

    }

我试图在结果文本中找到一个特定的String,如下所示:

    public void FindWords(String From) {
        try{
            String ligneLue;            
            LineNumberReader lnr=new LineNumberReader(new FileReader(RESULT));
            try{                
                while((ligneLue=lnr.readLine())!=null){
                    SearchForSVHC(ligneLue,SvhcList);
                }
            }
            finally{                
                lnr.close();
            }
        }
        catch(IOException e){
            System.out.println(e);}
        }   
    public void SearchForSVHC(String Ligne,List<String> List){
        for(String CAS :List){
            if(Ligne.contains(CAS)){
                System.out.print("Yes  "+CAS);
                break;
        }}
    }

我的问题是我正在解析的一些PDF包含扫描图像,这意味着没有真实文本,只有像素。

iText是否支持光学字符识别(OCR)以及后续问题:是否有办法确定PDF是否包含扫描图像?

java itext
4个回答
4
投票

在回答之前,我已经对您的问题进行了彻底的编辑。

当PDF由扫描图像组成时,没有要解析的真实文本,只有像素看起来像文本。您需要进行OCR才能知道在这样的扫描页面上实际写入了什么,并且iText不支持OCR。

关于后续问题:很难确定PDF是否包含扫描图像。第一个赠品将是:页面中只有一个图像,并且没有文字。

但是:由于您对图像的性质一无所知(也许您的PDF只包含假日照片),因此很难确定PDF是否是一个充满扫描文本页面的文档(即:栅格化文本)。


1
投票

This支持案例称iText不支持OCR。识别图像是否包含文本就像将图像传递到OCR处理器并检查结果是否有意义一样简单。


1
投票

没有iText与OCR无关。源自扫描书籍的PDF可以包含作为图像的页面,文本或(通常用于保持视觉原件和文本搜索能力)两者;当然,如果它包含文本,那是因为已经完成了一些OCR。

要检测PDF只包含图像而没有文本可能是一个棘手的事情,但一个简单的启发式方法是尝试提取文本(请参阅example)并确定PDF是纯图像,如果它返回(几乎)空文本对于所有(大多数)页面。


1
投票

它可以使用iText和Tesseract(谷歌OCR实现)的组合来完成。

首先,我会在OCR引擎周围放置一个接口。这允许我稍后交换它。

public interface IOpticalCharacterRecognitionEngine {

class OCRChunk {
    private Rectangle location;
    private String text;
    public OCRChunk(Rectangle rectangle, String text){
        this.location = rectangle;
        this.text = text;
    }
    public String getText(){ return text; }
    public Rectangle getLocation(){return location;}
}

List<OCRChunk> doOCR(BufferedImage bufferedImage);
}

这个界面基本上说“OCR引擎返回的是位置(矩形)和文本组合的对象”

然后我们需要创建一个ITextExtractionStrategy,它使用OCREngine将ImageRenderInfo事件转换为TextRenderInfo

public class OCRTextExtractionStrategy implements ITextExtractionStrategy {

private final ITextExtractionStrategy innerStrategy;
private final IOpticalCharacterRecognitionEngine opticalCharacterRecognitionEngine;
private final Logger logger = Logger.getLogger(OCRTextExtractionStrategy.class.getSimpleName());

public OCRTextExtractionStrategy(ITextExtractionStrategy innerStrategy, IOpticalCharacterRecognitionEngine opticalCharacterRecognitionEngine){
    this.innerStrategy = innerStrategy;
    this.opticalCharacterRecognitionEngine = opticalCharacterRecognitionEngine;
}

public String getResultantText() {
    return innerStrategy.getResultantText();
}

public void eventOccurred(IEventData iEventData, EventType eventType) {
    // handle images
    if(eventType == EventType.RENDER_IMAGE){

        // extract coordinates
        ImageRenderInfo imageRenderInfo  = (ImageRenderInfo) iEventData;
        float x = imageRenderInfo.getImageCtm().get(Matrix.I11);
        float y = imageRenderInfo.getImageCtm().get(Matrix.I22);

        // attempt to parse image
        try {
            BufferedImage bufferedImage = imageRenderInfo.getImage().getBufferedImage();
            for(IOpticalCharacterRecognitionEngine.OCRChunk chunk : opticalCharacterRecognitionEngine.doOCR(bufferedImage)){
                if(chunk.getText() != null && !chunk.getText().isEmpty()) {
                    chunk.getLocation().translate((int) x, (int) y);
                    TextRenderInfo textRenderInfo = pseudoTextRenderInfo(chunk);
                    if(textRenderInfo !=  null)
                        innerStrategy.eventOccurred( textRenderInfo, EventType.RENDER_TEXT);
                }
            }
        } catch (IOException e) { logger.severe(e.getLocalizedMessage()); }

    }
    // handle anything else
    else {
        innerStrategy.eventOccurred(iEventData, eventType);
    }
}

private TextRenderInfo pseudoTextRenderInfo(IOpticalCharacterRecognitionEngine.OCRChunk chunk){

    // dummy graphics state
    ModifiableGraphicsState mgs = new ModifiableGraphicsState();
    try {
        mgs.setFont(PdfFontFactory.createFont());
        mgs.setCtm(new Matrix(  1,0,0,
                                0,1,0,
                                0,0,1));
    } catch (IOException e) { }

    // dummy text matrix
    float x = chunk.getLocation().x;
    float y = chunk.getLocation().y;
    Matrix textMatrix = new Matrix( x, 0,0,
                                0, y, 0,
                                0,0,0);

    // return TextRenderInfo object
    return new TextRenderInfo(
            new PdfString(chunk.getText(), ""),
            mgs,
            textMatrix,
            new Stack<CanvasTag>()

    );
}

public Set<EventType> getSupportedEvents() { return null; }

}

该类执行该转换。坐标转换有一些魔力(我可能还没有完全正确)。

该工作的咕噜声是在pseudoTextRenderInfo方法中进行的,该方法将IOpticalCharacterRecognitionEngine给出的结果转换为TextRenderInfo对象。

为了使其工作,我们需要一个可修改的CanvasGraphicsState。哪个默认实现不是。所以让我们扩展默认值。

class ModifiableGraphicsState extends CanvasGraphicsState{

private Matrix ctm;

public ModifiableGraphicsState(){ super(); }

public Matrix getCtm() { return ctm; }
public ModifiableGraphicsState setCtm(Matrix ctm){this.ctm = ctm; return this;};
public void updateCtm(float a, float b, float c, float d, float e, float f) { updateCtm(new Matrix(a, b, c, d, e, f)); }
public void updateCtm(Matrix newCtm) {
    ctm = newCtm.multiply(ctm);
}

}

最后,我们需要实施IOpticalCharacterRecognitionEngine。这个具体的实现是使用Tesseract完成的(如果您使用的是Java,则使用tess4j)。

public class TesseractOpticalCharacterRecognitionEngine implements IOpticalCharacterRecognitionEngine {

private Tesseract tesseract;

public TesseractOpticalCharacterRecognitionEngine(File tesseractDataDirectory, String languageCode){
    tesseract = new Tesseract();

    // set data path
    if(!tesseractDataDirectory.exists())
        throw new IllegalArgumentException();
    tesseract.setDatapath(tesseractDataDirectory.getAbsolutePath());

    // set language code
    if(!new File(tesseractDataDirectory, languageCode + ".traineddata").exists())
        throw new IllegalArgumentException();
    tesseract.setLanguage(languageCode);
}

public List<OCRChunk> doOCR(BufferedImage bufferedImage) {
    List<OCRChunk> textChunkLocationList = new ArrayList<>();
    try {
        for(Rectangle rectangle : tesseract.getSegmentedRegions(bufferedImage, ITessAPI.TessPageIteratorLevel.RIL_WORD)){
            String text = tesseract.doOCR(bufferedImage, rectangle);
            textChunkLocationList.add(new OCRChunk(rectangle, text));
        }
    } catch (Exception e) { }
    return textChunkLocationList;
}
}

然后,您可以按如下方式调用代码:

// initialize tesseract
TesseractOpticalCharacterRecognitionEngine ocrEngine = new TesseractOpticalCharacterRecognitionEngine(new File("tessdata_fast"), "eng");

// create document
PdfDocument pdfDocument = new PdfDocument(new PdfReader(new File("scanned_document.pdf")));

// extract text
SimpleTextExtractionStrategy simpleTextExtractionStrategy = new SimpleTextExtractionStrategy();
OCRTextExtractionStrategy ocrTextExtractionStrategy = new OCRTextExtractionStrategy(simpleTextExtractionStrategy, ocrEngine);
    new PdfCanvasProcessor(ocrTextExtractionStrategy).processPageContent(pdfDocument.getPage(1));

// display
System.out.println(simpleTextExtractionStrategy.getResultantText());
© www.soinside.com 2019 - 2024. All rights reserved.