You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@pdfbox.apache.org by "Ronald Bergmann (Jira)" <ji...@apache.org> on 2020/06/30 15:26:00 UTC

[jira] [Created] (PDFBOX-4904) Bold text leads to wrong order - Text extraction

Ronald Bergmann created PDFBOX-4904:
---------------------------------------

             Summary: Bold text leads to wrong order - Text extraction
                 Key: PDFBOX-4904
                 URL: https://issues.apache.org/jira/browse/PDFBOX-4904
             Project: PDFBox
          Issue Type: Bug
          Components: Parsing, PDModel
    Affects Versions: 2.0.20
         Environment: JDK 8
            Reporter: Ronald Bergmann
         Attachments: 152-0130-20-B-Ö-43.pdf

When extracting the text from a PDF bold text seems to be out of order under some conditions.

 
{code:java}
try (PDDocument doc = PDDocument.load(new File("152-0130-20-B-Ö-43.pdf"))) {
    PDFTextStripper stripper = new PDFTextStripper();
    String contents = stripper.getText(doc);
    System.out.println(contents);
}
{code}
See section w) - the text should be:

_*Präqualifizierte Unternehmen* führen den Nachweis der Eignung durch den Eintrag in_
_die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V._
_(Präqualifikationsverzeichnis). ..._

But it actually is:

 _führen den Nachweis der Eignung durch den Eintrag in *Präqualifizierte Unternehmen*_
_die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V._
_(Präqualifikationsverzeichnis)._

 

I attached an example PDF.



--
This message was sent by Atlassian Jira
(v8.3.4#803005)

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@pdfbox.apache.org
For additional commands, e-mail: dev-help@pdfbox.apache.org