You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@pdfbox.apache.org by "Daniel (JIRA)" <ji...@apache.org> on 2017/03/02 09:17:45 UTC

[jira] [Created] (PDFBOX-3706) Article separation

Daniel created PDFBOX-3706:
------------------------------

             Summary: Article separation
                 Key: PDFBOX-3706
                 URL: https://issues.apache.org/jira/browse/PDFBOX-3706
             Project: PDFBox
          Issue Type: Improvement
          Components: Text extraction
    Affects Versions: 2.0.4
         Environment: Java 1.7, Windows 10 x64, 
            Reporter: Daniel
         Attachments: text-paragraphs-simple.pdf

I found no solution in PDFTextStripper which realy separates text articles with the method setArticleStart or setArticleEnd. Currently it seems the article start is always after the page start and the article end is always before the page end. 

When I extract the content of the atachment as xml with article tags iI get the following:

<article>
	<paragraph>
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - 1* eingerückt
		Einfacher Textinhalt - 1* eingerückt
		Einfacher Textinhalt - 1* eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
	</paragraph>
</article>

I would expect:

<article>
	<paragraph>
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - 1* eingerückt
		Einfacher Textinhalt - 1* eingerückt
		Einfacher Textinhalt - 1* eingerückt
	</paragraph>
	<paragraph>
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
	</paragraph>
</article>
<article>
	<paragraph>
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
		Einfacher Textinhalt - nicht eingerückt
	</paragraph>
</article>
<article>
	<paragraph>
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
		Einfacher Textinhalt - 2* eingerückt
	</paragraph>
</article>





--
This message was sent by Atlassian JIRA
(v6.3.15#6346)

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@pdfbox.apache.org
For additional commands, e-mail: dev-help@pdfbox.apache.org