You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@tika.apache.org by "Hudson (JIRA)" <ji...@apache.org> on 2015/03/03 22:57:05 UTC
[jira] [Commented] (TIKA-1489) PDF Text extraction without permission

    [ https://issues.apache.org/jira/browse/TIKA-1489?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=14345815#comment-14345815 ] 

Hudson commented on TIKA-1489:
------------------------------

SUCCESS: Integrated in tika-trunk-jdk1.7 #527 (See [https://builds.apache.org/job/tika-trunk-jdk1.7/527/])
TIKA-1489 add optional accessibility checking to PDF files (tallison: http://svn.apache.org/viewvc/tika/trunk/?view=rev&rev=1663764)
* /tika/trunk/tika-core/src/main/java/org/apache/tika/exception/AccessPermissionException.java
* /tika/trunk/tika-core/src/main/java/org/apache/tika/metadata/AccessPermissions.java
* /tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/pdf/AccessChecker.java
* /tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java
* /tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParserConfig.java
* /tika/trunk/tika-parsers/src/main/resources/org/apache/tika/parser/pdf/PDFParser.properties
* /tika/trunk/tika-parsers/src/test/java/org/apache/tika/parser/pdf/AccessCheckerTest.java
* /tika/trunk/tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
* /tika/trunk/tika-parsers/src/test/resources/test-documents/testPDF_no_extract_no_accessibility_owner_empty.pdf
* /tika/trunk/tika-parsers/src/test/resources/test-documents/testPDF_no_extract_no_accessibility_owner_user.pdf
* /tika/trunk/tika-parsers/src/test/resources/test-documents/testPDF_no_extract_yes_accessibility_owner_empty.pdf
* /tika/trunk/tika-parsers/src/test/resources/test-documents/testPDF_no_extract_yes_accessibility_owner_user.pdf


> PDF Text extraction without permission
> --------------------------------------
>
>                 Key: TIKA-1489
>                 URL: https://issues.apache.org/jira/browse/TIKA-1489
>             Project: Tika
>          Issue Type: Bug
>    Affects Versions: 1.7
>            Reporter: Tilman Hausherr
>             Fix For: 1.8
>
>         Attachments: TIKA-1489_v1.patch, testPDF_no_extract_no_accessibility_owner_empty.pdf, testPDF_no_extract_no_accessibility_owner_user.pdf, testPDF_no_extract_yes_accessibility_owner_empty.pdf, testPDF_no_extract_yes_accessibility_owner_user.pdf
>
>
> In TIKA-1442 text extraction from files like 717226.pdf that don't have text extraction permission works. The permissions in PDF files are only enforced by the application (i.e. PDFBox), i.e. the text information isn't stored separately in encrypted form. 
> PDFBox ExtractText command line does throw an exception.
> So I wonder why TIKA is able to extract text. Either TIKA or the PDFBox call used bypasses the permission checking.



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)