You are viewing a plain text version of this content. The canonical link for it is here.

Posted to commits@tika.apache.org by ta...@apache.org on 2018/02/07 17:04:23 UTC

[tika] branch branch_1x updated (504ba00 -> 5314bc4)

This is an automated email from the ASF dual-hosted git repository.

tallison pushed a change to branch branch_1x
in repository https://gitbox.apache.org/repos/asf/tika.git.


    from 504ba00  TIKA-2564 -- wrap embedded stream in a stream that supports mark/reset in --extract option in tika-app
     new 0e5fded  TIKA-2559: Extract language metadata item from PDF files via Matt Sheppard.
     new 5314bc4  update changes for TIKA-2559

The 2 revisions listed above as "new" are entirely new to this
repository and will be described in separate emails.  The revisions
listed as "add" were already present in the repository and have only
been added to this reference.


Summary of changes:
 CHANGES.txt                                                       | 2 ++
 .../src/main/java/org/apache/tika/parser/pdf/PDFParser.java       | 3 +++
 .../src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java   | 8 ++++++++
 3 files changed, 13 insertions(+)

-- 
To stop receiving notification emails like this one, please contact
tallison@apache.org.

[tika] 02/02: update changes for TIKA-2559

Posted by ta...@apache.org.

This is an automated email from the ASF dual-hosted git repository.

tallison pushed a commit to branch branch_1x
in repository https://gitbox.apache.org/repos/asf/tika.git

commit 5314bc49f0294968918a1fd57d35cef2ecc1e42c
Author: tballison <ta...@mitre.org>
AuthorDate: Wed Feb 7 12:04:14 2018 -0500

    update changes for TIKA-2559
---
 CHANGES.txt | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/CHANGES.txt b/CHANGES.txt
index b1ca828..e4faabd 100644
--- a/CHANGES.txt
+++ b/CHANGES.txt
@@ -1,5 +1,7 @@
 Release 1.18 - ???
 
+   * Extract language metadata item from PDF files via Matt Sheppard (TIKA-2559)
+
    * RFC822 with multipart/mixed, first text element should be treated
      as the main body of the email, not an attachment (TIKA-2547).
 

-- 
To stop receiving notification emails like this one, please contact
tallison@apache.org.

[tika] 01/02: TIKA-2559: Extract language metadata item from PDF files via Matt Sheppard.

Posted by ta...@apache.org.

This is an automated email from the ASF dual-hosted git repository.

tallison pushed a commit to branch branch_1x
in repository https://gitbox.apache.org/repos/asf/tika.git

commit 0e5fded007e65dce35dad52b29dc6d4bd8a550cc
Author: tballison <ta...@mitre.org>
AuthorDate: Wed Feb 7 12:00:53 2018 -0500

    TIKA-2559: Extract language metadata item from PDF files via Matt Sheppard.
---
 .../src/main/java/org/apache/tika/parser/pdf/PDFParser.java       | 3 +++
 .../src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java   | 8 ++++++++
 2 files changed, 11 insertions(+)

diff --git a/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java b/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java
index 303d8e6..4d5202d 100644
--- a/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java
+++ b/tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java
@@ -222,6 +222,9 @@ public class PDFParser extends AbstractParser implements Initializable {
         metadata.set(AccessPermissions.CAN_PRINT_DEGRADED,
                 Boolean.toString(ap.canPrintDegraded()));
 
+        if (document.getDocumentCatalog().getLanguage() != null) {
+            metadata.set(TikaCoreProperties.LANGUAGE, document.getDocumentCatalog().getLanguage());
+        }
 
         //now go for the XMP
         Document dom = loadDOM(document.getDocumentCatalog().getMetadata(), metadata, context);
diff --git a/tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java b/tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
index 52814ac..537a7ff 100644
--- a/tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
+++ b/tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
@@ -1370,6 +1370,14 @@ public class PDFParserTest extends TikaTest {
         assertFalse(path + " should have thrown exception", noEx);
     }
 
+    @Test
+    public void testLanguageMetadata() throws Exception {
+        assertEquals("de-CH", getXML("testPDF-custommetadata.pdf")
+                .metadata.get(TikaCoreProperties.LANGUAGE));
+        assertEquals("zh-CN", getXML("testPDFFileEmbInAnnotation.pdf")
+                .metadata.get(TikaCoreProperties.LANGUAGE));
+    }
+
     /**
      * Simple class to count end of document events.  If functionality is useful,
      * move to org.apache.tika in src/test

-- 
To stop receiving notification emails like this one, please contact
tallison@apache.org.