You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@tika.apache.org by "Tim Allison (JIRA)" <ji...@apache.org> on 2019/01/03 17:55:00 UTC

[jira] [Commented] (TIKA-2803) Apache Tika not properly extracting text from PDF for Indian languages

    [ https://issues.apache.org/jira/browse/TIKA-2803?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=16733291#comment-16733291 ] 

Tim Allison commented on TIKA-2803:
-----------------------------------

bq.  Does Tika work with non English languages?

Yes.  However, text extraction from PDFs is notoriously problematic; see, e.g., https://wiki.apache.org/tika/Troubleshooting%20Tika#PDF_Text_Problems . Sometimes fonts and/or unicode mappings are not included within the PDF.  Basically, if you open the file in Acrobat Reader and "save as text" and you get better text or if you get better text with another tool, there's a _chance_ we can make improvements.  

If you can share the PDF file, I can take a look.  

> Apache Tika not properly extracting text from PDF for Indian languages
> ----------------------------------------------------------------------
>
>                 Key: TIKA-2803
>                 URL: https://issues.apache.org/jira/browse/TIKA-2803
>             Project: Tika
>          Issue Type: Bug
>          Components: parser
>    Affects Versions: 1.19.1
>            Reporter: Subramanian
>            Priority: Major
>
> I tried to extract text from PDF, it is working fine for English but not for Indian languages like Hindi, Tamil, Malayalam etc... See the sample below, all the bold text in the extracted content is not correct. Does Tika work with non English languages?
> *Original Text :*
> மக்களுக்குப் புத்தாண்டு பரிசாக, எல்இடி டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர் மானிட்டர், மாற்றுத்திறனாளிகளுக்கான உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள், சேவைகளின் குறைக்கப்பட்ட ஜிஎஸ்டி வரி இன்று முதல் அமலுக்கு வந்தது.
> *Extracted Text :*
> *மக்களக்கப் பத்தாண்ட* பரிசாக, *எல்இடடவ*, சனிமா *டக்ககட,் கம்ப்யட்டர்*மானிட்டர,்
> *மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்* உள்ளிட்ட 23
>  *வகககபாரடக்ள், சசகவகளின்*
> *ககறக்கப்படட் ஜஎஸ்ட* வரி *இன்றமதல் அமலக்கவந்தத*.



--
This message was sent by Atlassian JIRA
(v7.6.3#76005)