You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@tika.apache.org by "Subramanian (JIRA)" <ji...@apache.org> on 2019/01/01 06:15:00 UTC
[jira] [Created] (TIKA-2803) Apache Tika not properly extracting
text from PDF for Indian languages
Subramanian created TIKA-2803:
---------------------------------
Summary: Apache Tika not properly extracting text from PDF for Indian languages
Key: TIKA-2803
URL: https://issues.apache.org/jira/browse/TIKA-2803
Project: Tika
Issue Type: Bug
Components: parser
Reporter: Subramanian
I tried to extract text from PDF, it is working fine for English but not for Indian languages like Hindi, Tamil, Malayalam etc... See the sample below, all the bold text in the extracted content is not correct. Does Tika works with non English languages?
*Original Text :*
மக்களுக்குப் புத்தாண்டு பரிசாக, எல்இடி டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர் மானிட்டர், மாற்றுத்திறனாளிகளுக்கான உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள், சேவைகளின் குறைக்கப்பட்ட ஜிஎஸ்டி வரி இன்று முதல் அமலுக்கு வந்தது.
*Extracted Text :*
*மக்களக்கப் பத்தாண்ட* பரிசாக, *எல்இடடவ*, சனிமா *டக்ககட,் கம்ப்யட்டர்*மானிட்டர,்
*மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்* உள்ளிட்ட 23
*வகககபாரடக்ள், சசகவகளின்*
*ககறக்கப்படட் ஜஎஸ்ட* வரி *இன்றமதல் அமலக்கவந்தத*.
--
This message was sent by Atlassian JIRA
(v7.6.3#76005)