You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@pdfbox.apache.org by "Jan Divis (JIRA)" <ji...@apache.org> on 2012/05/04 13:58:48 UTC
[jira] [Created] (PDFBOX-1301) Wrong characters in HTML/TXT file
from PDF containing scanned pages/images
Jan Divis created PDFBOX-1301:
---------------------------------
Summary: Wrong characters in HTML/TXT file from PDF containing scanned pages/images
Key: PDFBOX-1301
URL: https://issues.apache.org/jira/browse/PDFBOX-1301
Project: PDFBox
Issue Type: Bug
Environment: Windows XP, java version "1.6.0_29"
Reporter: Jan Divis
When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
resp.
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
jakýchkoli jiných prostředků
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira
[jira] [Updated] (PDFBOX-1301) Wrong characters in HTML/TXT file
from PDF containing scanned pages/images
Posted by "Jan Divis (JIRA)" <ji...@apache.org>.
[ https://issues.apache.org/jira/browse/PDFBOX-1301?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel ]
Jan Divis updated PDFBOX-1301:
------------------------------
Attachment: correct-chars-when-converted-splitted-page.html
Correct conversion (converted only one splitted page, without scanned image inside).
> Wrong characters in HTML/TXT file from PDF containing scanned pages/images
> --------------------------------------------------------------------------
>
> Key: PDFBOX-1301
> URL: https://issues.apache.org/jira/browse/PDFBOX-1301
> Project: PDFBox
> Issue Type: Bug
> Environment: Windows XP, java version "1.6.0_29"
> Reporter: Jan Divis
> Attachments: 54391-scan.pdf, converted-wrong-chars.html, correct-chars-when-converted-splitted-page.html
>
>
> When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
> resp.
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
> Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
> jakýchkoli jiných prostředků
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira
[jira] [Updated] (PDFBOX-1301) Wrong characters in HTML/TXT file
from PDF containing scanned pages/images
Posted by "Jan Divis (JIRA)" <ji...@apache.org>.
[ https://issues.apache.org/jira/browse/PDFBOX-1301?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel ]
Jan Divis updated PDFBOX-1301:
------------------------------
Description:
When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
resp.
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
jakýchkoli jiných prostředků
was:
When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
resp.
Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
Makêchkoli Minêch prostředkĤ
instead of
Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
jakýchkoli jiných prostředků
> Wrong characters in HTML/TXT file from PDF containing scanned pages/images
> --------------------------------------------------------------------------
>
> Key: PDFBOX-1301
> URL: https://issues.apache.org/jira/browse/PDFBOX-1301
> Project: PDFBox
> Issue Type: Bug
> Environment: Windows XP, java version "1.6.0_29"
> Reporter: Jan Divis
> Attachments: 54391-scan.pdf
>
>
> When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
> resp.
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
> Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
> jakýchkoli jiných prostředků
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira
[jira] [Updated] (PDFBOX-1301) Wrong characters in HTML/TXT file
from PDF containing scanned pages/images
Posted by "Jan Divis (JIRA)" <ji...@apache.org>.
[ https://issues.apache.org/jira/browse/PDFBOX-1301?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel ]
Jan Divis updated PDFBOX-1301:
------------------------------
Attachment: 54391-scan.pdf
PDF with scanned text from page 14.
> Wrong characters in HTML/TXT file from PDF containing scanned pages/images
> --------------------------------------------------------------------------
>
> Key: PDFBOX-1301
> URL: https://issues.apache.org/jira/browse/PDFBOX-1301
> Project: PDFBox
> Issue Type: Bug
> Environment: Windows XP, java version "1.6.0_29"
> Reporter: Jan Divis
> Attachments: 54391-scan.pdf
>
>
> When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
> resp.
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
> Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
> jakýchkoli jiných prostředků
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira
[jira] [Updated] (PDFBOX-1301) Wrong characters in HTML/TXT file
from PDF containing scanned pages/images
Posted by "Jan Divis (JIRA)" <ji...@apache.org>.
[ https://issues.apache.org/jira/browse/PDFBOX-1301?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel ]
Jan Divis updated PDFBOX-1301:
------------------------------
Attachment: converted-wrong-chars.html
Wrong output when converting whole PDF
> Wrong characters in HTML/TXT file from PDF containing scanned pages/images
> --------------------------------------------------------------------------
>
> Key: PDFBOX-1301
> URL: https://issues.apache.org/jira/browse/PDFBOX-1301
> Project: PDFBox
> Issue Type: Bug
> Environment: Windows XP, java version "1.6.0_29"
> Reporter: Jan Divis
> Attachments: 54391-scan.pdf, converted-wrong-chars.html, correct-chars-when-converted-splitted-page.html
>
>
> When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics):
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků
> resp.
> Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo
> Makêchkoli Minêch prostředkĤ
> instead of
> Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo
> jakýchkoli jiných prostředků
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira