It seems that it contains some portions of the most apeared text fragments of various languages in the jar, for detecting purpose. ----- 原始邮件 ----- 发件人:Albretch Mueller <lb...@gmail.com> 收件人:user@tika.apache.org 主题:language detection in tika ... 日期:2013年12月14日 12点04分