You are viewing a plain text version of this content. The canonical link for it is here.

Posted to commits@lucene.apache.org by mi...@apache.org on 2012/03/24 15:06:03 UTC

svn commit: r1304798 - /lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java

Author: mikemccand
Date: Sat Mar 24 14:06:03 2012
New Revision: 1304798

URL: http://svn.apache.org/viewvc?rev=1304798&view=rev
Log:
LUCENE-3905: don't split up a surrogate pair when truncating too-long text

Modified:
    lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java

Modified: lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java
URL: http://svn.apache.org/viewvc/lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java?rev=1304798&r1=1304797&r2=1304798&view=diff
==============================================================================
--- lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java (original)
+++ lucene/dev/trunk/lucene/test-framework/src/java/org/apache/lucene/analysis/BaseTokenStreamTestCase.java Sat Mar 24 14:06:03 2012
@@ -369,7 +369,12 @@ public abstract class BaseTokenStreamTes
       if (random.nextInt(10) == 7) {
         text = docs.nextDoc().get("body");
         if (text.length() > maxWordLength) {
-          text = text.substring(0, maxWordLength);
+          // Take care not to split up a surrogate pair:
+          if (Character.isHighSurrogate(text.charAt(maxWordLength-1))) {
+            text = text.substring(0, maxWordLength-1);
+          } else {
+            text = text.substring(0, maxWordLength);
+          }
         }
       } else {
         if (simple) {