You are viewing a plain text version of this content. The canonical link for it is here.
Posted to issues@lucene.apache.org by "David Smiley (Jira)" <ji...@apache.org> on 2020/09/05 04:25:00 UTC

[jira] [Commented] (SOLR-14833) Empty highlight entry on match only for some queries

    [ https://issues.apache.org/jira/browse/SOLR-14833?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=17190976#comment-17190976 ] 

David Smiley commented on SOLR-14833:
-------------------------------------

Can you try {{hl.method=unified}}?  Another debugging aid here is debug=query which will give some insights into the query representation.

>  Empty highlight entry on match only for some queries 
> ------------------------------------------------------
>
>                 Key: SOLR-14833
>                 URL: https://issues.apache.org/jira/browse/SOLR-14833
>             Project: Solr
>          Issue Type: Bug
>      Security Level: Public(Default Security Level. Issues are Public) 
>          Components: search
>    Affects Versions: 8.6.2
>            Reporter: Hossameldin Khalifa
>            Priority: Critical
>         Attachments: Screen Shot 1442-01-17 at 3.55.53 AM.png, Screen Shot 1442-01-17 at 3.56.05 AM.png, Screen Shot 1442-01-17 at 3.56.16 AM.png
>
>
> Solr Input : Solr Input : 
> ```json\{    "query": "text:(\"ما جرى بين الصحابة\" الماتريدي)",     "fields": "book_id,author_id,cat_id,meta,id,text",    "params": {"        rows": 20, "start": 0,         "hl": "true",        "hl.fl": "text_highlighting,text_highlighting_copy",        "hl.fragmenter": "regex",        "hl.q": "text_highlighting:(\"ما جرى بين الصحابة\" الماتريدي)",         "f.text_highlighting.hl.fragsize": 110,        "f.text_highlighting_copy.hl.fragsize": 0}        }}```
> For exactly this text `"ما جرى بين الصحابة" الماتريدي` and some other queries the highlights have some empty matches.I checked if the indexes don"t have text stored in them but they seem to look like all other indexes.
> Here is an example of some part of the output of the highlighter:```"d3108d2d-1344-458c-8c28-0639f82b274e": \{"text_highlighting": [" الصحابة \ufd43: إن من الأمور المهمة التي ينبغي للداعية أن يعرض عنها ولا يخوض فيها <em>ما</em> <em>جرى</em> <em>بين</em> <em>الصحابة</em> \ufd43، وما حصل لبعضهم"], "text_highlighting_copy": ["فاجهد علي جهدك! "، وقال \ufd41 في الدفاع عن عثمان حين سأل هذا الضال: "أما عثمان فكان الله قد عفا عنه وكرهتم أن تعفوا عنه، وأما عليّ فابن عمّ رسول الله ﷺ وختنه"، ثم أخذ يذكر من محاسن علي وعثمان \ufd44 حتى أفحم هذا الضال فذهب خائبا، وقال له ابن عمر \ufd41: "اذهب بهذا الآن معك"، قال العيني \ufd40: أي اقرن هذا العذر بالجواب حتى لا يبقى لك فيما أجبتك به حجة على ما كنت تعتقد" (1) فينبغي للداعية أن يدافع عن الصحابة \ufd43 وعن أئمة الهدى من علماء أهل السنة والجماعة، ولكن بالحكمة والموعظة الحسنة، والجدال بالحسنى.\nرابعا: من أساليب الدعوة: استخدام الشدة مع بعض المدعوين: الأصل في الأساليب في الدعوة إلى الله \ufdff الرفق واللين، ولكن من المدعوين من لا يجدي ولا ينفع فيه ومعه إلا الشدة والقوة؛ ولهذا استخدم عبد الله بن عمر \ufd41 أسلوب الشدة مع الرجل الضال الذي يطعن في علي وعثمان \ufd44، فقال: "أرغم الله بأنفك"، وقال \ufd41: "قاتلنا حتى لم تكن فتنة وكان الدين لله، وأنتم تريدون أن تقاتلوا حتى تكون فتنة ويكون الدين لغير الله"، وهذا فيه قوة في الأسلوب، ولكن لا يفعل ذلك إلا مع الأمن من الوقوع في المفاسد، والله المستعان (2).\nخامسا: أهمية الكف عما جرى بين الصحابة \ufd43: إن من الأمور المهمة التي ينبغي للداعية أن يعرض عنها ولا يخوض فيها <em>ما</em> <em>جرى</em> <em>بين</em> <em>الصحابة</em> \ufd43، وما حصل لبعضهم؛ لأن الكف عن ذلك مذهب أهل الحق والاعتدال (3)؛ ولهذا قال عبد الله بن عمر \ufd44 في هذا الحديث: "أما عثمان فكان الله قد عفا عنه فكرهتم أن تعفوا عنه، وأما عليّ فابن عمّ رسول الله ﷺ"، قال شيخ الإسلام ابن تيمية \ufd40 في مذهب أهل\n_________\n(1) عمدة القاري، شرح صحيح البخاري، 16/ 207.\n(2) انظر: الحديث رقم 116، الدرس العاشر.\n(3) انظر: شرح العقيدة الواسطية، لابن تيمية، تأليف محمد خليل الهراس، ص 250."]}, "1f36e221-2683-4bc7-9732-e6a64298f2df": {}}```
> I tried setting `hl.maxAnalyzedChars` to a large integer value and it still did not workOne thing I also know that when removing `"hl.q": "text_highlighting:(\"ما جرى بين الصحابة\" الماتريدي)", `  from the params it works.However it then does not highlight the stop words, which is not my desired behaviour.
> Here is the relevant part of my solr schema 
> ```xml<?xml version="1.0" encoding="UTF-8"?><schema name="turath-config" version="1.6">  <uniqueKey>id</uniqueKey>
>   <fieldType name="text_ar" class="solr.TextField" positionIncrementGap="100">    <analyzer> <!-- <charFilter class="solr.MappingCharFilterFactory" mapping="mapping.txt"/> --> <filter class="solr.SynonymGraphFilterFactory" tokenizerFactory="solr.StandardTokenizerFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />      <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.WordDelimiterGraphFilterFactory"/> <filter class="solr.FlattenGraphFilterFactory"/> <filter class="solr.StopFilterFactory" words="lang/stopwords_ar.txt" ignoreCase="true"/>      <filter class="solr.KeywordRepeatFilterFactory" />      <filter class="solr.ArabicNormalizationFilterFactory"/>      <filter class="solr.ArabicStemFilterFactory"/>      <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>    </analyzer>  </fieldType>
>   <fieldType name="text_ar_highlighting" class="solr.TextField" positionIncrementGap="100">    <analyzer> <!-- <charFilter class="solr.MappingCharFilterFactory" mapping="mapping.txt"/> --> <filter class="solr.SynonymGraphFilterFactory" tokenizerFactory="solr.StandardTokenizerFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />      <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.WordDelimiterGraphFilterFactory"/> <filter class="solr.FlattenGraphFilterFactory"/>      <filter class="solr.KeywordRepeatFilterFactory" />      <filter class="solr.ArabicNormalizationFilterFactory"/>      <filter class="solr.ArabicStemFilterFactory"/>      <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>    </analyzer>  </fieldType>
> <fieldType name="text_ar_match" class="solr.TextField" positionIncrementGap="100">    <analyzer> <!-- <charFilter class="solr.MappingCharFilterFactory" mapping="mapping.txt"/> --> <filter class="solr.SynonymGraphFilterFactory" tokenizerFactory="solr.StandardTokenizerFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />      <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.WordDelimiterGraphFilterFactory"/> <filter class="solr.FlattenGraphFilterFactory"/>      <filter class="solr.KeywordRepeatFilterFactory" />      <filter class="solr.ArabicNormalizationFilterFactory"/>      <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>    </analyzer>  </fieldType>
>   <field name="text" type="text_ar" indexed="true" stored="true"/>  <field name="text_highlighting" type="text_ar_highlighting" indexed="true" stored="true"/> <field name="text_highlighting_copy" type="text_ar_highlighting" indexed="true" stored="true"/> <field name="text_match" type="text_ar_match" indexed="true" stored="true"/>  <field name="meta" type="string_large" indexed="false" stored="true"/>  <field name="book_id" type="pint" indexed="true" stored="true"/>  <field name="cat_id" type="pint" indexed="true" stored="true"/>  <field name="author_id" type="pint" indexed="true" stored="true"/>  <field name="death" type="pint" indexed="true" stored="true"/> <field name="page_index" type="pint" indexed="true" stored="true"/>  <field name="auto_numbered" type="boolean" indexed="true" stored="true"/></schema>
> ```



--
This message was sent by Atlassian Jira
(v8.3.4#803005)

---------------------------------------------------------------------
To unsubscribe, e-mail: issues-unsubscribe@lucene.apache.org
For additional commands, e-mail: issues-help@lucene.apache.org