You are viewing a plain text version of this content. The canonical link for it is here.

Posted to dev-de@spamassassin.apache.org by Rolf Schaufelberger <rs...@plusw.de> on 2004/08/06 23:37:34 UTC

Header Filter

Hallo, 

ich habe eine Frage zum Filter in 
check_for_unique_id  in EvalTest.pm : 
Dort findet sich ein Test in der Form :

   # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
        || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/

Mein Problem damit ist ganz einfach, dass dieser Test jede Überschrift die 
zwei durch Bindestrich getrennte Wörter enthält, matcht. 
In meinem Fall bin ich als Sender einer sochen Mail betroffen, der Subject 
lautet hier "Ihre Letterjames-Bestellung" , hat mit eine Unique ID nun 
wirklich gar nichts zu tun, liefert mir aber 2.7  Punkte. (In der Summe lande 
ich bei 5.1, weil es eine HTML Mail ist die auch noch Bilder enthält).
Ich halte diese hohe Gewichtung für eine so "groben"  Test für nicht richtig, 
daher meine Frage: 
Ist dieser Test mit einer so hohen Gewichtung "korrekt" bzw. akzeptabel ? 


Rolf Schaufelberger

-------------------------------------------------------------------
plusW
Dipl. Ing. Rolf Schaufelberger                 Tel. 07183/ 30 54 54
Stuttgarter Str. 26                            E-Mail: rs@plusw.de
73635 Rudersberg


---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by Wolfram Schroeder <ws...@informatik.uni-bremen.de>.

Rolf Schaufelberger wrote:

> Wolfram Schroeder wrote:
>
>> Rolf Schaufelberger wrote:
>>
>>> Hallo,
>>> ich habe eine Frage zum Filter in check_for_unique_id  in 
>>> EvalTest.pm : Dort findet sich ein Test in der Form :
>>>
>>>   # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
>>>        || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
>>>
>>> Mein Problem damit ist ganz einfach, dass dieser Test jede 
>>> Überschrift die zwei durch Bindestrich getrennte Wörter enthält, 
>>> matcht. In meinem Fall bin ich als Sender einer sochen Mail 
>>> betroffen, der Subject lautet hier "Ihre Letterjames-Bestellung" , 
>>> hat mit eine Unique ID nun wirklich gar nichts zu tun, liefert mir 
>>> aber 2.7  Punkte. (In der Summe lande ich bei 5.1, weil es eine HTML 
>>> Mail ist die auch noch Bilder enthält).
>>> Ich halte diese hohe Gewichtung für eine so "groben"  Test für nicht 
>>> richtig, daher meine Frage: Ist dieser Test mit einer so hohen 
>>> Gewichtung "korrekt" bzw. akzeptabel ?
>>>
>>> Rolf Schaufelberger
>>>
>>>
>>>  
>>>
>> Hi,
>>
>> ich habe die entsprechende Regel abgeschaltet, freilich kann man
>> niemanden dazu zwingen. Versuch doch einfach mal, statt dessen
>> "Letterjames - Bestellung" zu schreiben (mit Leerzeichen um - drum)?
>>
>> Wolfram
>>
> Ja, kann ich schon tun, aber es ging mir mit meiner Frage auch ums  
> Grundsaetzliche, also wieso bekommt eine so ungenaue Pruefung eine so 
> hohe Bewertung bei der Spam-Wahrscheinlichkeit .
> Rolf
>
Das liegt höchstwahrscheinlich daran, dass SpamAssassin für Englisch 
geschrieben ist. Anscheinend ist die Regel beim Mass-Check nicht weiter 
aufgefallen, weil (7 Zeichen)-(7 Zeichen)(beliebig oft - und 1 Zeichen) 
am Zeilenende in den legitimen Testmails so nicht vorgekommen ist. Im 
Deutschen passiert das schon mal eher wg. der unterschiedlichen 
Wortlänge. Du darfst nicht vergessen, dass die scores "evolviert" 
werden, d.h. sie werden aufgrund von realem Spam und realer richtiger 
Mail errechnet.

Check doch mal http://bugzilla.spamassassin.org und beschwer Dich "on 
behalf of the german spamassassin users" ;-)

Gruss,
Wolfram


---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by Rolf Schaufelberger <rs...@plusw.de>.

Wolfram Schroeder wrote:

> Rolf Schaufelberger wrote:
>
>> Hallo,
>> ich habe eine Frage zum Filter in check_for_unique_id  in EvalTest.pm 
>> : Dort findet sich ein Test in der Form :
>>
>>   # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
>>        || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
>>
>> Mein Problem damit ist ganz einfach, dass dieser Test jede 
>> Überschrift die zwei durch Bindestrich getrennte Wörter enthält, 
>> matcht. In meinem Fall bin ich als Sender einer sochen Mail 
>> betroffen, der Subject lautet hier "Ihre Letterjames-Bestellung" , 
>> hat mit eine Unique ID nun wirklich gar nichts zu tun, liefert mir 
>> aber 2.7  Punkte. (In der Summe lande ich bei 5.1, weil es eine HTML 
>> Mail ist die auch noch Bilder enthält).
>> Ich halte diese hohe Gewichtung für eine so "groben"  Test für nicht 
>> richtig, daher meine Frage: Ist dieser Test mit einer so hohen 
>> Gewichtung "korrekt" bzw. akzeptabel ?
>>
>> Rolf Schaufelberger
>>
>>
>>  
>>
> Hi,
>
> ich habe die entsprechende Regel abgeschaltet, freilich kann man
> niemanden dazu zwingen. Versuch doch einfach mal, statt dessen
> "Letterjames - Bestellung" zu schreiben (mit Leerzeichen um - drum)?
>
> Wolfram
>
Ja, kann ich schon tun, aber es ging mir mit meiner Frage auch ums  
Grundsaetzliche, also wieso bekommt eine so ungenaue Pruefung eine so 
hohe Bewertung bei der Spam-Wahrscheinlichkeit .
Rolf

>
>
>
> ---------------------------------------------------------------------
> Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
> Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org
>
>
>


---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by Wolfram Schroeder <ws...@informatik.uni-bremen.de>.

Rolf Schaufelberger wrote:

>Hallo, 
>
>ich habe eine Frage zum Filter in 
>check_for_unique_id  in EvalTest.pm : 
>Dort findet sich ein Test in der Form :
>
>   # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
>        || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
>
>Mein Problem damit ist ganz einfach, dass dieser Test jede Überschrift die 
>zwei durch Bindestrich getrennte Wörter enthält, matcht. 
>In meinem Fall bin ich als Sender einer sochen Mail betroffen, der Subject 
>lautet hier "Ihre Letterjames-Bestellung" , hat mit eine Unique ID nun 
>wirklich gar nichts zu tun, liefert mir aber 2.7  Punkte. (In der Summe lande 
>ich bei 5.1, weil es eine HTML Mail ist die auch noch Bilder enthält).
>Ich halte diese hohe Gewichtung für eine so "groben"  Test für nicht richtig, 
>daher meine Frage: 
>Ist dieser Test mit einer so hohen Gewichtung "korrekt" bzw. akzeptabel ? 
>
>
>Rolf Schaufelberger
>
>
>  
>
Hi,

ich habe die entsprechende Regel abgeschaltet, freilich kann man
niemanden dazu zwingen. Versuch doch einfach mal, statt dessen
"Letterjames - Bestellung" zu schreiben (mit Leerzeichen um - drum)?

Wolfram




---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by Rolf Schaufelberger <rs...@plusw.de>.

Hallo, 

Am Montag, 9. August 2004 14:57 schrieb Malte S. Stretz:
> On Friday 06 August 2004 23:37 CET Rolf Schaufelberger wrote:
> > Hallo,
>
> Moin,
>
> doh! Hab ich die Mail doch glatt erst mal an die alte SF.net Liste
> geschickt :)
>
> Vor ein paar Tagen schrieb ich:
> > ich habe eine Frage zum Filter in
> > check_for_unique_id  in EvalTest.pm :
> > Dort findet sich ein Test in der Form :
> >
> >    # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
> >
> >         || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
>
> Danke für den Stoß in die richtige Richtung :) Die RE da oben ist
> ziemlicher nonsense.
>

Na da bin ich ja mal beruhigt, dass nicht nur ich das so sehe. 

> > Mein Problem damit ist ganz einfach, dass dieser Test jede Überschrift
> > die zwei durch Bindestrich getrennte Wörter enthält, matcht.
>
> Ah, daran liegt's also.
>
> > In meinem Fall bin ich als Sender einer sochen Mail betroffen, der
> > Subject lautet hier "Ihre Letterjames-Bestellung" , hat mit eine Unique
> > ID nun wirklich gar nichts zu tun, liefert mir aber 2.7  Punkte. (In der
> > Summe lande ich bei 5.1, weil es eine HTML Mail ist die auch noch Bilder
> > enthält). Ich halte diese hohe Gewichtung für eine so "groben"  Test für
> > nicht richtig, daher meine Frage:
> > Ist dieser Test mit einer so hohen Gewichtung "korrekt" bzw. akzeptabel ?
>
> Nein.  Siehe bug 2307 [1].  Ist leider ein Problem, das die Amis nicht so
> wirklich betrifft und ich hatte noch keine Zeit (und Lust), mich mit der
> Regel auseinanderzusetzen.
>
> Cheers,
> Malte
>
>
> [1] http://bugzilla.spamassassin.org/show_bug.cgi?id=2307

Ich gehe dann mal davon aus, dass ich keinen neuen Bug melden muss und dass 
das Problem in "guten" Händen ist. Danke für die Infos. 

Rolf Schaufelberger

-------------------------------------------------------------------
plusW
Dipl. Ing. Rolf Schaufelberger                 Tel. 07183/ 30 54 54
Stuttgarter Str. 26                            E-Mail: rs@plusw.de
73635 Rudersberg


---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by "Malte S. Stretz" <ms...@gmx.net>.

On Friday 06 August 2004 23:37 CET Rolf Schaufelberger wrote:
> Hallo,

Moin,

doh! Hab ich die Mail doch glatt erst mal an die alte SF.net Liste 
geschickt :)

Vor ein paar Tagen schrieb ich:

> ich habe eine Frage zum Filter in
> check_for_unique_id  in EvalTest.pm :
> Dort findet sich ein Test in der Form :
>
>    # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
>
>         || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/

Danke für den Stoß in die richtige Richtung :) Die RE da oben ist ziemlicher 
nonsense.

> Mein Problem damit ist ganz einfach, dass dieser Test jede Überschrift
> die zwei durch Bindestrich getrennte Wörter enthält, matcht.

Ah, daran liegt's also.

> In meinem Fall bin ich als Sender einer sochen Mail betroffen, der
> Subject lautet hier "Ihre Letterjames-Bestellung" , hat mit eine Unique
> ID nun wirklich gar nichts zu tun, liefert mir aber 2.7  Punkte. (In der
> Summe lande ich bei 5.1, weil es eine HTML Mail ist die auch noch Bilder
> enthält). Ich halte diese hohe Gewichtung für eine so "groben"  Test für
> nicht richtig, daher meine Frage:
> Ist dieser Test mit einer so hohen Gewichtung "korrekt" bzw. akzeptabel ?

Nein.  Siehe bug 2307 [1].  Ist leider ein Problem, das die Amis nicht so 
wirklich betrifft und ich hatte noch keine Zeit (und Lust), mich mit der 
Regel auseinanderzusetzen.

Cheers,
Malte


[1] http://bugzilla.spamassassin.org/show_bug.cgi?id=2307


-- 
[SGT] Simon G. Tatham: "How to Report Bugs Effectively"
      <http://www.chiark.greenend.org.uk/~sgtatham/bugs.html>
[ESR] Eric S. Raymond: "How To Ask Questions The Smart Way"
      <http://www.catb.org/~esr/faqs/smart-questions.html>

---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org

Re: Header Filter

Posted by Ernesto Baschny <er...@baschny.de>.

On 6 Aug 2004 at 23:37, Rolf Schaufelberger wrote:

> ich habe eine Frage zum Filter in 
> check_for_unique_id  in EvalTest.pm : 
> Dort findet sich ein Test in der Form :
> 
>    # 9095IPZK7-095wsvp8715rJgY8-286-28 and similar
>         || /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
> 
> Mein Problem damit ist ganz einfach, dass dieser Test jede Überschrift die 
> zwei durch Bindestrich getrennte Wörter enthält, matcht. 

Eigentlich nur durch Bindestrich getrennte Wörter, die mehr als 6 
Zeichen enthalten. Das ist im deutschen bestimmt häufiger der Fall, auch
in anderen Sprachen, wo so "lange" Wörter (>6 Buchstaben) öfter
vorkommen.

> In meinem Fall bin ich als Sender einer sochen Mail betroffen, der Subject 
> lautet hier "Ihre Letterjames-Bestellung" , hat mit eine Unique ID nun 
> wirklich gar nichts zu tun, liefert mir aber 2.7  Punkte. (In der Summe lande 
> ich bei 5.1, weil es eine HTML Mail ist die auch noch Bilder enthält).
> Ich halte diese hohe Gewichtung für eine so "groben"  Test für nicht richtig, 
> daher meine Frage: 
> Ist dieser Test mit einer so hohen Gewichtung "korrekt" bzw. akzeptabel ? 

Die Gewichtungen werden nicht manuell von irgendjemanden ausgesucht,
sondern werden automatisch aus einer Riesen-masse an Spam/Ham Samples
mit einem genetischen Algorithmus "optimiert". Das Problem ist halt, das
die meisten Sample-Mails aus dem englischsprachingen Raum kommen, und
daher kam es bei SA 2.64 zu folgenden Statistiken für diese Regel:

OVERALL%   SPAM%     HAM%     S/O    RANK   SCORE  NAME
 543473   354299   189174    0.652   0.00    0.00  (all messages)
 ...
  3.115   4.7282   0.0930    0.981   0.90    1.39  SUBJ_HAS_UNIQ_ID

Also von den 354.299 Spammails, kam ein solcher ID-Subject halt in etwa
5% vor (also in knapp 17.000 Spams!). Und lediglich in 175 HAM-Emails von
den insgesamt 189.174.

Ein weiteres Problem ist meiner Meinung auch, dass hier viele Checks auf
einmal gemacht werden, und dann nur mit einem Score versehen werden. Ein
Vorschlag, den man dem SA-Team als "Bug" melden könnte, wäre eine
Trennung genau dieser {>6}-{>6} Regel, gerade weil das sehr oft in
anderen Sprachen vorkommen kann. Wenn das separat gescored wird, sehen
die Ergebnisse eventuell anders aus.

Was man auch machen kann/soll ist eventuell selbst zu den "Masses"
beizutragen mit eigenen Spam/Ham-Kollektionen, die dann auch Deutsche
Texte enthalten. Somit kann man die Scores auch für den deutschsprachigen
Raum optimierter bekommen. Dazu mehr im SA-Unterverzeichnis "masses".

Die Statistiken oben findest du übrigens im "rules/" Verzeichnis jeder
SA-distribution.

Als Abhilfe könnte man ja auch im deutschen DE-wiki Regelwerk ja auch
eine "Gegenregel" einfügen, die den Effekt genau dieser {>6}-{>6}
Komponente entgegenwirkt, aber den restlichen ID-Check so lässt, wie
er ist:

header DE_NOT_SUBJECT_ID Subject =~ /\b(\w{7,}-\w{7,}(-\w+)*)\s*$/
lang de describe DE_NOT_SUBJECT_ID Doch kein Subject-ID
core  DE_NOT_SUBJECT_ID -1.390 -0.212 -0.882 -2.677

(PS: Not tested!!)

Gruss,
Ernesto

-- 
Ernesto Baschny <er...@baschny.de>
 http://www.baschny.de - PGP: http://www.baschny.de/pgp.txt
 Sao Paulo/Brasil - Stuttgart/Germany
 Ernst@IRCnet - ICQ# 2955403

---------------------------------------------------------------------
Abmelden, E-Mail an: spamassassin-dev-de-unsubscribe@incubator.apache.org
Weitere Befehle, E-Mail an: spamassassin-dev-de-help@incubator.apache.org