Intelligent Spamsortering til Unix-emailservere

For aktive netbrugere er det en stor behagelighed at slippe for langt det meste spam. Et af de bedste programmer til at håndtere spam på UNIX-kompatible mailservere som Linux er open source-programmet Spamassassin. Programmet frasorterer langt det meste spam. Det særlig elegante med Spamassassin er, at man selv kan forbedre spam-filteringen.

Installation af Spamassassin på en UNIX-kompatibel server er nem. Man henter programmet og følger den installationsvejledning der følger med, når man udpakker programmet. Ifølge vejledningen skal hver bruger herefter tilføje et par linier til filen .procmailrc for at kalde »spamassassin« hver gang emails kommer ind.

Pointscore afgør spam

Herefter filtrerer Spamassassin emails ved at indholdet af modtagne emails sendes igennem en lang række regler, som hver kan give lavere eller højere pointscore.

Er den totalt pointscore over den præ-definerede grænse på 5, så er det med stor sandsynlighed spam. Programmet tildeler f.eks. automatisk pointscoren 3.5 hvis der står "viagra" i emailen.

Jo mere HTML emailen indeholder, desto højere bliver scoren. F.eks. vil en email med store skrifttyper og teksten "click here" få ekstra et point ekstra. Er man i den situation, at man faktisk handler med viagra, så er der mulighed for at regulere på de enkelte tests eller tage f.eks. viagra-testen ud. Endelig kan man også regulere den grænse for pointscoren, som afgør om en email er spam.

Blot to procent spam slipper igennem

Spamassassins evner til at finde spam kan forbedres ved, at man selv filtrerer sine emails over en periode i to bunker. En "ham"-bunke (dvs. ikke-spam) og en spam-bunke.

De to filer med de mange emails importeres derefter i hjælpeprogrammet »sa-learn«, som kommer sammen med »spamassassin«. De mange emails anvendes til at lave en Bayes-indlæring af spam. Bayes' formel er kendt fra statistik og anvendelsen her er at kombinere sandsynlighederne for at givne ord anvendes forenet i emailen.

Praktisk så er resultatet, at programmet trænes til at se forskelle på spam og ikke-spam ved at kigge efter hvor hyppigt de enkelte ordkonstellationer forekommer i de emails man selv modtager. Indlæringen sker automatisk, og her har vi danskere en fordel i at langt den overvejende del at spammængden er på engelsk, mens mange ikke-spam emails er på dansk. Dette gør det nemmere at detektere spam.

Praktiske forsøg viser, at »spamassassin« lader under under 2% af al spam slippe igennem, hvis man lader den præ-indstillede spam-grænse være uændret og ikke anvender Bayes-træning på spam.