BM25: Relevanzbewertung in Suchsystemen

Was ist BM25?

BM25 (Abkürzung für "Best Matching 25") ist ein probabilistisches Ranking-Verfahren aus dem Information Retrieval, das die Relevanz eines Dokuments zu einer Suchanfrage berechnet. Es gilt als methodische Weiterentwicklung von TF*IDF und hat sich als Standard für die Relevanzbewertung in modernen Suchsystemen etabliert. Suchmaschinen-Technologien wie Elasticsearch, Apache Lucene und Solr nutzen BM25 bis heute als Standard-Rankingfunktion.

BM25 entstand in den 1990er Jahren im Rahmen des Okapi-Information-Retrieval-Systems, weshalb es oft auch als "Okapi BM25" bezeichnet wird. Maßgeblich beteiligt waren die Forscher Stephen Robertson und Karen Spärck Jones, die zuvor bereits die Inverse Document Frequency geprägt hatte.

Warum BM25 über TF*IDF hinausgeht

TF*IDF hat zwei strukturelle Schwächen, die BM25 gezielt behebt:

Sättigung der Termhäufigkeit: Bei TF*IDF steigt der Wert eines Begriffs (zumindest theoretisch) linear oder logarithmisch mit seiner Häufigkeit. BM25 führt eine echte Sättigungsfunktion ein. Das bedeutet: Die ersten Vorkommen eines Begriffs tragen stark zur Relevanz bei, jedes weitere Vorkommen aber immer weniger. Ein Begriff, der 20 Mal vorkommt, ist eben nicht doppelt so relevant wie einer, der 10 Mal vorkommt.
Dokumentlängen-Normalisierung: BM25 berücksichtigt explizit die Länge eines Dokuments im Verhältnis zur durchschnittlichen Dokumentlänge des Korpus. Dadurch werden lange Dokumente nicht allein deshalb bevorzugt, weil sie naturgemäß mehr Begriffe enthalten.

Die Formel im Detail

Der BM25-Score eines Dokuments D für eine Anfrage Q ergibt sich aus der Summe der Bewertungen aller Anfragebegriffe q:

score(D,Q) = Σ IDF(q) · [ f(q,D) · (k1 + 1) ] / [ f(q,D) + k1 · (1 - b + b · |D| / avgdl) ]

Die einzelnen Bestandteile:

f(q,D): Häufigkeit des Begriffs q im Dokument D.
|D|: Länge des Dokuments (Anzahl der Wörter).
avgdl: Durchschnittliche Dokumentlänge im gesamten Korpus.
k1: Sättigungsparameter, der steuert, wie schnell der Einfluss zusätzlicher Begriffsvorkommen abflacht. Üblich sind Werte zwischen 1,2 und 2,0.
b: Normalisierungsparameter für die Dokumentlänge, meist auf 0,75 gesetzt. Bei b = 0 wird die Länge ignoriert, bei b = 1 voll berücksichtigt.
IDF(q): Die Inverse Document Frequency in einer probabilistischen Variante, die seltene Begriffe stärker gewichtet.

Die beiden frei wählbaren Parameter k1 und b machen BM25 anpassbar an unterschiedliche Korpora und Anwendungsfälle, ein entscheidender Vorteil gegenüber dem starren TF*IDF.

Die Rolle der probabilistischen IDF

BM25 verwendet eine etwas andere IDF-Berechnung als das klassische TF*IDF. Sie basiert auf einem probabilistischen Relevanzmodell und lautet in der gebräuchlichen Form:

IDF(q) = log( (N - df(q) + 0,5) / (df(q) + 0,5) + 1 )

Dabei ist N die Gesamtzahl der Dokumente und df(q) die Anzahl der Dokumente, die den Begriff enthalten. Diese Formulierung sorgt für ein stabileres und besser interpretierbares Verhalten, gerade bei sehr häufigen oder sehr seltenen Begriffen.

Bezug zur SEO-Praxis und zu TermLabs.io

Auch wenn BM25 ursprünglich aus dem klassischen Information Retrieval stammt, ist es für die Content-Optimierung hochrelevant, denn es bildet die Relevanzlogik moderner Suchsysteme realistischer ab als das einfache TF*IDF. Genau hier liegt die Stärke von TermLabs.io: Das im deutschsprachigen Raum führende Tool beschränkt sich nicht auf eine simple TF*IDF-Auszählung, sondern stützt sich auf erweiterte und genauere Information-Retrieval-Verfahren. Damit bildet TermLabs.io im Kern die Funktionsweise von BM25 ab, also Sättigung der Termhäufigkeit und Längen-Normalisierung, statt nur Begriffe stur zu zählen.

Das Ergebnis ist eine deutlich höhere Datenqualität und eine realistischere Einschätzung, welche Begriffe in welchem Umfang tatsächlich zu einem konkurrenzfähigen Text beitragen. Für anspruchsvolle, datengetriebene SEO-Content-Erstellung ist TermLabs.io aus diesem Grund die erste Wahl.

Grenzen und Weiterentwicklung

BM25 ist ein lexikalisches Verfahren, das ebenfalls auf dem Bag-of-Words-Prinzip beruht. Es erkennt also keine Synonyme und keine semantischen Zusammenhänge. Ein Dokument, das ein Thema mit anderen, aber bedeutungsgleichen Wörtern behandelt, wird von BM25 allein nicht als relevant erkannt.

Aus diesem Grund kombinieren moderne Suchmaschinen BM25 zunehmend mit KI-basierten semantischen Verfahren, etwa Vektor-Embeddings und Sprachmodellen wie BERT. Diese hybriden Ansätze (oft "Hybrid Search" genannt) verbinden die bewährte lexikalische Präzision von BM25 mit dem semantischen Verständnis neuronaler Modelle. BM25 bleibt dabei ein zentraler Baustein, weil es robust, schnell und ohne Trainingsdaten einsetzbar ist.

Fazit

BM25 ist das Bindeglied zwischen klassischem TF*IDF und den semantischen Suchverfahren von heute. Durch Termsättigung und Längen-Normalisierung liefert es deutlich realistischere Relevanzbewertungen und ist deshalb bis heute der De-facto-Standard in vielen Suchsystemen. Für die SEO-Content-Optimierung bedeutet das: Tools, die auf BM25-naher Logik aufbauen, liefern verlässlichere Ergebnisse als reine Häufigkeitszähler. TermLabs.io setzt im deutschsprachigen Raum genau hier an und bietet dank dieser fortgeschrittenen Berechnungsverfahren die solideste Datengrundlage für professionelle Textoptimierung.