Wie arbeitet eine Suchmaschine? Durchsucht sie mit meiner Anfrage das ganze Internet genau in diesem Moment?
Wie suchen wir eigentlich in klassischen Medien, z. B. ein Rezept für ein leckeres Mittagessen? Es muss ja nicht immer was mit der Schule zu tun haben!
Unser Vorgehen
→ Bibliothek/Bücherregal → Kochbücher → Buch → Inhaltsverzeichnis/Index → Rezept
Ein alphabetisches Rezeptregister ist für große Datenmengen unpraktisch.
|
|
Die Einteilung der Rezepte in Kategorien erleichtert die zielgerichtete Suche bestimmter Gerichte.
|
|
In einem Index werden Begriffe gesammelt, inhaltlich zusammengefasst und die Orte des (ggf. mehrfachen) Vorkommens im Dokument festgehalten.
Synonyme werden durch Referenzen auf den Hauptbegriff (siehe …) abgebildet.
|
|
- Je genauer der Index, desto besser/schneller die Suche.
- Je strukturierter der Index, desto besser/schneller die Suche.
Wie kann man einen Index erstellen?
→ Die Geschichte des Hashtags
Das Indexieren von Informationen ist aus technischer Sicht an den Umgang mit einem Datenbanksystem gebunden. Das Herzstück eines Datenbanksystems ist eine Datenbank oder ein Verbund aus mehreren Datenbanken, in denen die Daten gespeichert werden. Zum Schutz der Daten und ihrer Struktur wird der Zugriff auf die Daten durch ein Datenbankmanagementsystem geregelt – einer Schnittstelle zwischen Benutzer und Datenbank.
Datenbanksystem = Datenbank(en) + Datenbankmanagementsystem
Eine Analogie zu Datenbanksystemen sind Bibliotheken. Die Bücherregale entsprechen den Datenbanken. Der Zugriff auf die Datenbanken wird durch die Bibliothekare (Datenbankmanagementsystem) geregelt: Sie überprüfen, wer Bücher ausleihen darf, sie helfen ggf. beim Auffinden von Büchern, sie allein stellen zurückgegebene Werke wieder in die Regale ein und sie sind auch für Neuanschaffungen und die Indexierung von Büchern verantwortlich. (nach Lutz Hellmig, Suchmaschinen und Datenbanksysteme CC BY-NC-SA 3.0 DE)
Wie funktioniert nun eine Suchmaschine?
- Erfassen und Speichern aller Dokumente → Crawler → Ergebnis: Reduziertes Abbildes des Web
- Indizierung eines jeden Dokuments → Indexer → Ergebnis: Datenbank mit einem Index
- Verarbeitung der Anfrage aus dem Nutzerinterface → Indizierung der Anfrage → Suche in der Index-Datenbank → Ergebnis: Liste von Links
- Ordnen der Ergebnisliste → Ranking unter Berücksichtigung von Aktualität, Popularität, Metadaten, ... → Ergebnis: geordnete Liste von Links