Die Dokumentensuche ist eine Suche, die in erster Linie mit unstrukturiertem Freitext arbeitet (nicht nur mit Dokumenten). Egal, ob Sie nach einer Webseite suchen, ein Produkt finden oder mit kuratierten Inhalten arbeiten, Sie verwenden dazu eine Suchmaschine. Sie rufen eine Webseite auf und geben etwas in das Textfeld Suche ein. Klicken Sie auf „Suchen“ und Sie erhalten (hoffentlich) relevante Artikel, die Ihrem Informationsziel entsprechen.

Suchmaschinen sind aus der Datenbanktechnologie hervorgegangen – sie speichern Daten und verarbeiten Abfragen gegen diese Daten. Herkömmliche Datenbanken arbeiten in erster Linie mit strukturierten Inhalten – die Daten sind in Tabellen und Spalten organisiert, in denen ein Schema integriert ist. Die Aufgabe der Datenbank besteht darin, alle Datenzeilen auf der Grundlage von Abfragen abzurufen, die mit den Werten in den Spalten übereinstimmen. Suchmaschinen arbeiten mit strukturierten Daten (Dokumenten), die sowohl Metadaten als auch große Blöcke unstrukturierten Textes (Freitext) enthalten. Suchmaschinen verwenden linguistische Regeln, um diese großen Textblöcke in passende Begriffe zu zerlegen. Außerdem verfügen Suchmaschinen über eine eingebaute Ranking-Funktion, um die Ergebnisse zu ordnen und die besten an die Spitze zu bringen. Während relationale und NoSQL-Datenbanken alle Ergebnisse abrufen, rufen Suchmaschinen die besten Ergebnisse ab.

Die Anwendungen von Suchmaschinen lassen sich in drei große Kategorien unterteilen: die Dokumentensuche, die hauptsächlich mit unstrukturiertem Freitext arbeitet, die eCommerce-Suche, die mit einer Mischung aus strukturierten und unstrukturierten Daten arbeitet, und das Query-Offloading, das hauptsächlich mit strukturierten Daten arbeitet.

Funktioniert die Dokumentensuche mit Metadaten?

Bei der Dokumentensuche durchsuchen Sie das Hauptdokument, das so klein wie ein Absatz und so groß wie Tausende von Seiten sein kann. Dokumente enthalten eine Vielzahl anderer Bereiche, darunter sowohl unstrukturierte Textfelder (Titel und Zusammenfassung), halbstrukturierte Felder (Autor) als auch strukturierte Felder (Veröffentlichungsdatum, Herkunftsgruppe, Kategorie) - die Metadaten. Die Suchmaschine verarbeitet eine Mischung aus Text und Metadaten in Benutzeranfragen.

Die wichtigsten Herausforderungen bei der Dokumentensuche lassen sich in zwei Bereiche unterteilen: Datenvorbereitung und -eingabe sowie Suchrelevanz.

In Anwendungsfällen der Dokumentensuche stammen die Dokumente (Korpus) aus nutzergenerierten oder anderen unkuratierten Inhalten. Diese Inhalte enthalten in der Regel Tippfehler oder andere Ungenauigkeiten, Wiederholungen und unsinnige Angaben. Bevor Sie diese Daten in eine Suchmaschine laden, müssen Sie die Daten kuratieren, bereinigen und normalisieren. Nachdem die Daten aufbereitet sind, müssen Sie diese Daten in die Suchmaschine laden (durch Aufruf der Ingestion-APIs). Schließlich benötigen Sie ein Verfahren zur Aktualisierung der Dokumente, wenn sich diese ändern.

Der Kernwert der Dokumentensuche besteht darin, Dokumente zu finden, die für die Suchanfrage des Benutzers relevant sind – Suchrelevanz. Während des Abrufs bewertet und sortiert die Suchmaschine alle übereinstimmenden Dokumente anhand eines statistischen Maßes (BM25). BM25 verwendet die Einzigartigkeit des Suchbegriffs gekreuzt mit seiner Anzahl in den übereinstimmenden Dokumenten. Je öfter eine Suchanfrage mit eindeutigen Begriffen übereinstimmt, desto höher ist ihre Punktzahl. Sie müssen die Bewertungsfunktion an Ihren speziellen Datensatz anpassen; Methoden des Machine Learning (ML) helfen Ihnen, Ihr Ranking zu verbessern. Die Suche ist nur so gut wie die Relevanz der gefundenen Dokumente, und Sie wollen die besten.

Was sind andere Anwendungsfälle für die Suche?

eCommerce-Suche 

Sie nutzen eine eCommerce-Engine, um Produkte aus einem Katalog verfügbarer Produkte zu finden und zu kaufen. Diese Produkte umfassen viele Metadatenfelder – Größe, Farbe, Marke und so weiter – sowie längere Felder wie Titel, Produktbeschreibung und Bewertungen. Die Hauptaufgabe der Suchmaschine besteht darin, die relevantesten Ergebnisse abzurufen, was zu Einnahmen führt. Website-Designer verwenden viele Tools, um eine gute Relevanzfunktion zu erstellen – von eingebetteten, numerischen Werten bis hin zu ML-Modellen, die auf Nutzerverhalten basieren.

Um die End-to-End-Benutzerfreundlichkeit zu verbessern, fügen eCommerce-Websites häufig eine Facettensuche hinzu. Die Suchmaschine liefert eine nach Buckets geordnete Anzahl von Werten in verschiedenen Bereichen (Größe, Farbe usw.), und die Benutzeroberfläche bietet dem Benutzer eine anklickbare Liste, mit der die Ergebnisse eingegrenzt werden können.

Einige Arten der eCommerce-Suche hängen stark von Personalisierung und Empfehlungen ab. Wenn jemand nach „Kleidern“ sucht, sollte die Suchmaschine Kleider finden, an denen die Kunden interessiert sein könnten, auch wenn die Anfrage selbst sehr offen ist. Ähnlichkeitsmetriken wie k-nearest neighbor (k-NN) helfen dabei.

Kuratierte Datensatzsuche

Durchsuchen eines kuratierten Datensatzes, z. B. eines Unternehmensdokumentenspeichers (Daten aus klinischen Studien, juristische Schriftsätze, Immobilien usw.). Suchmaschinen enthalten linguistische Regeln und andere sprachspezifische Merkmale, die ihnen dabei helfen, große Textblöcke in einzelne Begriffe (Wörter aus einem Bereich oder einem großen Textblock) zu zerlegen, die dann abgeglichen werden können. Die reichhaltige Abfragesprache ermöglicht es, diese großen Textblöcke nach Begriffskombinationen zu durchsuchen, z. B. „langes ärmelloses Kleid“. Die Suchmaschine findet jedoch nicht alles, was dazu passt: Sie verwendet eine Relevanzbewertung, um die Dokumente zu bewerten und zu sortieren und nur die besten Übereinstimmungen anzuzeigen.

Offload von Abfragen

Suchmaschinen enthalten spezielle Datenstrukturen, die eine Suche mit hohem Volumen und geringer Latenzzeit ermöglichen. Die wichtigste dieser Strukturen ist der invertierte Index, der einzelne Begriffe einer Liste von Dokumenten zuordnet, die diese Begriffe enthalten. Aufgrund dieser Datenstrukturen sind Suchmaschinen bei der Abfrageverarbeitung relationalen Datenbanken überlegen. Der Nachteil ist, dass Suchmaschinen nicht relational sind. Es ist üblich, ein Tandem aus relationaler Datenbank und Suchmaschine zu verwenden. Sie verwenden die relationale Datenbank, um Anwendungsdaten bereitzustellen, und eine Suchmaschine, um eine relevante Suche mit geringer Latenz über diese Daten zu ermöglichen.

Der Aufbau eines reichhaltigen, ansprechenden Sucherlebnisses erfordert viele Arbeitsfunktionen. Die Entwickler integrieren eine Suchlösung, erstellen eine Suchoberfläche und wissen, wie die Daten strukturiert werden müssen, um die besten Suchergebnisse zu erzielen. Produktmanager stellen Anforderungen an die Metadatenstruktur und die Benutzerfreundlichkeit der Suchoberfläche. Datenwissenschaftler kuratieren Quelldaten und verfolgen und bearbeiten das Nutzerverhalten. Führungskräfte legen geschäftliche KPIs fest, die die Produkt- und Entwicklungsteams bei der Erreichung der Geschäftsziele für die Suchmaschine leiten.

Die Suchmaschinen wurden für die Übereinstimmung von Begriffen optimiert. Die Suche nach „2-Meter-Sofa“ sollte Ihnen Ergebnisse liefern, die 2-Meter-Sofas sind, und zwar durch die Übereinstimmung von „2“, „Meter“ und „Sofa“. Dies ist die Schlagwortsuche. In vielen Fällen kennen die Suchenden nicht die genauen Begriffe, die sie suchen, und suchen daher anhand der Bedeutung. Dies ist die semantische Suche, die an der Grenze zwischen Such- und ML-Technologien angesiedelt ist. Bei der semantischen Suche werden Suchanfragen wie „Gemütlicher Sitzplatz am Kamin“ verwendet, um Artikel wie ein 2-Meter-Sofa abzurufen.

Die semantische Suche erfordert ML-Methoden. Sie müssen einen Vektorraum von Elementen und Abfragen erstellen und dann Vektorähnlichkeitsberechnungen verwenden, um Elemente zu finden, die in diesem Raum nahe beieinander liegen. Bei der Vektorsuche muss ein Dokument keine Wörter oder Synonyme mit einer Suchanfrage gemeinsam haben, um relevant zu sein. So könnte beispielsweise eine Suche nach „Fahrradwartung“ zu einem Dokument über „Kettenschaltung schmieren“ führen, da der ML-Algorithmus weiß, dass „Kettenschaltung schmieren“ häufig in der Umgebung von Diskussionen über Fahrradwartung auftaucht.

Wie können Sie Ihre Suchergebnisse verbessern?

Der Schlüssel zu einer effektiven Dokumenten- und E-Commerce-Suche ist die Relevanz. Entsprechen die Suchergebnisse den Bedürfnissen des Suchenden? Suchmaschinen versuchen, mit verschiedenen Techniken die besten Ergebnisse an die Spitze zu bringen. Dies wird als Relevanz-Ranking bezeichnet. Datenbanken liefern alles, was übereinstimmt, und Suchmaschinen sind darauf optimiert, relevante Einträge zu finden.

  • Ihre Suche kann mehrere Bereiche mit unterschiedlicher Gewichtung umfassen. Wenn Sie zum Beispiel eine Filmdatenbank durchsuchen, möchten Sie vielleicht nach Bereichen wie Titel, Regisseur, und Schauspieler suchen und Treffern für Titel mehr Gewichtung verleihen als Treffern für Schauspieler.
  • Ziehen Sie in Erwägung, Ihre Suchergebnisse nach Aktualität anzupassen. Fügen Sie Ihrem Index ein Feld für das Veröffentlichungsdatum und Ihrer Bewertungsfunktion eine auf diesem Datum basierende exponentielle Abklingfunktion hinzu.
  • Erwägen Sie das Hinzufügen von Facetten oder Filtern zu Ihren Suchergebnissen, um Ihren Benutzern die Suche nach bestimmten Elementen zu erleichtern. Viele Dokumentensuchsysteme unterstützen die Facettierung von Metadaten, die in der Regel als Kategorien auf der linken Seite der Suchergebnisseite angezeigt werden.
  • Erwägen Sie das Hinzufügen von Synonymen. Synonyme können Ihren Endnutzern helfen, die gesuchten Ergebnisse zu finden. In der Bekleidungsbranche ist ein Tee ein T-Shirt oder ein Teeshirt. Ihre Endnutzer sollten die gleichen Ergebnisse finden, egal ob sie nach „tee“ oder „t-shirt“ suchen. Das Hinzufügen von Synonymen kann diese Ergebnisse liefern.

Die Dokumentensuche erstreckt sich auf viele verschiedene Anwendungen.

  • eCommerce-Websites nutzen die Dokumentensuche, um die Produkte zu finden, die ihre Nutzer kaufen möchten.
  • Fotoseiten nutzen die Dokumentensuche, um Fotos anhand von Metadaten wie Titel und Beschreibung oder sogar anhand von passenden Bildvektoren zu finden.
  • Juristische Nutzer nutzen die Dokumentensuche, um relevante Rechtsprechung zu finden.
  • Ärzte nutzen die Dokumentensuche, um Medikamente für die Krankheiten ihrer Patienten zu finden.
  • Lösungen für das Kundenbeziehungsmanagement ( Customer Relationship Management, CRM) nutzen die Dokumentensuche, um Notizen, Interaktionen und Zielkunden zu finden.

Wenn Sie etwas finden wollen, benutzen Sie eine Suchmaschine!

AWS Document Search – Nächste Schritte

Zusätzliche produktbezogene Ressourcen ansehen
Kostenlose Angebote für Datenbank-Services in der Cloud anzeigen 
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS. 

Registrieren 
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmeldung