Features von Amazon Comprehend
Warum Amazon Comprehend?
Amazon Comprehend ist ein Service der natürlichen Sprachverarbeitung (NLP), der mittels Machine Learning (ML) Einblicke aus Ihrem Text gewinnt. Amazon Comprehend bietet benutzerdefinierte Entitätserkennung, benutzerdefinierte Klassifizierung, Schlüsselsatzextraktion, Stimmungsanalyse, Entitätserkennung und weitere APIs, sodass Sie NLP einfach in Ihre Anwendungen integrieren können. Dazu rufen Sie einfach die Amazon-Comprehend-APIs in Ihrer Anwendung auf und geben den Speicherort des Quelldokuments oder -texts an. Die APIs geben die Entitäten, die wichtigen Phrasen, die Stimmung und die Sprache im JSON-Format aus, das Sie in Ihrer Anwendung verwenden können.
Benutzerdefinierte Entitätenerkennung
Mit benutzerdefinierten Entitäterkennungen können Sie Amazon Comprehend so anpassen, dass Begriffe erkannt werden, die für Ihre Domäne spezifisch sind. Mit AutoML lernt Amazon Comprehend aus einer kleinen Menge von Beispielen (z. B. einer Liste von Versicherungsnummern, Schadennummern oder SSN) und trainiert dann ein privates, benutzerdefiniertes Modell, um diese Begriffe wie Schadennummern in jedem anderen Textblock in PDFs, einfachem Text oder Microsoft-Word-Dokumenten zu erkennen – kein Machine Learning erforderlich. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel möchte eine Versicherungsgesellschaft Textdokumente auf Entitäten analysieren, die für ihre Branche spezifisch sind: Richtliniennummern.
Beispieltext: Guten Tag, ich heiße Sam Ford und möchte meine Ansprüche aus einem Autounfall geltend machen. Mein Policen-Code ist 456-YQT.
Entität Kategorie Count Zuverlässigkeit 456-YQT Policy_ID 1 0.95
Benutzerdefinierte Klassifizierung
Die API für benutzerdefinierte Klassifizierung ermöglicht es Ihnen einfach, mithilfe Ihrer branchenspezifischen Bezeichnungen benutzerdefinierte Textklassifizierungs-Modelle zu erstellen, ohne ML erlernen zu müssen. Ihr Kundensupport kann beispielsweise benutzerdefinierte Klassifizierungen verwenden, um automatisch eingehende Anforderungen nach Art des Problems kategorisieren, basierend darauf wie der Kunde das Problem beschrieben hat. Mit Ihrem benutzerdefinierten Modell ist es einfach, Website-Kommentare zu moderieren, Kundenfeedback vorzuselektieren und Arbeitsgruppendokumente zu organisieren. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: Sagen wir, Sie möchten Ihr Kundensupport-Feedback einer Fluggesellschaft organisieren. Sie möchten jedes einzelne Feedback in Kontoanfragen, Ticket-Rückerstattungen und Flugbeschwerden einteilen. Um den Service zu trainieren, erstellen Sie eine CSV-Datei, die Beispieltext von jeder Art von Problem enthält, und bezeichnen jedes Beispiel mit einem der drei anzuwendenden Bezeichnungen. Der Service trainiert automatisch ein benutzerdefiniertes Modell für Sie. Um Ihr Modell zu nutzen, um alle Anrufe des nächsten Tages zu analysieren, reichen Sie jede Textdatei an den Service weiter und erhalten die Ergebnisse der Bezeichnung, zusammen mit einer Zuversichtlichkeitsbewertung für jede Bezeichnungsübereinstimmung.
Text Beschreibung Zuversichtlichkeitsbewertung Zeile 0 Kontoanfrage 0,92 Zeile 1 Ticket-Rückerstattung 1 Zeile 2 Flugbeschwerde 1 Zeile 3 Flugbeschwerde 0,91 Doc5.csv Ticket-Rückerstattung 1
Entitätenerkennung
Die Entitätenerkennungs-API gibt die benannten Entitäten („Menschen“, „Plätze“, „Orte“ usw.), welche automatisch aufgrund des gegebenen Textes kategorisiert werden, wieder. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel sehen wir uns eine Unternehmensbeschreibung an. Die API identifiziert Entitäten wie Organisation, Datum und Ort und gibt einen Zuverlässigkeitswert zurück.
Beispieltext: Amazon.com, Inc. hat seinen Hauptsitz in Seattle, WA und wurde am 5. Juli 1994 von Jeff Bezos gegründet. Kunden können hier von Büchern bis zu Mixern alles kaufen. Seattle befindet sich nördlich von Portland und südlich von Vancouver, BC. Andere nennenswerte Unternehmen, die in Seattle angesiedelt sind, sind Starbucks und Boeing.
Entität Kategorie Zuverlässigkeit Amazon.com, Inc.
Organisation 0,96 Seattle, WA Ort 0,96 5. Juli 1994 Datum 0,99 Jeff Bezos Person 0,99 Seattle
Ort 0,98 Portland
Ort 0,99 Vancouver, BC Ort 0,97 Starbucks
Organisation 0,91 Boeing
Organisation 0,99
Stimmungsanalyse
Die Stimmungsanalyse-API gibt die allgemeine Stimmung eines Texts (positiv, negativ, neutral oder gemischt) wieder. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel postet ein Kunde sein Feedback zu einem Paar Schuhe. Die API identifiziert die Stimmung des Kunden und gibt einen Zuversichtlichkeitswert aus.
Beispieltext: Ich habe eine kleine Größe bestellt und erwartet, dass der Schuh perfekt passt, aber er war viel zu groß. Die Qualität war ausgezeichnet. Das Braun ist etwas heller als auf dem Bild, kommt aber nah ran. Wäre zehnmal besser, wenn die Innenseite mit Baumwolle oder Wolle gefüttert wäre.
Stimmung Anzahl Gemischt 0,89 Positiv 0,09 Negativ 0,01 Neutral 0,00
Targeted Sentiment
Targeted Sentiment bietet detailliertere Erkenntnisse über die Stimmung, indem sie die Stimmung (positiv, negativ, neutral oder gemischt) gegenüber Entitäten im Text identifiziert. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel überprüft ein Restaurant eine Kundenbewertung, um zu verstehen, wo es sich verbessern kann.
Beispieltext: Der Burger war großartig, aber der Service war langsam.
Text Entitätstyp Zuversichtlichkeitsbewertung der Entität Stimmung Bewertung I Person 0,99 Neutral 0,99 Burger Sonstiges 0,99 Positiv 0,99 Service Merkmale 0,99 Negativ 0,99
PII-Identifizierung und Redaktion
Verwenden Sie die ML-Funktionen von Amazon Comprehend, um persönlich identifizierbare Informationen (PII) in Kunden-E-Mails, Support-Tickets, Produktbewertungen, sozialen Medien und mehr zu erkennen und zu entfernen. Keine ML-Erfahrung erforderlich. Beispielsweise können Sie Support-Tickets und Wissensartikel analysieren, um PII-Entitäten zu erkennen und den Text zu redigieren, bevor Sie die Dokumente in der Suchlösung indizieren. Danach sind Suchlösungen frei von PII-Entitäten in Dokumenten. Die Redaktion von PII-Einheiten hilft Ihnen, die Privatsphäre zu schützen und lokale Gesetze und Vorschriften einzuhalten. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel möchte ein Kunde persönliche und finanzielle Daten aus einem Kontoauszug unkenntlich machen. Die PII-Redaktions-API identifiziert und schwärzt PII zusammen mit einem Konfidenzwert.
Beispieltext: Hallo John Smith. Ihr Kreditkartenkonto 1111-0000-1111-0008 von AnyCompany Financial Services, LLC hat eine Mindestzahlung von 24,53 USD, die bis zum 31. Juli fällig ist. Basierend auf Ihren Einstellungen für die automatische Zahlung ziehen wir Ihre Zahlung am Fälligkeitsdatum von Ihrem Bankkonto mit der Nummer XXXXXX1111 mit der Bankleitzahl XXXXX0000 ab.
Entität
Typ
Anzahl
John Smith
Name
0,99+
1111-0000-111-0008
Kredit-Lastschriftnummer
0,99+
31. Juli
Datum und Uhrzeit
0,99+
XXXXXX111
Bankkontonummer
0,99+
XXXXX0000
Bankleitzahl
0,99+
Toxizitätserkennung
Comprehend Toxizitätserkennung bietet eine einfache, NLP-basierte Lösung für den Nachweis toxischer Inhaltsstoffe in textbasierten Dokumenten. Die Funktion ist sofort verfügbar, um Peer-to-Peer-Konversationen auf Online-Plattformen und generativen KI-Eingaben und -Ausgaben zu moderieren. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
Sofortige Sicherheitsklassifizierung
Comprehend bietet einen vorab trainierten binären Klassifikator, der die Eingabeaufforderung als schädlich oder nicht klassifizieren kann. Dies kann integriert werden, sodass LLMs nur auf harmlose Inhalte reagieren können. Weitere Informationen finden Sie auf dieser Dokumentationsseite
Schlüsselphrasenextraktion
Die Schlüsselphrasenextraktions-API gibt Schlüsselphrasen oder Sprachpunkte wieder und weist einen Zuversichtlichkeitswert zu, um sicherzustellen, dass es sich um eine Schlüsselphrase handelt. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel vergleicht ein Kunde eine DSLR-Kamera mit einer Instant-Film-Kamera. Die API extrahiert Schlüsselphrasen und gibt einen Zuverlässigkeitswert als Ergebnis aus.
Beispieltext: Ich bin ein begeisterter Fotograf und man sieht mich meistens, wie ich meine DSLR-Kamera oder meine Instant-Film-Kamera dazu nutze, private Fotos zu machen. Meine DSLR ist in Sachen Leistung und Benutzerfreundlichkeit unschlagbar, aber meine Instant-Film-Kamera hat einfach etwas Magisches. Vielleicht liegt es daran, dass man seine Aufnahmen tatsächlich auf Film bannt oder dass jedes Foto ein einzigartiges, greifbares Artefakt ist (was in der Welt heute, in der Instagram und Facebook die Macht übernommen und Millionen Fotos durch das Internet kursieren, schon etwas Besonderes ist). Ich weiß nur, dass es mir eine Menge Spaß macht, damit zu arbeiten, und das Funkeln in den Augen der Leute, wenn man so ein Foto auf einer Party aus dem Ärmel zaubert, ist einfach unbezahlbar.
Schlüsselphrase Zuverlässigkeit ein begeisterter Fotograf 0,99
meine DSLR 0,97 meine Instant-Film-Kamera 0,99
private Fotos 0,99
Leistung und Benutzerfreundlichkeit 0,94 tatsächlich auf Film 0,99 jedes Foto 0,92 ein einzigartiges, greifbares Artefakt 0,99
heute 0,91 Welt 0,99
Instagram und Facebook 0,99
Ereigniserkennung
Mit Comprehend Events können Sie die Ereignisstruktur aus einem Dokument extrahieren und Textseiten in einfach zu verarbeitende Daten für die Nutzung durch Ihre KI-Anwendungen oder Diagrammvisualisierungstools filtern. Mit dieser API können Sie Wer-Was-Wann-Wo-Fragen über große Dokumentensätze hinweg, in großem Umfang und ohne vorherige NLP-Erfahrung beantworten. Verwenden Sie Comprehend Events, um genauere Informationen zu realen Ereignissen und zugehörigen Entitäten zu extrahieren, die in unstrukturiertem Text ausgedrückt werden. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
Spracherkennung
Die Spracherkennungs-API identifiziert automatisch die Sprache eines Texts (100 Sprachen verfügbar) und gibt die dominante Sprache mit einem Zuversichtlichkeitswert wieder. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel:In diesem Beispiel analysiert die API den Text, identifiziert die dominante Sprache im Text als Italienisch und gibt einen Zuversichtlichkeitswert wieder.
Beispieltext: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1-Sprachcode Sprache Zuverlässigkeit it Italienisch 1,0
Syntaxanalyse
Die Syntax-API von Amazon Comprehend bietet Kunden die Möglichkeit, Text mithilfe von Aufgliederung in Token und Parts of Speech (PoS) zu analysieren und Wortgrenzen und Bezeichnungen wie Substantive und Adjektive im Text zu erkennen. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: In diesem Beispiel analysieren wir ein kurzes Dokument mit der Comprehend-Syntax-API. Die Syntax-API tokenisiert Text (durch Definieren von Wortgrenzen) und kennzeichnet jedes Wort mit dem jeweiligen Sprachelement, z. B. Substantiv oder Verb. Neben der Erkennung des Start- und End-Offsets, der angibt, wo sich das Wort im Text befindet, wird auch die Wahrscheinlichkeit der Treffsicherheit bewertet.
Beispieltext: Ich liebe meinen schnelles, neues Kindle Fire!
Text Tag Ich Pronomen liebe Verb
meinen Pronomen schnelles Adjektiv , Satzzeichen Neu Adjektiv Kindle Eigenname Fire
Eigenname ! Satzzeichen
Themen-Modellierung
Die Themen-Modellierung identifiziert relevante Begriffe oder Themen aus einer Sammlung von Dokumenten, die in Amazon S3 gespeichert ist. Es identifiziert die am häufigsten vorkommenden Themen in der Sammlung und ordnet sie in Gruppen an, bevor es feststellt, welche Dokumente zu welchem Thema gehören. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: Wenn Ihre Dokumente (Doc1.txt, Doc2.txt, Doc3.txt und Doc4.txt) in Amazon S3 gespeichert werden und Sie Amazon Comprehend den Speicherort angeben, analysiert Comprehend die Dokumente und gibt zwei Ansichten wieder:
1. Gruppieren der Schlüsselwörter, die Themen darstellen
Jede Gruppe von Schlüsselwörtern ist mit einer Themengruppe verbunden. Die Gewichtung hängt von der Häufigkeit des Schlüsselworts in der Gruppe ab. Schlüsselwörter, deren Gewichtung am nächsten an 1 liegt, geben am meisten Aufschluss über den Kontext der Themengruppe.Themengruppe Schlüsselwörter Gewicht 1 Amazon 0,87 1 Seattle 0,65 2 Feiertage 0,78 2 shoppen 0,67 Jede Gruppe von Schlüsselwörtern ist mit einer Themengruppe verbunden. Die Gewichtung hängt von der Häufigkeit des Schlüsselworts in der Gruppe ab. Schlüsselwörter, deren Gewichtung am nächsten an 1 liegt, geben am meisten Aufschluss über den Kontext der Themengruppe.2. Gruppieren von Dokumenten nach Themen
Dokumentname Themengruppe Ver Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Jedes Dokument wird einer Themengruppe zugeordnet. Entscheidend ist hierbei das Verhältnis der gewichteten Schlüsselwörter einer Themengruppe, die im Dokument vorhanden sind.
Support mehrerer Sprachen
Amazon Comprehend kann Textanalysen für deutschen, englischen, spanischen, italienischen,
portugiesischen, französischen, japanischen, koreanischen, hindi, arabischen, chinesischen (vereinfachten), chinesischen (traditionellen) Text durchführen. Um Anwendungen in anderen Sprachen zu enrwickeln, können Kunden Amazon Translate verwenden, um den Text in eine von Comprehend unterstützte Sprache umzuwandeln und dann mit Comprehend eine Textanalyse durchführen. Weitere Informationen zur Sprachunterstützung finden Sie auf der Dokumentationsseite.
Weitere Informationen über Preise zu Amazon Comprehend