Amazon Textract の特徴

Amazon Textract を利用すべき理由

Amazon Textract は、スキャンしたドキュメントからテキスト、手書き文字、レイアウト要素、データを自動的に抽出する機械学習 (ML) サービスです。これは、単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやラベルからデータを識別、理解、および抽出します。抽出されたすべてのデータは、境界ボックスの座標、つまり単語、線、テーブル、あるいはテーブル内の個々のセルといった、識別されたデータの各要素を囲むポリゴンフレームとともに返されます。Amazon Textract は認識したものすべてに信頼性スコアを返すので、結果をどのように使用するかについて、十分な情報に基づいて決定できます。

詳細を確認する

Page Topics

一般的な特徴

一般的な特徴

Amazon Textract では、事前トレーニング済みのクエリー機能をカスタマイズし、データの管理と所有権を維持しながら、ビジネス特有のドキュメントタイプでの抽出精度を向上させます。AWS コンソールは、わずか 10 件のサンプルドキュメントをアップロードし、データに注釈を付け、事前トレーニング済みのクエリ機能を数時間以内にカスタマイズできます。

詳細を確認する

Amazon Textract は、段落、タイトル、リスト、ヘッダー、フッターなどのレイアウト要素をドキュメントから抽出できます。レイアウトは Analyze Document API の機能タイプです。お客様は、レイアウトをスタンドアロン機能として、または他の Analyze Document 機能タイプと組み合わせて使用できます。

詳細を確認する

Amazon Textract OCR は、ドキュメントや画像から印刷されたテキストや手書きのテキストを自動的に検出します。Textract の ML 搭載 OCR は、さまざまなフォントやスタイルのテキストを認識でき、ノイズの多いテキストや歪んだテキストも処理できます。

詳細を確認する

文書の画像内のキーと値のペアを自動的に検出し、人間の介入を必要とすることなく、コンテキストを保持できます。key-value ペアは、リンクされたデータ項目のセットです。例えば、文書では、「First Name」フィールドがキーで、「Jane」フィールドが値です。この機能により、抽出したデータをデータベースにインポートしたり、アプリケーションに変数として渡したりするのが容易になります。従来の OCR ソリューションでは、キーと値は単純なテキストとして抽出され、ハードコードされたルールが各フォームについて記述および維持されない限り、それらの関係は失われます。

詳細を確認する

Amazon Textract は、あらゆるドキュメントや画像上の署名を検出する機能を提供します。これにより、小切手、ローン申込書、クレームフォームなどのドキュメント上の署名を簡単に自動検出することができます。署名の位置と関連する信頼度スコアは、API レスポンスに含まれます。

詳細を確認する

抽出中、Amazon Textract では、テーブル内に保存されたデータの構成が保持されます。これは、列や行があるテーブルを含む財務報告書や医療記録など、主に構造化されたデータで構成されている文書に役立ちます。事前定義済みスキーマを使用して、抽出されたデータをデータベースに自動的にロードできます。例えば、インベントリレポートの項目番号と数量の行での関連付けが保持されるため、インベントリ管理アプリケーションは項目合計を簡単に増分できます。

詳細を確認する

Analyze Lending API は、ローンパッケージの情報抽出を完全に自動化する、マネージド型のインテリジェントな事前設定済みドキュメント処理 API です。お客様は住宅ローンドキュメントを Analyze Lending API にアップロードするだけで、事前構築済みの機械学習モデルがそのドキュメントパッケージをドキュメントタイプ別に分類および分割します。

詳細を確認する

Amazon Textract では、クエリを使用してドキュメントから抽出する必要があるデータを柔軟に指定することができます。自然言語の質問の形式で必要な情報 (例:「顧客名は何ですか」) を指定し、API のレスポンスの一部として正確な情報 (例:「John Doe」) を受け取ることができます。ドキュメント内のデータ構造 (テーブル、フォーム、黙示のフィールド、ネストされたデータ) を知る必要はなく、ドキュメントのバージョンやフォーマットの違いについて心配する必要もありません。Textract Queries は給与明細、銀行明細、W-2、ローン申込書、抵当ノート、保険申請ドキュメント、保険証など、多種多様なドキュメントで事前にトレーニングされています。Textract Queries が提供する柔軟性により、後処理の必要性、抽出されたデータのマニュアルレビューへの依存、機械学習モデルのトレーニングの必要性を低減します。

詳細を確認する

請求書や領収書のレイアウトは多岐にわたるため、手作業で大規模にデータを抽出するのは難しく、時間がかかります。Amazon Textract は、機械学習 (ML) を使用して請求書や領収書の文脈を理解し、ベンダー名、請求書番号、商品の料金、合計金額、支払い条件などの関連データを自動的に抽出します。

詳細を確認する

Amazon Textract は、機械学習 (ML) を使用して、テンプレートや設定を必要とせずに、米国のパスポートや運転免許証などの身分証明書のコンテキストを理解します。有効期限や生年月日などの特定の情報を自動的に抽出できるだけでなく、名前や住所などの黙示的な情報をインテリジェントに識別して抽出することもできます。Analyze ID を使用すると、ID 検証サービスを提供する企業や、金融、ヘルスケア、および保険業界の企業は、顧客が身分証明書の写真やスキャンデータを送信できるようにすることで、アカウントの作成、予約のスケジュール設定、求人への応募などを簡単に自動化できます。

詳細

Amazon Textract は、スキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービスです。これは、単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやラベルからデータを識別、理解、および抽出します。Amazon Textract では、使用した分のみ料金が発生します。最低料金や前払いの義務はありません。Amazon Textract は、テキスト、表付きテキスト、フォームデータ、クエリの抽出、請求書や身分証明書の処理など、いずれの場合でも、処理されたページに対してのみ課金されます。 ページおよび Textract の利用規約の詳細については、よくある質問をご覧ください。