Amazon Textract 和 .NET 工作負載

準備指南

單元 1:準備指南

 學習單元

概觀

Amazon Textract 和 .NET 工作負載徽章展現 Amazon Textract 服務和 .NET 工作負載的熟練度。本準備指南說明您需要了解才能通過評估的內容,逐主題進行,並提供您可以檢閱的資源。您也應該擁有使用服務的實作經驗,無論是使用您自己的應用程式或 AWS 教學。

準備完成之後,進入單元 2 參加評估考試。

目的

Textract 是一種機器學習 (ML) 服務,可自動從掃描的文件中擷取文字、手寫內容和資料,例如 PDF 和影像。這項服務不僅可實現簡單的光學字元辨識 (OCR),還可以識別、理解和擷取表單和表格中的資料。Textract 使用機器學習來讀取和處理任何類型的文件、準確地擷取文字、手寫內容、表格和其他資料,而無需任何手動操作。

影片:什麼是 Amazon Textract?

優勢

使用 Textract,您可以實現以下優勢:

  • 在降低成本的同時提高業務效率和加快決策制定
  • 從幾乎任何文件中以高準確度擷取關鍵洞見
  • 縱向擴展或縮減文件處理管道,以快速適應市場需求
  • 利用資料隱私權、加密和合規性標準,安全地自動執行資料處理

Amazon Textract 產品詳細資訊頁面

功能

Textract 的功能包括:

  • 將文件文字偵測整合到您的應用程式。 Textract 以簡單的 API 提供強大準確的分析功能,免除了在應用程式中建置文字偵測功能的複雜度。
  • 可擴展文件分析:Textract 可讓您從數百萬份文件中快速分析和擷取資料,從而加速決策制定。
  • 多種語言。Textract 支持英文,西班牙文,德文,義大利文,法文和葡萄牙文。
  • 多種文件格式。 Textract 可以處理 PDF、TIFF、JPEG 和 PNG 文件。

開發人員指南 - 什麼是 Amazon Textract?

定價

您應該會熟悉 Amazon Textract 定價模型和免費方案。使用 Textract,您只需按實際用量付費。沒有最低費用,也沒有預付款項。Textract 僅對處理的頁面收費,無論您擷取文字、帶表格的文字、表單資料、查詢還是處理發票和身分證件。

  • 根據 API 而有不同費率。Textract 包含 5 個 API (偵測文件文字、分析文件、分析費用、分析 ID、分析貸款),每個 API 每 1,000 頁收取特定費率。
  • 費率可能因 AWS 區域而有所不同。
  • 達到每月閾值之後,您僅需支付折扣費率。一旦您達到 API 的每月閾值,在該月份剩餘時間僅需支付較低的費率。例如,偵測文件 API 在一個月內前百萬份文件後收費較低。每個 API 的閾值和費率都不同。
  • AWS 免費方案持續 3 個月,每個 API 都可為您提供不同數量的免費頁面。 例如,您每月可以免費使用偵測文件文字 API 1,000 頁,以及每月使用分析費用 API 100 頁。
  • 您可以使用訂價頁面中的 AWS 定價計算器來估算成本。

Amazon Textract 定價

使用案例

以下是使用 Amazon Textract 的常見使用案例:

  • 建立智慧搜尋索引。使用 Textract,您可以建立在影像和 PDF 檔案中偵測到的文字庫。
  • 將智慧文字擷取用於自然語言處理 (NLP)。Textract 可讓您控制文字如何分組作為 NLP 應用程式的輸入。它可以將文字擷取為字詞和行。如果啟用文件表格分析,它還會依表格儲存格對文字進行分組。
  • 加速來自不同來源的資料擷取和標準化。Textract 可從各種文件中擷取文字和表格式資料,例如財務文件、研究報告和醫療筆記。
  • 自動從表單擷取資料。 Textract 可以從表單中擷取結構化資料。使用 API,您可以將擷取功能建置到現有的業務工作流程中,讓透過表單提交的使用者資料可擷取成可用的格式。
  • 自動化文件分類和擷取。使用 Textract 的分析貸款文件處理 API,您可以自動化將貸款文件分類為各種文件類別,然後自動將已分類頁面路由到正確的分析作業以進一步處理。

Textract 的產業使用案例包括以下內容。

  • 金融服務:準確擷取各種金融表單上的抵押貸款利率、申請人姓名和發票總額等關鍵業務資料,以在幾分鐘內處理貸款和抵押貸款申請。
  • 醫療保健和生命科學透過從健康保險表格、保險索賠和預授權表格中擷取重要的患者資料,更好地為您的患者和保險公司服務。保留資料結構及原脈絡,不必手動審查輸出內容。
  • 公共部門:輕鬆地從政府相關表單中擷取相關資料 (例如小企業貸款、聯邦稅表單或商業應用程式),並且具有高度的準確性。

開發人員指南 - 什麼是 Amazon Textract?

Amazon Textract 產品詳細資訊頁面 - 使用案例

功能

您應該了解以下功能:

Amazon Textract 的運作方式

        1.光學字元辨識。 Textract 使用光學字元辨識 (OCR) 自動偵測掃描或轉譯文件中的印刷文本、手寫文字和數字,例如法律文件或書籍掃描。

    開發人員指南 - 偵測文字

        2.分析貸款。Textract 的分析貸款 API 是一個受管、預先設定的智慧文件處理 API,可完全自動從貸款套件中擷取資訊。您只需將抵押貸款文件上傳到分析貸款 API,其預先建置的機器學習模型會依文件類型對文件套件進行分類並分割。

        開發人員指南 - 分析貸款

        3.表單擷取。您可以自動偵測文件影像中的索引鍵-數值組合並保留內容,而無需手動干預。索引鍵-數值組合是指一組相連的資料項目。例如,文件中的「名字」欄位是索引鍵,「Jane」則是數值。這樣一來,就可將擷取的資料輕鬆匯入資料庫,或提供作為應用程式中的變數使用。

        開發人員指南 - 分析文件 - 表單擷取

        4.表格擷取。Textract 在擷取過程中,會保留表格儲存資料的組合。這對於主要由結構化資料組成的文件很有用,例如財務報告或包含資料欄和列表格的醫療記錄。您可以使用預先定義的結構描述將擷取的資料自動載入資料庫。例如,庫存報告中的項目編號和數量列將保留關聯性,因此庫存管理應用程式可以輕易累加項目總和。

        開發人員指南 - 表格

        5.簽名偵測。Textract 提供偵測任何文件或影像上簽名的功能。這讓您可以輕鬆自動檢測文件上的簽名,例如支票、貸款申請表和索賠表格。API 回應中包含簽名的位置和相關聯可信度分數

        開發人員指南 - 分析文件 - 簽名

        6.以查詢為基礎的擷取。 Textract 可讓您靈活地指定需要使用查詢從文件中擷取的資料。您可以以自然語言問題的形式指定所需的資訊 (例如「客戶名稱是什麼」),並接收確切資訊 (例如「John Doe」) 做為 API 回憶的一部分。您不需要知道文件中的資料結構 (表格、表單、隱含欄位、巢狀資料),也不必擔心文件版本和格式之間的變化。Textract 查詢對各種文件進行預先訓練,包括工資單,銀行對帳單,W-2,貸款申請表,抵押票據,索賠文件和保險卡。Textract 查詢提供的靈活性可減少實作後處理的需求、手動檢閱已擷取資料的依賴或訓練 ML 模型的需求。查詢擷取僅適用於英文文件偵測。

        開發人員指南 - 分析文件 - 查詢

        7.手寫辨識:許多文件,例如醫療就診表和就業申請,都包括手寫和印刷文字。無論文字是任意格式還是內嵌在表格中,Amazon Textract 都可以從以英文撰寫的文件中擷取,並且具有高可信度分數。文件也可以包含打字文字和手寫文字的混合。

        開發人員指南 - 什麼是 Amazon Textract?

        8.發票和收據。發票和收據可以具有各種各樣的配置,這使得手動大規模擷取資料很困難且耗時。Amazon Textract 使用機器學習 (ML) 來了解發票和收據的內容,並自動擷取相關資料,例如廠商名稱、發票號碼、項目價格、總金額和付款條件。將發票或收據提交至 AnalyzeExpense API 時,它會傳回一系列 ExpenseDocument 物件。每個 ExpenseDocument 進一步分隔為 LineItemGroups 和 SummaryFields。

        開發人員指南 - 分析發票和收據

        發票和收據回應物件

        9.身分證明文件。Textract 使用機器學習 (ML) 來了解身分證明文件的內容,例如美國護照和駕駛執照,而無需範本或組態。您可以自動擷取到期日期、出生日期等特定資訊,也可以智慧地識別並擷取姓名、地址等隱含資訊。使用分析 ID,提供 ID 驗證服務的企業和金融、醫療保健和保險業務的企業可以藉由允許客戶提交身分證明文件的照片或掃描,輕鬆自動建立帳戶、預約排程、就業申請等。

        開發人員指南 - 分析身分證明文件

        10.內建人工檢閱工作流程。Textract 直接與 Amazon Augmented AI (A2I) 整合,因此您可以輕鬆對文件中擷取的印刷文字和手寫文字實作人工檢閱。為您的應用程式選擇可信度閾值,所有可信度低於閾值的預測都會自動傳送給人工檢閱者進行驗證。您也可以指定要傳送哪些索引鍵-數值組合以進行人工檢閱,並設定 A2I 以傳送隨機選取的文件進行檢閱。

        開發人員指南 - Amazon A2I 的核心概念

適用於 .NET 的 AWS SDK

使用適用於 .NET 的 AWS SDK 與 .NET 程式碼的 Textract 互動。您應該知道用於支援上方「功能」底下所列功能的主要 SDK 類別和方法。

  1. 若要使用 SDK,請將 AWSSDK.Textract NuGet 套件新增到您的 C# 專案中。
  2. 若要使用 Textract,請具現化 AmazonTextractClient 的執行個體並呼叫其方法。
  3. 某些 SDK 方法 (名稱以 Async 結尾) 會以 C# 等待關鍵字非同步呼叫。
  4. 使用建立請求物件的標準 SDK 模式傳遞給方法並處理傳回的回應物件。方法的 SDK 文件說明其請求和回應物件。請求和回應物件與其支援的方法具有相同的根名稱。例如,DetectDocumentTextAsync 方法的請求和回應物件命名為 DetectDocumentTextRequest 和 DetectDocumentTextResponse。
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
    var bytes = File.ReadAllBytes("example.png");

    Console.WriteLine("Detect Document Text");
    var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
    {
        Document = new Document
        {
            Bytes = new MemoryStream(bytes)
        }
    });

    foreach (var block in detectResponse.Blocks)
    {
        Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
    }
}

同步和非同步操作

Textract 操作分組為「同步」和「非同步」類型。這與 C# 非同步方法沒有關係。

  1. 「同步」操作以近乎即時的速度傳回結果。它們用於偵測和分析單頁文件中的文字。
  2. 在背景執行「非同步」操作。它們用於多頁文件處理。例如,超過 1,000 頁的 PDF 檔案需要很長時間進行處理,但是以非同步方式處理 PDF 檔案可讓您的應用程式在操作完成時完成其他任務。這些方法名稱以「Start」一詞開頭,例如 StartDocumentAnalysis。

開發人員指南 - 使用同步作業處理文件

開發人員指南 - 使用非同步作業處理文件

文字行和字詞

Textract 操作會在「區塊」物件清單中傳回偵測文字。這些物件代表文件頁面上偵測到的文字行或文字字詞。會以父子關係傳回 PAGE、LINE 和 WORD 物件的清單。

開發人員指南 - 文字行和字詞

週框方塊

Textract 操作會傳回文件頁面上找到的項目位置和幾何。所有擷取的資料都會使用週框方塊座標傳回 — 包含每個已識別資料片段的多邊形框架,例如表格中的字詞、行、表格或個別儲存格。這可協助您稽核來源文件中字詞或數字的來源,並在搜尋結果提供原始文件的掃描時引導您。例如,在搜尋醫療記錄的患者歷史詳細資訊時,您可以輕鬆找到來源文件並且做記錄以供未來搜索。

開發人員指南 - 文件頁面上的項目位置

可調整可信度閾值

當從文件中擷取資訊時,Textract 會為其識別的所有物件傳回可信度分數,您可據此決定是否要使用辨識結果。例如,如果您從稅務記錄中擷取資訊並希望確保高準確性,則可以標記任何可信度分數低於 95% 的項目進行人工檢閱。您可以針對錯誤所造成負面後果較少的其他文件設定較低的閾值,例如處理履歷或數位化封存記錄時。

開發人員指南 - Amazon Textract 的最佳實務 - 使用可信度分數

處理調節呼叫和中斷連線

 如果您超過每秒最大交易數 (TPS),導致服務調節您的應用程式,或當連線中斷時,Textract 操作可能會失敗。您可以透過自動重試操作來管理限流和中斷的連線。建立 Amazon Textract 用戶端時,藉由包括 Config 參數來指定重試次數。AWS 建議重試計數為 5。AWS SDK 會在失敗並擲回例外狀況之前,以指定的次數重試操作。

開發人員指南 - 處理調節呼叫和中斷連線
Amazon Textract 端點和配額

配額

使用 Amazon Textract 受限於配額。配額有兩種:

  1. 設定配額無法變更。這些配額包括接受的檔案格式、檔案大小和頁數限制、PDF 特定限制、影像大小和旋轉、字元大小、字元集和 ID 類型。

             Amazon Textract 中的設定配額

  1. 預設配額可以透過 Service Quotas 主控台進行檢閱和變更。TPS 配額決定您可以請求 Textract 處理新文件的頻率。並行工作限制定義指定時間可以平行執行多少個工作。 

             預設配額

您可以使用 Service Quotas 計算器預估您的配額需求。

最佳實務

您應該熟悉以下 Textract 的最佳實務:

  1. 提供最佳輸入文件:以 Textract 支援的語言和格式提供至少 150 DPI 的高品質影像。
  2. 可信度分數。請考慮 Textract API 操作傳回的可信度分數以及其使用案例的敏感度。最佳閾值視應用程式而定。在對偵測錯誤 (誤報) 敏感的應用程式中,強制執行最低可信度分數閾值。
  3. 考慮使用人工檢閱。您可以將人工檢閱納入工作流程中。這對於敏感應用程式尤其重要,例如涉及財務決策的業務流程。
    開發人員指南 - Amazon Textract 的最佳實務

實作經驗

您應該有使用 Textract 從文件中擷取文本,手寫和資料的經驗。如果您沒有應用程式可以使用,則可以使用下方的教學和示範。

教學

擷取文字和結構化資料 (AWS Console 教學)

Hello, Textract! (編碼教學)

範例應用程式

AWS AI Services

AWS 文字轉換語音助理

社群影片

Textract 和 .NET 6 簡介 - EP01 作者:Tom Moore

Textract 和 .NET 6 簡介 - EP02 作者:Tom Moore 

 AWS 經驗

初階或中級

 .NET 經驗

中級

 完成時間

根據先前的經驗最多 3 小時

 使用的服務

Amazon Textract

 上次更新日期

2022 年 7 月 7 日

本頁對您是否有幫助?

單元

本教學分為以下單元。您可以根據自己的經驗和準備情況完整進行整個單元,或者瀏覽和檢閱。

  1. 準備指南 (3 小時)。
  2. 技能評估:評估 Amazon Textract 和 .NET 工作負載

技能評估