什麼是 OCR (光學字元辨識)?

光學字元辨識 (OCR) 是將文字影像轉換為機器可讀文字格式的程序。例如,如果您掃描表單或收據,電腦會將掃描結果儲存為影像檔案。您不能使用文字編輯器來編輯、搜尋或計算影像檔案中的文字。不過,您可以使用 OCR 將影像轉換為文字文件,並將其內容儲存為文字資料。

為什麼 OCR 很重要?

大多數業務工作流程涉及從印刷媒體接收資訊。紙質表單、發票、掃描的法律文件和列印的合約都是業務程序的一部分。由於涉及大量的文書工作,因此存放和管理也需要大量時間和空間。雖然無紙化文件管理是可行的方法,但將文件掃描成影像會帶來各種挑戰。該程序需要手動干預,並且可能繁瑣且緩慢。

此外,數位化此文件內容會對隱藏在其中的文字建立影像檔案。文字處理軟體無法以處理文字文件的相同方式,來處理影像中的文字。運用 OCR 技術,可將文字影像轉換為其他業務軟體可分析的文字資料,進而解決此問題。然後,您可以使用該資料進行分析、精簡操作、自動化程序,以及改善生產力。

OCR 如何運作?

OCR 引擎或 OCR 軟體運作步驟如下:

影像採集

掃描儀讀取文件並將其轉換為二進位資料。OCR 軟體分析掃描影像並將淺色全域分類為背景,將深色區域分類為文字。

預先處理

OCR 軟體首先會清除影像並移除錯誤以準備讀取。下面是採用的一些清除技術:

  • 偏移校正或傾斜掃描文件,以解決掃描期間的對齊問題。
  • 去除斑點或移除任何數位影像斑點,或平滑文字影像的邊緣。
  • 清除影像中的邊框和線條。
  • 多語言 OCR 技術的指令碼辨識

文字辨識

OCR 軟體用於文字辨識的兩大類 OCR 演算法或軟體程序,稱為模式比對和特徵擷取。

模式比對

模式比對的運作方式為,隔離稱為字符的字元影像,並將其與類似儲存的字符作比較。僅當存放的字符具有與輸入字符相似的字型和比例時,模式辨識才有效。此方法適用於以已知字型鍵入文件的掃描影像。

特徵擷取

特徵擷取將字符進行細分或分解為特徵,如線條、閉環、線條方向和線條交叉點。然後,使用這些特徵在其存放的各種字符中找到最相符或最近的芳鄰。

後期處理

經過分析之後,系統會將擷取的文字資料轉換為電腦化檔案。某些 OCR 系統可以建立帶註釋的 PDF 檔案,其中包括掃描文件的前後版本。

OCR 的類型有哪些?

資料科學家根據其用途和應用,對不同類型的 OCR 技術進行分類。以下是一些範例:

簡單的光學字元辨識軟體

簡單的 OCR 引擎透過將多種不同的字型和文字影像模式儲存為範本來運作。OCR 軟體使用模式比對演算法,將文字影像逐字元與其內部資料庫作比較。如果系統逐字詞比對文字,則稱為光學文字辨識。該解決方案存在局限性,因為字型和手寫樣式幾乎不受限制,而且無法擷取每種類型並將其存放在資料庫中。

智慧字元辨識軟體

現代 OCR 系統使用智慧字元辨識 (ICR) 技術,從而以與人類相同的方式來閱讀文字。這些系統藉助機器學習軟體,運用進階方法,訓練機器表現得像人類一樣。稱為神經網路的機器學習系統在多個層級上分析文字,重複處理影像。它尋找不同的影像屬性,如曲線、直線、交叉點和循環,並結合所有這些不同層級的分析以獲得最終結果。雖然 ICR 通常一次處理一個字元的影像,但處理速度很快,可在幾秒內獲得結果。

智慧文字辨識

智慧文字辨識系統的運作方式與 ICR 相同,但處理的是整個文字影像,而不是將影像預先處理為字元。

光學標記辨識

光學標記辨識可識別文件中的標誌、水印和其他文字符號。

OCR 具有哪些優勢?

資料科學家根據其用途和應用,對不同類型的 OCR 技術進行分類。以下是一些範例:

簡單的光學字元辨識軟體

簡單的 OCR 引擎透過將多種不同的字型和文字影像模式儲存為範本來運作。OCR 軟體使用模式比對演算法,將文字影像逐字元與其內部資料庫作比較。如果系統逐字詞比對文字,則稱為光學文字辨識。該解決方案存在局限性,因為字型和手寫樣式幾乎不受限制,而且無法擷取每種類型並將其存放在資料庫中。

智慧字元辨識軟體

現代 OCR 系統使用智慧字元辨識 (ICR) 技術,從而以與人類相同的方式來閱讀文字。這些系統藉助機器學習軟體,運用進階方法,訓練機器表現得像人類一樣。稱為神經網路的機器學習系統在多個層級上分析文字,重複處理影像。它尋找不同的影像屬性,如曲線、直線、交叉點和循環,並結合所有這些不同層級的分析以獲得最終結果。雖然 ICR 通常一次處理一個字元的影像,但處理速度很快,可在幾秒內獲得結果。

智慧文字辨識

智慧文字辨識系統的運作方式與 ICR 相同,但處理的是整個文字影像,而不是將影像預先處理為字元。

光學標記辨識

光學標記辨識可識別文件中的標誌、水印和其他文字符號。

OCR 具有哪些優勢?

以下是 OCR 技術的主要優勢:

可搜尋文字

企業可將其現有文件和新文件轉換為完全可搜尋的知識檔案。他們還可以使用資料分析軟體來自動處理文字資料庫,以作進一步的知識處理。

營運效率

您可以使用 OCR 軟體,在您的企業中自動整合文件工作流程和數位工作流程來改善效率。以下是 OCR 軟體可執行的一些範例:

  • 掃描手動填寫的表單,以進行自動驗證、審查、編輯和分析。這節省了手動文件處理和資料輸入所需的時間。
  • 在資料庫中快速搜尋術語來尋找所需的文件,這樣您就不必手動對方塊中的檔案進行排序。
  • 將手寫筆記轉換為可編輯的文字和文件。
     

人工智慧解決方案

OCR 通常是企業可能實作的其他人工智慧解決方案的一部分。例如,它可以掃描並讀取自動駕駛汽車的車牌和路標,偵測社交媒體文章中的品牌標誌,或者識別廣告影像中的產品包裝。這種人工智慧技術可協助企業做出更好的行銷和營運決策,從而減少開支並改善客戶體驗。

OCR 的用途是什麼?

以下是各產業中一些常見的 OCR 使用案例:

銀行

銀行業使用 OCR 來處理和驗證貸款文件、存款支票和其他金融交易的文書工作。此驗證改善詐騙防護並增強了交易安全性。例如,BlueVine 是一間為中小型企業提供融資的金融科技公司。該公司利用以雲端為基礎的 OCR 服務 Amazon Textract 開發了一種產品,幫助美國的小型企業快速獲得薪資保護計畫 (PPP) 貸款,以作為新冠肺炎疫情救濟刺激計劃的一部分。Amazon Textract 每天可自動處理和分析數以萬計的 PPP 表單,因此 BlueVine 可協助數千間企業獲得資金,在此程序中節省了超過 400,000 個工作崗位。

醫療保健

醫療保健產業利用 OCR 處理患者記錄,包括治療、檢測、醫院記錄和保險支付。OCR 有助於精簡工作流程並減少醫院的手動工作,同時使記錄保持最新狀態。例如,nib Group 為超過 100 萬澳洲人提供健康和醫療保險,並且每天受理數千份醫療索賠。客戶可以為其醫療發票拍照,並透過 nib 行動應用程式提交。Amazon Textract 會自動處理這些影像,以便公司可以更快地核准索賠。

物流

物流公司利用 OCR 更有效地追蹤包裹標籤、發票、收據和其他文件。例如,Foresight Group 使用 Amazon Textract 在 SAP 中自動處理發票。手動輸入這些業務文件既費時又容易出錯,因為 Foresight 員工必須在多個會計系統中輸入資料。藉助 Amazon Textract,Foresight 軟體可以跨多種不同配置更準確地讀取字元,從而提高業務效率。

AWS 如何在 OCR 方面提供協助?

AWS 提供兩種可協助您在業務中實作 OCR 的服務:

Amazon Textract 是一種機器學習 (ML) 服務,該服務可使用 OCR 自動從掃描的文件 (如 PDF) 中擷取文本、手寫文字和資料。它可以高速讀取多種配置和格式的數千種不同文件。當從文件中擷取資訊時,Amazon Textract 會為其識別的所有物件傳回可信度分數,您可據此決定是否要使用辨識結果。

Amazon Rekognition 可在幾分鐘內分析數百萬個影像和影片,並使用人工智慧增強人類視覺審查任務。您可以使用 Amazon Rekognition API,從影像和影片中擷取文字。您還可以從街道標誌、社交媒體張貼和產品包裝的影像和影片中擷取傾斜和扭曲的文字。

立即建立 AWS 帳戶,開始使用 OCR on AWS。

AWS 上的後續步驟