Amazon Transcribe 常見問答集

一般問題

問：什麼是 Amazon Transcribe？

Amazon Transcribe 是一種 AWS 人工智慧 (AI) 服務，可讓您將語音輕鬆轉換成文字。透過自動語音辨識 (ASR) 技術，您可以在各種商業應用中使用 Amazon Transcribe，包括轉錄語音客服電話、產生音訊/視訊內容的字幕，以及分析 (以文字為基礎) 音訊/視訊內容。

問：Amazon Transcribe 如何與其他 AWS 產品互動？

Amazon Transcribe 會將音訊輸入轉換為文字，為語音輸入的文字分析應用提供更多的可能性。例如，將 Amazon Comprehend 應用到 Amazon Transcribe 轉換的文字資料上，您可以執行情感分析或擷取實體和關鍵片語。同樣地，整合 Amazon Translate 和 Amazon Polly 之後，您可以接受一種語言的語音輸入，然後將其翻譯成另一種語言並產生語音輸出，從而有效地進行多語言對話。還可以整合 Amazon Transcribe 與 Amazon Kendra 或 Amazon OpenSearch，以便在音訊/視訊程式庫編製索引和執行文字搜尋。如需了解詳細資訊，請查看即時通話分析和客服人員協助、通話後分析、MediaSearch 或內容分析解決方案。

問：在使用 Amazon Transcribe 之前，我還應當了解什麼？

Amazon Transcribe 旨在處理各種語音和聲學特徵，包括音量、音調和講話速率的變化。音訊訊號的品質和內容 (包括但不限於背景噪聲、重疊的揚聲器、口音或單一音訊檔案中語言之間的切換等因素) 可能會影響服務輸出的準確性。我們會不斷更新服務，以提高其適應其他聲音變化和內容類型的能力。

使用 Amazon Transcribe

問：開發人員如何存取 Amazon Transcribe？

開始使用的最簡單的方法是使用主控台提交任務，以轉錄音訊檔案。您也可以直接從 AWS 命令列界面呼叫服務，或是使用您選擇的支援 SDK 將服務整合到您的應用程式。無論採用哪種方式，只需幾行程式碼即可開始使用 Amazon Transcribe 為您的音訊檔案產生自動轉錄。

問：Amazon Transcribe 是否支援即時轉寫？

是。Amazon Transcribe 可讓您開啟 HTTP2 的雙向串流。您可在即時接收返回的文字串流同時傳送服務的音訊串流。請參閱文件頁面以取得詳細資訊。

問：即時轉錄支援的是什麼編碼？

支援的媒體類型在批次轉錄和串流轉錄之間有所不同，但都建議使用無損格式。請參閱文件頁面以取得詳細資訊。

問：Amazon Transcribe 支援哪些語言？

如需語言支援的相關資訊，請瀏覽此文件頁面。

問：Amazon Transcribe 可以搭配哪些裝置？

Amazon Transcribe 適用於絕大多數的裝置。一般而言，該服務可與任何內建麥克風的裝置 (例如手機、個人電腦、平板電腦和汽車音響系統等 IoT 裝置) 搭配使用。Amazon Transcribe API 可以偵測裝置上的音訊串流輸入品質 (8 kHz 與 16 kHz)，並為語音轉文字功能選擇適用的聲學模型。此外，開發人員可以透過應用程式呼叫 Amazon Transcribe API，以存取語音轉換文字功能。

問：Amazon Transcribe 可以處理的音訊內容是否有大小限制？

使用批次服務時，每次 API 呼叫的 Amazon Transcribe 服務呼叫時間僅限四小時 (或 2 GB)。串流服務可提供長達四小時的開放連接。

問：Amazon Transcribe 支援哪些程式設計語言？

Amazon Transcribe 批次服務支援 .NET、Go、Java、JavaScript、PHP、Python 和 Ruby。 Amazon Transcribe 即時服務支援 Java SDK、Ruby SDK 和 C++ SDK。即將支援其他 SDK。如需詳細資訊，請參閱資源和文件頁面。

問︰我的自訂詞彙字詞未被識別。我該怎麼辦？

除了自訂詞彙項目之外，語音識別輸出還取決於許多因素，因此無法保證術語是否包含在自訂詞彙中，以及是否會被正確識別。然而，最常見的原因之一是，這些單詞的發音與書寫顯著不同。

在這些情況下，建議在自訂詞彙檔案中針對相同的單詞建立多個短語項目，以涵蓋可能的發音變化。您可使用 DisplayAs 欄做為這些短語項目的所需輸出。如需詳細資訊，請參閱自訂詞彙文件。

問：為什麼輸出中會看到太多自訂字詞？

自訂詞彙針對一小部分目標字詞進行了優化；較大的詞彙可能會導致自訂字詞過度產生，尤其是當它們包含以類似方式發音的字詞時。如果您有一個大型清單，請嘗試將其縮減為罕見字詞，以及實際預期會出現在音訊檔案中的字詞。如果您有涵蓋多個使用案例的大型詞彙，請針對不同使用案例將其拆分為單獨的清單。較短且聽起來類似於許多其他字詞的字詞可能導致過度產生 (輸出中出現太多自訂字詞)。最好將這些字詞與周圍的字詞組合，並將其列為用連字號分隔的片語。例如，自訂字詞 “A.D.” 可以作為 “A.D.-converter” 等片語的一部分包括在內。

問：使用 DisplayAs 表單時，是否可以顯示與原始語言無關的字元集 (例如將 “Street” 輸出為 “街道”)?

是。雖然片語可能僅對特定語言使用受限字元集，但在 DisplayAs 欄中允許使用除 \t (TAB) 之外的 UTF-8 字元。

問：Transcribe 的批次和串流 API 是否都可以使用自動內容編輯或個人身分識別資訊 (PII) 編輯？

是的，Amazon Transcribe 支援批次和串流 API 的自動內容編輯或 PII 編輯。

問：自動內容編輯/PII 編輯支援哪些語言？

請參閱 Amazon Transcribe 文件，了解自動內容編輯/PII 編輯的語言可用性相關資訊。

問：自動內容編輯是否還會從來源音訊中刪除敏感的個人資訊？

否，此功能不會從來源音訊中刪除敏感的個人資訊。不過，Amazon Transcribe Call Analytics 會從轉錄和來源音訊中刪除敏感的個人資訊。請造訪此連結，了解有關通話分析如何編輯音訊的更多詳細資訊。此外，對於標識的 PII 話語的每個執行個體，您都可以使用編輯的記錄中提供的開始和結束時間戳記，自己從來源音訊中編輯個人資訊。請參閱標準 Transcribe API 的音訊編輯解決方案。

不過，專門的 Amazon Transcribe Call Analytics API 會從轉錄和來源音訊中刪除敏感的個人資訊。如需了解詳細資訊，請檢閱通話分析音訊編輯文件。

問：我是否可以使用自動內容編輯來編輯現有文字記錄中的個人資訊？

否，自動內容編輯僅適用於作為輸入的音訊。

問：使用自動內容編輯之前，我還應當了解什麼？

自動內容編輯旨在識別和刪除個人身分識別資訊 (PII)，但是由於機器學習的預測性質，它可能無法識別和刪除服務產生的記錄中的所有 PII 執行個體。您應該檢閱自動內容編輯提供的所有輸出，以確保其滿足您的需求。

問：串流和批次 API 的自動內容編輯之間是否有任何區別？

是，串流 API 的自動內容編輯支援兩個額外功能，但批次 API 不支援這些功能。在透過串流 API 使用內容編輯時，您可以決定僅識別而非編輯 PII。您還可以使用串流 API 來識別或編輯特定的 PII 類型。例如，您可以僅編輯社會安全號碼和信用卡資訊，而保留姓名和電子郵件地址等其他 PII。

問：哪些 AWS 區域提供自動內容編輯或 PII 編輯？

如需有關 AWS 區域中批次和串流 API 的自動內容編輯和 PII 編輯可用性的資訊，請參閱 Amazon Transcribe 文件。

問：哪些 API 支援自動語言識別？

目前支援批次和串流 API 的自動語言識別。

問：Amazon Transcribe 可以自動識別哪些語言？

Amazon Transcribe 可以識別批次和串流 API 支援的任何語言。請前往這裡，了解有關支援的語言和語言特定功能的詳細資訊。

問：Amazon Transcribe 是否能識別相同音訊檔案中的多種語言？

Amazon Transcribe 支援批次的多語言 ID。請參閱此連結了解更多詳細資訊。

問：是否可以限制自動語言識別的語言選項清單？

是，您可以針對媒體庫可能出現的語言指定語言清單。提供語言清單後，將會從該清單中選擇識別的語言。如果未指定語言，系統會將音訊檔案與 Amazon Transcribe 支援的所有語言進行比對，選取最可能的語言。提供挑選過的語言清單，可提高語言識別的準確度。請參閱此連結了解更多詳細資訊。

定價和可用性

問：如何收費？

如需進一步了解，請參閱 Amazon Transcribe 定價頁面。

問：Amazon Transcribe 在哪些 AWS 區域可供使用？

請參閱 AWS 全球基礎架構區域表。請前往這裡，了解有關 Amazon Transcribe 端點和配額的更多詳細資訊。

資料隱私權

問：是否會存放 Amazon Transcribe 處理的語音輸入？AWS 如何使用這些內容？

Amazon Transcribe 可能會單方面存放及使用服務處理過的語音輸入，以提供及維護服務，以及改善 Amazon Transcribe 的品質和開發其他 Amazon 機器學習/人工智慧技術。為了持續改善 Amazon Transcribe 客戶體驗 (包括開發及培訓相關技術)，我們必須使用您的內容。不過，我們不會使用內容中包含的任何個人識別資訊來指定產品、服務或向您或您最終使用者進行行銷。我們將您的信任、您內容的隱私和安全性放在第一優先，而且實作適當且複雜的技術和實體控制 (包括靜態加密和傳輸加密)，旨在避免未授權人員存取或公開您的內容，同時確保對內容的使用絕對遵守我們對您所做的承諾。如需詳細資訊，請參閱 https://aws.amazon.com/compliance/data-privacy-faq/。您可能會選擇使用 AWS Organizations 退出政策讓我們不使用您的內容，來改善和開發 Amazon Transcribe 和其他 Amazon 機器學習/人工智慧技術的品質。如需如何退出的資訊，請參閱 AI 服務退出政策。

問：我是否能刪除 Amazon Transcribe 所存放的轉錄任務相關資料和成品？

是。您可以透過可用的刪除 API 刪除與轉寫任務相關的資料和其他成品。如果您在執行時遇到問題，請聯絡 AWS 支援。

問：哪些人可以存取 Amazon Transcribe 所處理及存放的內容？

只有得到授權的員工可以存取 Amazon Transcribe 所處理的內容。我們將您的信任、您內容的隱私和安全性放在第一優先，而且實作適當且複雜的技術和實體控制 (包括靜態加密和傳輸加密)，旨在避免未授權人員存取或公開您的內容，同時確保對內容的使用絕對遵守我們對您所做的承諾。如需詳細資訊，請參閱 https://aws.amazon.com/compliance/data-privacy-faq/。

問：我是否仍擁有經過 Amazon Transcribe 處理及存放的內容？

您會永久保有自己內容的擁有權，而且我們只會在取得同意的情況下，才使用您的內容。

問：在訓練自訂語言模型時使用的資料會怎樣？我還會擁有它嗎？

提交用於訓練專用模型的文字資料時，您既擁有原始文字資料的擁有權，也擁有所產生自訂模型的擁有權。文字資料既不會存放，也不會用於改善我們的通用語音識別引擎。使用 CLM 產生的模型是獨立的，並且只能由您存取。

問：由於該服務將不會保留我的訓練資料，因此轉錄品質或整體服務體驗是否存在任何缺陷或降級？

我們的服務不存放您的訓練資料不會導致轉錄品質下降。一旦使用訓練資料實際產生自訂語言模型，您即可自行決定模型本身是否可以重複使用。您上傳的原始訓練集已從我們的系統中刪除。唯一的不利情況在於您是否需要技術支援。因為我們不保留您的原始訓練資料，所以若您需要支援團隊調查潛在的服務問題，我們將無法便捷地存取這些資產或相關的中間成品。仍會提供支援，但不是很方便，因為我們可能需要您提供其他資訊。

問：如何重複使用資料進行將來的模型更新或改進？

由於未存放訓練資料，因此必須再次上傳相同的資料集和任何其他資料以訓練新模型。當 Amazon Transcribe 提供的基本模型存在更新時將會通知您。若要充分利用最新的基本模型，您應提交資料以訓練新模型。然後，您將擁有先前產生的原始自訂模型以及要使用的新版本。

問：如何刪除模型？

您可以刪除自行決定產生的任何自訂語言模型。

問：Amazon Transcribe 處理的內容是否會移出我使用 Amazon Transcribe 的 AWS 區域？

Amazon Transcribe 處理的任何內容都會經過加密，並靜態存放在您使用 Amazon Transcribe 的 AWS 區域中。Amazon Transcribe 處理的部分內容可能會存放在其他 AWS 區域，僅用於繼續改善及開發 Amazon Transcribe 客戶使用體驗和其他 Amazon 機器學習/人工智慧技術。您可能會選擇聯絡 AWS Support 來讓我們使用您的內容，來改善和開發 Amazon Transcribe 和其他 Amazon 機器學習/人工智慧技術的品質，您的內容將不會存放在另一個 AWS 區域中。您可以聯絡 AWS Support，請求刪除與您帳戶關聯的語音輸入。我們將您的信任、您內容的隱私和安全性放在第一優先，而且實作適當且複雜的技術和實體控制 (包括靜態加密和傳輸加密)，旨在避免未授權人員存取或公開您的內容，同時確保對內容的使用絕對遵守我們對您所做的承諾。如需詳細資訊，請參閱 https://aws.amazon.com/compliance/data-privacy-faq/。

問：我是否可以在導向或針對 13 歲以下兒童且受兒童線上隱私保護法令 (COPPA) 規範的網站、程式或其他應用程式上使用 Amazon Transcribe？

是，您必須遵守 Amazon Transcribe 服務條款的規範，包括您有義務依據 COPPA 提供任何必要的通知和取得任何必要的可查證家長同意，如此即可在導向或針對 13 歲以下兒童的全部或部分網站、程式或其他應用程式使用 Amazon Transcribe。

問：如何判斷我的網站、程式或應用程式是否受 COPPA 規範？

如需 COPPA 要求的資訊以及判斷您的網站、程式或其他應用程式是否受 COPPA 規範的指導，請直接參閱美國聯邦貿易委員會提供和維護的資源。這個網站也包含如何判斷某個服務 (全部或部分) 是否針對 13 歲以下兒童的相關資訊。

Amazon Transcribe Call Analytics

問：什麼是 Amazon Transcribe Call Analytics？

Amazon Transcribe Call Analytics 是一種採用 AI 技術的 API，可提供豐富的呼叫記錄和可操作的對話洞察，您可以新增至呼叫應用程式中，以改善客戶體驗和客服人員工作效率。其結合了強大的語音轉錄文字和自訂自然語言處理 (NLP) 模型，這些模型經過專門訓練以了解客戶服務和對外銷售呼叫。作為 AWS 聯絡中心智慧 (CCI) 解決方案的一部分，此 API 與聯絡中心無關，讓客戶和 ISV 能夠更輕鬆地將呼叫分析功能新增至其應用程式中。

問︰Amazon Transcribe Call Analytics 有何實用功能？

Amazon Transcribe 通話分析可進行即時和通話後分析。藉助 Call Analytics，開發人員可以快速將有價值的情報，例如客戶和客服人員情緒評分、呼叫驅動程式、呼叫類別、呼叫總結，做為 API 輸出直接新增至任何對內或對外呼叫應用程式。常見使用案例包括客服人員協助、總結、主管提醒和通話分析。以下是兩個基於 Transcribe 通話分析的開放原始碼範例解決方案：具有客服人員協助的即時通話分析和通話後分析。

問︰如何開始使用 Amazon Transcribe Call Analytics？

您可以透過 API 和 AWS 管理主控台使用 Transcribe Call Analytics。可以透過 API 或主控台建立和監控分析任務。在主控台中，您會看到一個分析任務清單，以及一個包含輸入參數和 JSON 輸出預覽的任務詳細資訊頁面。除此之外，您還可以透過 API 或主控台，為自動聯絡分類功能建立和編輯類別。

問︰Amazon Transcribe Call Analytics 支援哪些語言？

請參閱 Amazon Transcribe 文件，了解 Amazon Transcribe Call Analytics 語言可用性的相關資訊。

問︰哪些 AWS 區域可以使用 Amazon Transcribe Call Analytics？

如需有關 Amazon Transcribe 通話分析的 AWS 區域覆蓋範圍的資訊，請參閱 AWS 區域服務文件。請注意，Amazon Transcribe 通話分析生成式呼叫總結僅在美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 目前可供使用。

問：通話後和即時 Transcribe Call Analytics API 是否可以使用生成式呼叫總結？

目前，只有 Transcribe Call Analytics API 可用於通話後分析的生成式呼叫總結。

問：Amazon Transcribe Call Analytics 的定價如何運作？

Amazon Transcribe Call Analytics API 與標準 Amazon Transcribe API 分開定價。有關其他詳細資訊，請參閱 Amazon Transcribe 定價頁面。

Amazon Transcribe Medical

問：什麼是 Amazon Transcribe Medical？

Amazon Transcribe Medical 是一項自動語音辨識 (ASR) 服務，可讓開發人員在自己的應用程式中輕鬆加入醫學語音轉文字功能。使用 Amazon Transcribe Medical，您可以快速、準確地將醫療指示和對話性語音轉錄成文字用於各種用途，例如錄製醫生證明或在下游文字分析中進行處理，從中擷得有意義的見解。

問：Amazon Transcribe Medical 有何實用功能？

Amazon Transcribe Medical 使用進階機器學習模型，將醫學語音準確地轉錄成文字。Transcribe Medical 可產生用於支援多種使用案例的文字記錄，從臨床文件工作流程和藥物安全監控 (藥物警戒) 到遠距醫療的字幕，甚至是醫療和生命科學領域的聯絡中心分析。

問：必須是自動語音辨識 (ASR) 專家才能使用 Amazon Transcribe Medical 嗎？

不，您不需是任何 ASR 或機器學習方面的專家也能使用 Amazon Transcribe Medical。您只需要呼叫 Transcribe Medical 的 API，該服務就會在後端處理所需的機器學習，將醫學語音轉寫成文字。

問：我要如何開始使用 Amazon Transcribe Medical？

您可以從 AWS 管理主控台或透過開發套件，開始使用 Amazon Transcribe Medical。如需詳細資訊，請參閱此技術文件頁面。

Amazon Transcribe Medical 提供免費方案，因此您可以先對此服務加以測試，確定是否適合。請參閱此定價頁面，以了解詳細資訊。

問：Amazon Transcribe Medical 支援哪些語言？

Amazon Transcribe Medical 目前支援美國英文的醫學轉寫。

問：Amazon Transcribe Medical 支援哪些醫學專業？

Amazon Transcribe Medical 支援初級照護和專科照護專業的轉錄，支援的專業清單仍在不斷擴大。請參閱我們的文件，查看支援的醫療專業完整清單。

問：哪些 AWS 區域可以使用 Amazon Transcribe Medical？

如需有關 Amazon Transcribe Medical 的 AWS 區域覆蓋範圍的資訊，請參閱 AWS 區域服務文件。

問：Amazon Transcribe Medical 的定價為何？

如要進一步了解定價詳情，請參閱 Amazon Transcribe Medical 定價頁面。

問：Amazon Transcribe Medical 是否符合 HIPAA 資格？

是。

問：Amazon Transcribe Medical 處理的內容是否會用於提供該服務以外的其他任何用途？

Amazon Transcribe Medical 不會出於提供和維護該服務外的任何原因，使用該服務處理過的內容。該服務處理過的內容不會用於開發或改善 Amazon Transcribe Medical 或任何其他 Amazon 機器學習/人工智慧技術的品質。

問：Amazon Transcribe Medical 是否會不斷地學習？

是，Amazon Transcribe Medical 使用機器學習且不斷接受訓練，使其更適用於客戶的使用案例。Amazon Transcribe Medical 不會存放或使用與該服務搭配使用的客戶資料來訓練模型。

問：使用 Amazon Transcribe Medical 服務前，還有哪些事項需要留意？

Amazon Transcribe Medical 無法取代專業醫療建議、診斷或治療。您和您的最終使用者有責任運用自身的辨別能力、經驗和判斷力，判斷 Amazon Transcribe Medical 提供的任何資訊是否正確、完整、適時及適用。凡是根據 Amazon Transcribe Medical 所做出的任何決策、建議、動作和/或未採取動作，您和您的最終使用者均需全權負責。

Amazon Transcribe Medical 可能無法在所有情況下，準確地識別受保護的醫療資訊，且無法滿足依據 HIPAA 隱藏可識別之受保護醫療資訊的要求。您有責任檢閱 Amazon Transcribe Medical 所提供的任何輸出，以確保其滿足您的需求。

自訂語言模型

問：自訂語言模型如今提供哪些功能？

您可以使用自訂語言模型 (CLM) 來訓練和開發特定領域的語言模型。CLM 目前支援澳大利亞英語、英國英語、印地語、美國英語和美國西班牙語進行批次轉錄，以及美國英語進行串流轉錄。CLM 支援同時使用自訂詞彙進行批次轉錄。

問：需要多少和哪些類型的訓練資料？如何獲取資料？資料是否需要具有特定格式？

文字資料應與將使用自訂模型轉錄的音訊相關；它應包含盡可能多的網域特定字詞、片語和字詞組合。我們建議最少使用 100k 和最多 10M 字詞的執行中文字。文字資料資源可以從任何內部或公共來源獲得 (例如，使用來自客戶網站的文字)。我們建議每個純文字檔案包含 200,000 個字詞或以上，但總檔案大小不超過 1 GB。文字應採用 UTF-8，每行使用一個句子。每個句子應包含標點符號。使用者負責拼寫檢查，刪除格式字元並驗證編碼。

問：如何使用自訂語言模型 (CLM)？

若要訓練自訂語言模型，客戶只需在 Amazon S3 儲存貯體中提供文字資料即可。然後，使用者可以使用 Amazon Transcribe 服務主控台，載入和處理資料以訓練自訂語言模型。訓練完全自動化，需要最少的使用者干預。最終自訂模型準備就緒後，可在客戶的 AWS 帳戶中用其來轉錄網域特定音訊檔案。此外，客戶可以訓練多個自訂模型以用於各種不同的使用案例。

問：改善是否有保障？是否值得花費精力收集文字資料？

不保證有所改善，效能變化取決於文字資料與音訊的相符程度以及所提供的資料量。通常，資料越多越好，但最重要的是，這些資料應涵蓋您打算轉錄的音訊檔案中預期出現的字詞和字詞序列。轉錄精準度的提高將取決於訓練資料的品質以及使用案例。在某些情況下，一般基準化分析測試表明相對精準度提高了 10% 至 15%。

問：模型訓練需要多長時間？什麼時候可以使用？

模型訓練通常需要 6 至 10 個小時。訓練時間的長短取決於資料集的大小。訓練完成後，將直接提供自訂模型。

問：如何使用該模型？如何知道它是否比 Amazon Transcribe 提供的通用模型更好？

該模型將在訓練程序之前以您指定的型號 ID 在您的帳戶中提供。若要使用模型，需要將具有模型 ID 的標誌新增至轉錄請求中。您應在音訊檔案上測試模型，並將輸出與從通用引擎獲得的結果作比較。

問：可以訓練多少種自訂語言模型？是否可以同時為我的帳戶啟用多個模型？

您可以在任何指定時間為每個 AWS 帳戶同時訓練多達 5 種不同的模型。對於每個帳戶，預設最多可以存放 10 個模型。如需更多服務，可以在這裡提升服務限額。

問：是否支援自訂聲學模型？

否。不支援自訂聲學模型。自訂語言模型在與使用案例或網域相關的文字資料基礎上建置。

進一步了解 Amazon Transcribe 定價

瀏覽定價頁面

準備好開始使用了嗎？

試用 Amazon Transcribe 主控台

還有其他問題嗎？

聯絡我們