簡單易用的 API
Amazon Polly 提供 API,讓您可迅速將語音合成與您的應用程式整合。您只要將想要轉換為語音的文字傳送至 Amazon Polly API,Amazon Polly 就會立即將音訊串流傳回您的應用程式,應用程式便可開始直接串流,或是以標準音訊檔案格式存放,例如 MP3。
抽樣頻率 | 範本程式碼 |
"Hi.My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi.My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
眾多語音與語言選擇
Amazon Polly 包含了數十種逼真的語音且支援多種語言,因此您可以選取適當的語音,然後在多個國家/地區分發啟用語音功能的應用程式。除了標準和神經網路文本轉換語音 (NTTS) 語音之外,Amazon Polly 現在還提供長語音和生成式語音,可改善語音品質以提供更自然且類似人類的聲音。
Ruth、Matthew、Amy、Joanna、Danielle、Stephen 和 Olivia 也提供生成式變體。
同步語音以增強視覺體驗
使用 Amazon Polly 可輕鬆請求額外的中繼資料串流,其中包含何時唸出特定句子、字詞和聲音的資訊。使用此中繼資料串流搭配合成語音音訊串流,您現在可以建立擁有增強視覺體驗的應用程式,例如語音同步臉部動畫或卡拉 OK 式字詞反白顯示。
請瀏覽文件以進一步了解如何使用語音標記。
優化您的串流音訊
使用 Amazon Polly,您可以透過應用程式以近乎即時的速度將各種資訊串流給使用者。您有多種抽樣頻率可選擇,讓您針對應用程式優化頻寬與音訊品質。Amazon Polly 支援 MP3、Vorbis 和原始 PCM 音訊串流格式。
抽樣頻率 | MP3 大小 | OGG 大小 |
PCM 大小 |
24.00 kHz 聆聽 | 19.31 kB | 18.11 kB | 無 |
22.05 kHz 聆聽 |
19.33 kB | 17.62 kB | 無 |
16.05 kHz 聆聽 | 16.22 kB | 15.48 kB | 100.68 kB |
8.00 kHz 聆聽 | 13.26 kB | 9.72 kB | 50.34 kB |
調整說話風格、語音速率、音調和音量
Amazon Polly 支援語音合成標記語言 (SSML),這是一種適用於語音合成應用程式的 XML 型標記語言,採用 W3C 標準,且支援語調、重音與音調的常見 SSML 標籤。自訂 Amazon SSML 標籤以提供獨特的選項,例如讓某些聲音以新聞播報員播報風格說話的能力。這些調整彈性可讓您製作逼真的語音,持續引起聽眾的注意力。
要進一步了解,請瀏覽有關 SSML 標籤的 Amazon Polly 文件。
範例 | SSML |
This is how I speak normally. | (無) |
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. | <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak> |
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
I can speak really slowly, or I can speak really fast. | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
I can also speak very loudly, or I can speak very quietly. | <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak> |
I can whisper. | <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak> |
新聞播報員播報風格
Amazon Polly 可以用來合成語音,讓說話風格類似電視或電台新聞播報員。這會是朗讀新聞文章或進行新聞簡報的絕佳方式。新聞播報員風格使用神經文字轉換語音方式,目前提供美國英文 (en-US) Matthew 和 Joanna 的聲音、英國英文 (en-GB) Amy 的聲音和美國西班牙文 (es-US) Lupe 的聲音。聆聽美國英文、英國英文或美國西班牙文的音訊範本。
調整語音的最長持續時間
Amazon Polly 可以讓您根據「時間驅動韻律」功能所定義的最大分配時間來自動調整語音速度。這對許多使用案例都有好處,特別是在本地化方面。
例如,假設您在訓練影片中嵌入美式英文發音,然後希望將這段影片本地化為德文。假設您使用 Amazon Translate 翻譯文字,並用 Polly 進行配音。串流時讓本地化德文配音對應到影片的每個畫面非常重要,因此德文配音不能比美式英文配音還長。您可以使用這個功能,更輕鬆地完成配音過程。
平台與程式語言支援
Amazon Polly 支援 AWS 開發套件 (Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++) 與 AWS Mobile SDK (iOS/Android) 中的所有程式設計語言。此外,Polly 也支援 HTTP API,方便您自行實作存取層。
透過 API、主控台或命令列存取的語音合成
Amazon Polly 可以透過 Polly API (和各種語言特定的開發套件)、AWS 管理主控台及 AWS 命令列界面 (CLI) 來存取。無論透過主控台、API 或 CLI 使用服務,您都可以完整控制 Amazon Polly 的所有功能。
自訂語彙
透過 Amazon Polly 的自訂語彙或字彙,您可以修改特定字詞的發音,例如公司名稱、縮寫、外文字詞與新詞 (例如,以法文以外的語音說出 "ROTFL"、"C'est la vie")。若要自訂這些發音,您可以上傳含有語彙項目的 XML 檔案。舉例來說,使用以下 XML 檔案提供音素即可自訂 Nguyen 的發音:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice 是一種自訂參與,您將與 Amazon Polly 團隊共同建立您組織專用的神經文字轉換語音 (NTTS)。Brand Voice 可讓您在廣泛的使用案例中,透過獨特的語音識別區分您的產品和應用程式,包括 Amazon Connect 和 Alexa Skills 整合。我們將在整個過程中,與您共同識別角色,識別男演員或女演員,記錄其語音,最終建立和培訓模型來產生語音。然後,語音可共您的 AWS 帳戶 ID 使用。
聆聽澳洲國民銀行品牌語音 »
如果您對使用 Polly 建置 Brand Voice 感興趣,請洽詢您的 AWS 客戶經理或聯絡我們了解更多資訊。
聯絡中心整合
Amazon Polly 與 AWS 以雲端為基礎的聯絡中心解決方案 Amazon Connect 原生整合,您可以用於設定和管理客戶聯絡中心,並以任何規模提供可靠的客戶參與。若要進一步了解向對話互動式語音回應系統新增文字轉換語音提示的相關資訊,請參閱如何在 Amazon Connect 中使用 Polly 語音。
Genesys Cloud CX 是一種雲端聯絡中心解決方案,可透過電話、簡訊和聊天等多種管道統一客戶和客服人員體驗。您可以使用任何現有的 Polly 語音來部署語音機器人。如需詳細資訊,請參閱Genesys Cloud 文件。
Amazon Chime SDK 是一套即時通訊元件,開發人員可利用它快速將音訊通話、視訊通話以及螢幕畫面共用功能新增至他們的 Web、行動或電話語音應用程式。 Amazon Chime SDK 支援與 Amazon Polly 的原生整合,讓建置者可以輕鬆打造將文字和數字資料轉換為逼真語音,並自動將輸出播放給電話呼叫者的應用程式。
多個 AWS CCI 合作夥伴都在使用 Amazon Polly,因此您可以無縫地建立自助客戶服務虛擬代理、資訊機器人或應用程式機器人。Amazon Polly 合作夥伴包括 Genesys、Vonage 和 Accenture。若要進一步了解合作夥伴,請瀏覽 AWS CCI 和 AWS CCI 合作夥伴頁面。