中華電信研究院 | 人工智慧-聲訊辨識與生成

Audio Recognition And Generation

概述

人工智慧浪潮促進了語音辨識及合成技術大躍進，在智慧語音助理、智慧客服、智慧家庭、車載聲控等各行各業運用上，持續擴大應用並嶄露鋒芒。未來實現元宇宙世界的關鍵要素，為多元的語音辨識及合成，本院研發國內領先之自主AI語音/聲訊關鍵核心技術，包含：語音辨識/翻譯、語音合成、語者驗證、事件音偵測、偽造語音偵測等，轉化研發成果為基礎解決方案，催化與語音互動相關之創新應用。

Audio Recognition And Generation

核心技術

語音辨識/語音翻譯
聲紋辨識/偽造語音偵測
事件音偵測
語音合成
聲音浮水印
AI有聲繪本

聲訊辨識與生成

Audio Recognition And Generation

應用現況

聲訊辨識：以AI深度學習模型，將語音内容轉換爲文字或進行屬性分析，包含：台灣在地化(華/英/台/客)與外國語言(14國)語音辨識翻譯、語音屬性分析(語言/性別/年齡/情緒)、聲紋辨識、環境音/事件音/偽造語音偵測等。技術成果陸續應用於中華電信MOD聲控助理、客服IVR語音導航核證、外撥機器人、客戶心聲分析、企客專案音轉字上，並於2023/2024連續二年獲AI 鬥智賽佳作、TCCDA卓越客服大獎、2025創博會銅牌及企業特別獎等獎項。

音訊生成：以AI深度音訊生成模型，將文字轉換成語調生動自然的擬真語音，包含：台灣在地化(華/英/台/客)與日/韓/越/泰多國語言語音合成、情緒語音合成、多語言語者轉換仿聲(只需少量音檔即可產生個人音色之語音合成)。自主發展的語音合成技術成果也應用於中華電信AI Factory平台、客服IVR語音導航核證、外撥機器人、企客專案文字轉語音、AI有聲繪本等領域，並於2024獲AI鬥智賽佳作與創博會金牌獎