中華電信研究院｜科技新知

壹前言

生成式AI技術蓬勃的發展，不僅在大型語言模型有重大突破，多媒體領域中的圖像生成已經能根據真人給出的想法，生成對應的藝術風格影像，語音合成則只需要幾秒鐘的錄音，即可模仿真人說話。這些強大的技術已經讓真實與虛擬之間的界線變得模糊，人類很難分辨出這些影音內容是由真人還是AI生成的。

然而，這些技術除了能夠創造逼真且多樣化內容豐富我們的生活外，也帶來許多風險，如影音深度偽造 (Deep Fakes)、影音原創性抄襲 (Plagiarism)、語者冒充 (Impostor)等、創造特定意圖的影音來散播假消息甚至行使詐騙。因此，資料保護與認證問題已經被各國政府重視。

本文將介紹影音浮水印 (Multimedia Watermarking)技術，它是一種能夠透過添加數位浮水印在影音內容中，保護與驗證影音內容。最新的方法已經能夠在不影響使用者體驗的前提下，為影音內容添加驗證內容，即使在複製和傳播的過程中，仍然能夠追蹤，維護作者的權益。

貳科技發展現況

一、影音浮水印技術簡介

■ 疊加式浮水印 (Overlay Watermark)

疊加式浮水印技術係利用半透明的方式，將欲加入資訊透過數位浮水印疊加於影音中，如圖一所示。這種方法雖然可以輕易的加入資訊，但有明顯的缺點，也就是加入浮水印的影像肉眼可見且語音品質聽感受影響，使用者體驗不佳之外，亦容易被有心人士使用影音編輯軟體去除版權浮水印。

圖1 疊加式浮水印方法

■ 隱藏式浮水印 (Steganography watermark)

隱藏式浮水印方法係將數位浮水印隱藏嵌入影音中，使數位浮水印不影響視覺與聽覺，盡可能保持原始資料的影像色彩、聲音清晰度。目前主流的隱藏式浮水印技術是一種基於AI開發的方法 [1-3]，由編碼器 (Watermark Encoder) 與解碼器 (Watermark Decoder) 所組成，圖二展示如何用短網址作為數位浮水印編碼進圖片中。首先，輸入原始影像與數位浮水印，透過編碼器將數位浮水印編碼進影像中，編碼後的影像與原始影音，人眼並不會感受到差異，使用者便可以發佈已加入數位浮水印的影像而不被察覺。當影音來源需要被驗證時，輸入一段影音到浮水印解碼器，解碼器先確認此段影音浮水印是否包含數位浮水印，接著輸出數位浮水印內容。

圖2 隱藏式浮水印方法

■ 隱含浮水印生成模型 (Watermarking Generative Model)

近來火熱生成模型，包含對抗生成模型 (Generative Adversarial Neural networks, GANs)及去噪擴散模型 (Denoising Diffusion Probabilistic Models, DDPM)，都有能力利用文生圖 (Text to Image)和文生語音 (Text to Speech) 的方式生成非常逼真的資料。在AI生成模型生成資料時，若同時隱含數位浮水印，則可以溯源資料產生模型與區分真實世界資料 [4-5] 。圖三展示如何使文生圖AI生成模型在產生資料的同時包含數位浮水印，首先，利用隱藏式浮水印的編碼器將訓練資料加入數位浮水印，接著利用這些資料再訓練生成模型，透過學習的過程，模型學會產生影音需包含隱藏數位浮水印。

圖3 如何訓練生成模型產生包含浮水印圖片

二、影音浮水印技術應用

■ 保護原創者資料

■ 生成資料安全性

生成資料辨識 (Detecting generated contents) 提供人們辨識資料來自真實世界或是由模型生成能力，因為這直接影響數據的可信度與使用範圍。例如2024年許多國家大選即將登場，生成式AI提供媒體、競選人產生各種新聞與文宣，但若利用AI產生針對移民政策、墮胎議題、跨性別權利、俄烏戰爭等議題內容，試圖影響其他選民或媒體，則可能影響選舉結果。

■ 生成模型版權保護

生成式模型是由各公司或學校花費大量資源開發訓練的，它包含了開發者的創意與技術，保護生成模型版權可以使開發者享有他們的知識產權，從而促進創新與技術發展。

■ 實際應用

Adobe、OpenAI、 Google、Microsoft等公司結盟創立的開放技術標準內容來源和真實性聯盟C2PA (Coalition for Content Provenance and Authenticity) [6]，對生成AI資料制定了通用的規範，讓企業、媒體或其他使用人員可以在影音中嵌入溯源的出處，C2PA規範適用於生成圖片、真實相片與各種多媒體業。

相機大廠Nikon、Sony、Canon已經導入浮水印技術於相機韌體，在拍攝同時嵌入數位簽章於照片中，替真實相片加入認證，除了保護攝影者版權之外，也能抵制不實訊息利用生成相片傳播 [7]。

OpenAI旗下的影像生成工具DALL·E3，基於C2PA規範將圖像加上數位憑證，同時提供Content Credentials verify網站來可以識別是否圖像為DALL·E3 模型產生的圖像。Google DeepMind最新發表的SynthID技術 [8]，將浮水印加在由Imagen生成模型產生的資料，將浮水印隱藏在聲音與圖像中，並且可以使用他們的浮水印偵測器，將圖片中的浮水印提取出來。

語音合成軟體Respeecher在他們的生成聲音語料庫Voice Marketplace中使用具有符合C2PA 規範的不可見數位浮水印 [9-10]。每次生成合成音頻時，它都會自動加密簽名以驗證來源。下載音頻時，客戶會收到內容憑證，證明音頻是由Respeecher轉換的，使用者能夠輕鬆驗證內容的真實性。

三、影音浮水印技術的挑戰

■ 影音品質

隱藏浮水印的影音品質不能受到影響，文獻顯示，當浮水印資訊量越大，影音品質下降越明顯。因此，如何在隱含足夠的有效版權資訊的同時，保持影音品質至關重要。

■ 浮水印的安全性

有心人士能夠透過簡單的影音編輯消除浮水印，如何避免浮水印可以被輕易地透過影像或語音編輯而破壞或移除，目前的解決方法是攻擊模擬。這種方法模擬了各種攻擊浮水印影音的行為，影像浮水印的攻擊利用圖像基本運算模糊消除浮水印，如影像縮放（scaling）、影像旋轉 (rotate)、影像插值 (interpolation)、影像壓縮(compression)、影像濾波 (filtering)。聲音浮水印的攻擊則包括像語音重新採樣（Re-Sampling）將語音的採樣率轉為一半，然後再轉回原始採樣率，語速更改（Time Stretch）將語音速率增加或減少10%，回音添加（Echo Addition）透過添加語音回音，以及各種訊號濾波器（Signal Filter）濾除特定頻帶的訊號等。模型透過這些攻擊訓練，可以學會如何避免這些攻擊。但是，攻擊模式日新月異，許多技術推出後，短時間內就遭人破解，因此我們需要隨時更新我們的策略應變。

參結論

中華電信研究院作為致力於發展最新AI技術的研發機構，有責任確保AI產品在推向市場之前是安全可靠的，並保證生成式AI技術的應用能在合法的框架下進行，因此多媒體浮水印作為一種版權保護技術，具有重要的研究價值與應用前景，從而為客戶提供更安全、更可靠、更優質的服務和產品體驗。

肆參考文獻

[1] ROMAN, Robin San, et al. Proactive Detection of Voice Cloning with Localized Watermarking. arXiv preprint arXiv:2401.17264, 2024.
[2] Watermarking for audio generation. arXiv preprint arXiv:2308.12770, 2023.
[3] ZHONG, Xin, et al. An automated and robust image watermarking scheme based on deep neural networks. IEEE Transactions on Multimedia, 2020, 23: 1951-1961.
[4] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, and Min Lin. A recipe for watermarking diffusion models. arXiv preprint arXiv:2303.10137, 2023.
[5] LIU, Yugeng, et al. Watermarking diffusion model. arXiv preprint arXiv:2305.12502, 2023.
[6] C2PA. (n.d.). C2PA. Retrieved from https://c2pa.org/
[7] Nikkei Asia. (2024, April 23). Nikon, Sony and Canon fight AI fakes with new camera tech. Nikkei Asia. https://asia.nikkei.com/Business/Technology/Nikon-Sony-and-Canon-fight-AI-fakes-with-new-camera-tech
[8] BlockTrend. (n.d.). Title of the article. Retrieved from https://www.blocktrend.today/p/593
[9] Respeecher. (n.d.). Addressing Misinformation: Respeecher Content Authenticity Initiatives. Retrieved from https://www.respeecher.com/blog/addressing-misinformation-respeecher-content-authenticity-initiatives-partnership-for-authentic-digital-content

淺談生成式AI多媒體保護下之影音浮水印技術