UCL研究| 深偽技術下,超1/4中英文語音能以假亂真
指南者留學
2024-09-11 17:14:26
閱讀量:1023
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"><span style="font-size: 15px; color: #4a4949; visibility: visible;">這項研究于9月10日在</span><span style="font-size: 15px; color: #ab1942; visibility: visible;">《公共科學圖書館·綜合》(PLOS ONE)</span><span style="font-size: 15px; color: #4a4949; visibility: visible;">上發(fā)表,是有史以來</span><span style="font-size: 15px; color: #ab1942; visibility: visible;">第一項</span><span style="font-size: 15px; color: #4a4949; visibility: visible;">評估人類在除英語之外的其他語言中識別人工生成語音能力的研究。</span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"><span style="font-size: 15px; color: #4a4949; visibility: visible;">深偽技術(Deepfakes)是用于生成模仿真實人聲或外貌的合成媒體技術,屬于生成式人工智能(generative artificial intelligence)的范疇。在這種機器學習(machine learning, ML)過程中,算法能學習數(shù)據(jù)集(如真人視頻或音頻)的模式和特征,從而復刻原始圖像或聲音。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"><span style="font-size: 15px; color: #4a4949; visibility: visible;">早期的深偽語音算法需要成千上萬個人聲樣本才能生成一段原創(chuàng)音頻,但最新的預訓練算法只需一個人說<span style="font-size: 15px; color: #ab1942; visibility: visible;">三秒鐘</span>就能復刻其聲音。即使不具備專業(yè)知識,一個普通人在<span style="font-size: 15px; color: #ab1942; visibility: visible;">短短幾天內</span>就可以掌握這項技術,并且這些開源算法還是免費的。<span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; visibility: visible;">蘋果最近發(fā)布了一款軟件,使用者用</span><span style="font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; color: #ab1942; visibility: visible;">5分鐘</span><span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; visibility: visible;">的錄音就能在iPhone和iPad上創(chuàng)建自己的聲音副本。</span> </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"><span style="font-size: 15px; color: #4a4949; visibility: visible;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://info.compassedu.hk/sucai/content/1728292329072/1728292329072.jpg" width="763" height="477" /></span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em; visibility: visible;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; font-size: 15px; color: #4a4949;">UCL研究人員使用的是一種</span><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; font-size: 15px; color: #ab1942;">語音合成(text-to-speech, TTS)算法</span><span style="font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; font-size: 15px; color: #4a4949;">?;谝粋€英語和一個普通話的公開可用數(shù)據(jù)庫,他們?yōu)閮煞N語言各生成了50個深度偽造語音樣本。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #4a4949;">接著,研究人員邀請</span><span style="font-size: 15px; color: #ab1942;">529人</span><span style="font-size: 15px; color: #4a4949;">參與試驗將人工生成的音頻樣本和真實音頻樣本區(qū)分開來。<strong>結果顯示只有73%的時間里,人們能識別出人工生成的語音。</strong>參與試驗人員接受了</span><span style="font-size: 15px; color: #ab1942;">識別深偽語音的培訓</span><span style="font-size: 15px; color: #4a4949;">之后再次嘗試,這一比例也只略微提高。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #ab1942;">UCL計算機科學學院的Kimberly Mai</span><span style="font-size: 15px; color: #4a4949;">作為論文的</span><span style="font-size: 15px; color: #ab1942;">第一作者</span><span style="font-size: 15px; color: #4a4949;">,說道:“我們的研究證實了人類無法有效分辨深偽技術制作的語音。針對性訓練的作用也微乎其微。不過需要指出來的是,我們的語音樣本是用比較老的算法做的。如果是用目前最尖端的或者未來的技術,結果如何還不得而知。” </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #4a4949;">研究團隊的下一個目標是開發(fā)更準確的</span><span style="font-size: 15px; color: #ab1942;">自動語音檢測器</span><span style="font-size: 15px; color: #4a4949;">,提升對人工合成的音頻和圖像的檢測能力,以更好地應對它們帶來的各類負面影響。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #4a4949;">盡管生成式人工智能音頻技術有很多好處,例如幫助那些表達能力受限或因疾病失去聲音的人,但人們越來越擔心這種技術可能會被犯罪分子利用,危害他人和社會。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #4a4949;">比如在2019 年,某家英國能源公司的首席執(zhí)行官被偽造成其上司聲音的深偽語音所騙,將數(shù)十萬英鎊轉賬給了一家冒名的供應商。 </span></p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"> </p>
<p style="margin-left: 8px; margin-right: 8px; line-height: 1.75em;"><span style="font-size: 15px; color: #4a4949;"><span style="font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; color: #ab1942;">UCL計算機科學學院 Lewis Griffin教授</span><span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif;">是該研究的</span><span style="font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; color: #ab1942;">負責人(senior author)</span><span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif;">。他說:“生成式人工智能技術越來越成熟,許多工具也應運而生,這種情況下機會和風險將并存。政府機構制定戰(zhàn)略來</span><span style="font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; color: #ab1942;">防止濫用這些工具</span><span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif;">是明智之舉,但我們也應該</span><span style="font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif; color: #ab1942;">看到這個領域的光明前景</span><span style="color: #4a4949; font-size: 15px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Hiragino Sans GB', 'Microsoft YaHei UI', 'Microsoft YaHei', Arial, sans-serif;">。” </span> </span></p>