信息來源:51cto
AI 換臉余波未褪,AI 換聲進行電話詐騙的戲碼竟也成真了!不得不說,現在確實已經很難區(qū)分出利用深度偽造 (deep fake) 技術制作的假文本、假視頻。而近日,這種現象似乎又延伸到了假語音領域——一家公司就因為近期發(fā)生的一起語音欺詐案件損失了 20 萬英鎊(合約 24.3 萬美元)。
據《華爾街日報》報道,今年 3 月份,網絡犯罪分子利用一款基于 AI 的軟件模仿了一家德國母公司首席執(zhí)行官的聲音,并欺騙該公司旗下一家英國能源公司的經理向詐騙者控制的銀行賬戶轉款 24.3 萬美元。
事情是這樣的,英國某能源公司的一名高級管理人員接到了一個電話,由于電話另一端的聲音非常耳熟,且同樣帶有輕微的德國口音,所以該高管就以為自己正在和德國母公司的老板通話,而對方要求他把一筆資金轉給一家匈牙利供應商,并表示此事非常緊急,需要在一個小時內付款,另外還保證這筆資金會立即得到報銷。
由于確信電話那頭是老板的聲音,所以該負責人就按要求將款項打給了匈牙利供應商。然而事實上,這筆匯款不僅沒有得到報銷,而且詐騙者又繼續(xù)冒充這位德國老板要求另一筆緊急匯款。
不過這次,該高管注意到來電顯示地點是奧地利,并拒絕了付款請求,隨后便對該事件展開了調查。
據《華爾街日報》報道,這位英國 CEO 轉給所謂的匈牙利供應商的這筆錢最終被轉移到了墨西哥及其他地方。該案件目前尚在調查之中,但此次網絡犯罪背后的罪犯身份尚未查明。
“語音網絡釣魚”(voice phishing,簡稱vishing)攻擊并不新鮮,但此次事件可能是網絡犯罪分子利用 AI 進行語音欺詐攻擊的第一個案例。金融服務公司 Euler Hermes 的欺詐專家 Rüdiger Kirsch 表示,Euler Hermes 最終承擔了受害公司索賠的全部金額,而該保險公司之前并沒有處理過其他要求追回涉及人工智能犯罪的損失的索賠案件。
ESET 的網絡安全專家 Jake Moore 預測稱,不久的將來,我們會看到利用機器學習的網絡犯罪大幅增加。我們已經看到深度偽造技術使用視頻格式模仿名人和公眾人物,但制作這些逼真的鏡頭要花 17 個小時左右。能夠偽造聲音需要較少的錄音即可制作完成。隨著計算能力不斷提高,我們開始看到這些變得更容易制作,未來形勢令人不安。
為了降低風險,不僅有必要讓人們意識到這種模仿現在可以實現,還有必要在轉賬前加入驗證技術。雙因素身份驗證是另一種有效、廉價且簡單的技術,它增添了另一層安全性,可以保護打給流氓賬戶的資金安全。被要求轉賬時,尤其是大筆金額,請務必核查電話號碼并要求回電。使用你地址簿中的號碼,而不是點擊通話記錄中的 “回電” 選項。
在去年發(fā)布的一份報告中,Pindrop(一家為呼叫中心開發(fā)安全軟件和協議的公司)發(fā)現,語音相關的欺詐案件——主要影響銀行、信用合作社、基金公司、保險公司以及銀行卡發(fā)行機構——在 2013 年至 2017 年的四年間增長了 350% 以上。
2016 年至 2017 年期間的整體語音渠道欺詐也增加了 47% ——相當于每 638 起欺詐電話中就有 1 個是人工合成的。
2017 年,東芬蘭大學 (University of Eastern Finland) 的研究人員進行的一項研究警告稱,被各種組織用作生物識別身份驗證方式的語音識別系統(tǒng)非常容易被模仿者欺騙。
而事實上,利用 AI 克隆一個人的聲音也不是什么新鮮事,百度去年就開發(fā)了 “Deep Voice” 軟件,可以用不到 4 秒的時間克隆人聲,此舉也引發(fā)了業(yè)界對生物識別技術安全性的擔憂。
除此之外,谷歌旗下的加拿大公司 Lyrebird,只需一分鐘音頻即可生成與用戶語音特征高度相似的數字語音。
谷歌也發(fā)表過一篇題為《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》 (SV2TTS) 的論文,描述了一種用于文本到語音 (TTS) 合成的基于神經網絡的系統(tǒng),該系統(tǒng)能夠以許多不同發(fā)言者的聲音產生語音音頻。
SV2TTS 是一個三階段的深度學習框架,可以從幾秒鐘的音頻中創(chuàng)建語音的數字表示,并使用它來調節(jié)文本到語音的模型,該模型經過訓練可歸納為新的語音。也就是說,只需5秒鐘的音頻樣本,就可以克隆一個人的聲音。
由此可見,基于 AI 的工具的興起既有優(yōu)點也有缺點。一方面,它為技術的探索和創(chuàng)造提供了空間,而另一方面,它也為犯罪、欺騙以及欺詐提供了可能性。