![]() |
您現(xiàn)在的位置: 焦作網(wǎng) > 辟謠平臺(tái) > 權(quán)威發(fā)布 > 正文 |
辟謠平臺(tái)
可以想見,,由于公益、公共安全,、國家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,,在不久的將來,,AI讀唇語有望實(shí)現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期,�,!Z懷志 北京理工大學(xué)計(jì)算機(jī)學(xué)院副教授、網(wǎng)絡(luò)與安全研究所所長
雖然電視劇《狂飆》已經(jīng)迎來了大結(jié)局,,但熱度仍然沒有絲毫減弱,,有的網(wǎng)友利用劇中人物創(chuàng)作娛樂視頻,也有的網(wǎng)友剪輯其中精彩片段,。不過,,還有一些“較真”的網(wǎng)友,,發(fā)現(xiàn)《狂飆》中的一些人物對(duì)話,配音和嘴型對(duì)不上,,于是便想通過人工智能進(jìn)行唇語識(shí)別,,還原最初的劇本情節(jié)。
然而,,AI讀唇語并非只能被用于破譯“隱藏劇情”,。據(jù)統(tǒng)計(jì),我國聽力殘障人口超過2054萬,,除了主要的手語交流外,,讀唇語也是他們重要的溝通方式。但人工解讀唇語容易受到個(gè)人經(jīng)驗(yàn),、視覺感受能力,、語言理解能力等因素影響,在正確率方面差強(qiáng)人意,,于是人們開始嘗試?yán)肁I技術(shù)來解讀唇語,。
比唇語專家更懂唇語
“所謂AI讀唇語,即人工智能唇語識(shí)別,,其核心技術(shù)框架為視覺識(shí)別和自然語言處理,。”北京理工大學(xué)計(jì)算機(jī)學(xué)院副教授,、網(wǎng)絡(luò)與安全研究所所長閆懷志介紹道,,具體而言,就是利用機(jī)器視覺技術(shù),,將人臉從圖像中連續(xù)識(shí)別出來,,并提取其中連續(xù)的口型變化特征,輸入至唇語識(shí)別模型,,辨識(shí)出該人物口型對(duì)應(yīng)的發(fā)音,,進(jìn)而輸出可能性最大的表達(dá)語句。
“視覺識(shí)別和自然語言處理分別有著龐大的技術(shù)體系和不同的技術(shù)路線,,但究其本質(zhì),,都是通過大量的唇語數(shù)據(jù)來訓(xùn)練AI模型,力求文本輸出的準(zhǔn)確性,�,!遍Z懷志補(bǔ)充道。
近幾年,,不斷有AI巨頭開始在唇語識(shí)別賽道上作出嘗試,。谷歌旗下Deep Mind公司就與英國牛津大學(xué)合作,研發(fā)出了一款A(yù)I讀唇語軟件,通過讓AI讀唇語軟件“收看”數(shù)千小時(shí)的電視節(jié)目來訓(xùn)練其唇語識(shí)別能力,。有意思的是,,在隨機(jī)抽取200個(gè)視頻片段的讀唇語測(cè)試中,AI讀唇語軟件的準(zhǔn)確率達(dá)到了46.8%,,而經(jīng)過專業(yè)訓(xùn)練的人類讀唇語專家,,準(zhǔn)確率僅為12.4%。
為何AI讀唇語能夠悄然興起,?閆懷志給出了自己的分析:一是強(qiáng)烈的需求牽引,,二是巨大的技術(shù)推動(dòng)。從需求牽引來說,,唇語識(shí)別不僅可為部分殘障人士提供方便,,更可以在公共安防等諸多領(lǐng)域發(fā)揮巨大作用;從技術(shù)推動(dòng)來說,,由于AI算法,、算力以及數(shù)據(jù)瓶頸被不斷突破,使得AI技術(shù)在唇語識(shí)別領(lǐng)域取得較大成功成為現(xiàn)實(shí),。
眾多難題有待突破
不過,,閆懷志也表示,目前我國人工智能唇語識(shí)別技術(shù)尚處于起步階段,,若想利用人工智能準(zhǔn)確地識(shí)別唇語,,還有很長的路要走。
從語言本身來看,,人類語言具有較高的復(fù)雜性,,在人類話語所涉及的所有音標(biāo)中,僅有30%左右是直接由人類嘴唇來控制的,,70%是難以通過肉眼,,甚至是機(jī)器視覺區(qū)分的齒音、舌音以及喉音,。而且,,不同人說話的語氣、方言,、連詞、口音,,乃至胡須遮蓋等因素,,都會(huì)導(dǎo)致嘴型的細(xì)微變化,而恰恰是這種細(xì)微變化,,會(huì)嚴(yán)重影響人工智能對(duì)于唇語的識(shí)別和判斷,。
從技術(shù)層面來看,人工智能采集唇語的環(huán)境通常較為復(fù)雜,若想精準(zhǔn)識(shí)別難度很高,。以目前的人工智能技術(shù)而言,,對(duì)于長句、復(fù)雜句式等的識(shí)別水平不盡如人意,,更不用說還存在著多場(chǎng)景識(shí)別,、多人像唇語識(shí)別等問題。
閆懷志表示,,只有解決了上述問題,,AI讀唇語才能得到突破性提升,邁向成熟發(fā)展階段,。
人類不同語種之間千差萬別,,AI能讀懂每個(gè)語種的唇語嗎?
閆懷志介紹,,此前較為成功的AI讀唇語系統(tǒng)大多僅限于英語模型,,這是因?yàn)槎鄶?shù)AI模型都是基于英語數(shù)據(jù)訓(xùn)練而得。但是,,從技術(shù)框架上來說,,不同語種的訓(xùn)練模型是基本一致的,或者說可以依賴于同一類技術(shù)手段來實(shí)現(xiàn),。
當(dāng)然,,為了適應(yīng)不同語種的唇語識(shí)別,也需要作一些適應(yīng)性調(diào)整:一方面要選擇對(duì)應(yīng)語種的數(shù)據(jù)進(jìn)行有針對(duì)性的訓(xùn)練,;另一方面,,還需要對(duì)AI模型進(jìn)行調(diào)整,比如納入時(shí)間屏蔽,、優(yōu)化語言模型以及改進(jìn)超參數(shù)等,。
此外,同一語種也會(huì)有不同口型,,即便口型類似,,也可能代表著完全不同的意思。因此,,成熟的AI讀唇語系統(tǒng)需要大量的唇語特征樣本數(shù)據(jù),,并盡可能地覆蓋多種應(yīng)用場(chǎng)景、多類型的說話人群,,借此來提升訓(xùn)練后的唇語識(shí)別模型的泛化能力,,提高AI讀唇語對(duì)于不同口型和不同表意語言的識(shí)別準(zhǔn)確率。
亟須監(jiān)管的技術(shù)雙刃劍
盡管存在種種難題,,但仍有越來越多的AI企業(yè)開始涉足并計(jì)劃深耕人工智能唇語識(shí)別賽道,。目前來看,各大AI巨頭的選擇不盡相同,具體可分為唇語數(shù)據(jù),、唇語視頻識(shí)別,、唇語理解等。
閆懷志也表示,,目前許多人工智能唇語識(shí)別技術(shù)領(lǐng)域已實(shí)現(xiàn)初步突破,,全鏈條集成前景可期,產(chǎn)業(yè)集群正在逐步形成,。
從應(yīng)用場(chǎng)景來看,,AI讀唇語在社會(huì)公益、公共安全等領(lǐng)域都已開始嶄露頭角,。從目前各大巨頭的布局以及相關(guān)技術(shù)的發(fā)展趨勢(shì)來看,,AI讀唇語預(yù)期可在身份識(shí)別、國家安全,、智慧系統(tǒng)等方面具有廣闊的應(yīng)用前景,。“可以想見,,由于公益,、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引,,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,,在不久的將來,AI讀唇語有望實(shí)現(xiàn)快速推廣與深度普及,,產(chǎn)業(yè)前景十分可期,。”閆懷志說,。
例如,,在安防安監(jiān)領(lǐng)域,很多安監(jiān)場(chǎng)景噪音較大或僅有視頻信號(hào),,無法準(zhǔn)確捕捉聲音,,人工智能唇語識(shí)別技術(shù)就能派上用場(chǎng);在身份識(shí)別領(lǐng)域,,可以利用AI讀唇語來實(shí)現(xiàn)口型支付密碼輸入,,“動(dòng)動(dòng)嘴唇”就能實(shí)現(xiàn)身份識(shí)別和支付交易;在公共安全領(lǐng)域,,利用AI讀唇語,,可以在各類視頻中分析案件當(dāng)事人的唇語信息,輔助案件偵查工作,;在智慧系統(tǒng)領(lǐng)域,可利用AI讀唇語來實(shí)現(xiàn)“無聲勝有聲”——只依靠口型來控制智能設(shè)備,比如智能家電等,。
當(dāng)然,,技術(shù)應(yīng)用是把雙刃劍。很多人擔(dān)心,,AI讀唇語會(huì)使人們對(duì)話中的隱私內(nèi)容遭到泄露,,無論當(dāng)事人是公開發(fā)言、竊竊私語或是自言自語,�,!皬垙堊臁本捅粍e人竊取聊天內(nèi)容,仔細(xì)想來確實(shí)可怕,。
閆懷志表示,,這種擔(dān)心并非杞人憂天。AI讀唇語導(dǎo)致的隱私泄露,,一方面可能是有人惡意進(jìn)行唇語獲取識(shí)別,,另一方面也可能是正常使用的AI讀唇語系統(tǒng),但其中的存儲(chǔ),、使用等環(huán)節(jié)保護(hù)不當(dāng),,導(dǎo)致相關(guān)數(shù)據(jù)被竊取或?yàn)E用,進(jìn)而對(duì)個(gè)人權(quán)益造成損害,。而且,,由于涉及到當(dāng)事人的對(duì)話內(nèi)容,具有明顯的方向性,,這種隱私泄露的危害性可能要比普通的個(gè)人信息泄露更為嚴(yán)重,。
因此,閆懷志建議,,應(yīng)從隱私安全保護(hù)的角度,,在管理層面加強(qiáng)相關(guān)法律法規(guī)的制定,嚴(yán)格規(guī)范和約束AI讀唇語的應(yīng)用場(chǎng)景,、范圍和目的,,加大對(duì)技術(shù)惡意利用的監(jiān)管和懲戒力度。此外,,還要在技術(shù)層面加強(qiáng)AI讀唇語系統(tǒng)的安全保護(hù)體系建設(shè),,以技術(shù)手段提高系統(tǒng)的識(shí)別精準(zhǔn)度,避免技術(shù)濫用,,切實(shí)保障用戶對(duì)話的內(nèi)容安全,。
![]() |
![]() |
![]() |
![]() |
焦作網(wǎng)免責(zé)聲明: | |||||||
|
可以想見,,由于公益,、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引,,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,,在不久的將來,AI讀唇語有望實(shí)現(xiàn)快速推廣與深度普及,,產(chǎn)業(yè)前景十分可期,�,!Z懷志 北京理工大學(xué)計(jì)算機(jī)學(xué)院副教授、網(wǎng)絡(luò)與安全研究所所長
雖然電視劇《狂飆》已經(jīng)迎來了大結(jié)局,,但熱度仍然沒有絲毫減弱,,有的網(wǎng)友利用劇中人物創(chuàng)作娛樂視頻,也有的網(wǎng)友剪輯其中精彩片段,。不過,,還有一些“較真”的網(wǎng)友,發(fā)現(xiàn)《狂飆》中的一些人物對(duì)話,,配音和嘴型對(duì)不上,,于是便想通過人工智能進(jìn)行唇語識(shí)別,還原最初的劇本情節(jié),。
然而,,AI讀唇語并非只能被用于破譯“隱藏劇情”。據(jù)統(tǒng)計(jì),,我國聽力殘障人口超過2054萬,,除了主要的手語交流外,讀唇語也是他們重要的溝通方式,。但人工解讀唇語容易受到個(gè)人經(jīng)驗(yàn),、視覺感受能力、語言理解能力等因素影響,,在正確率方面差強(qiáng)人意,,于是人們開始嘗試?yán)肁I技術(shù)來解讀唇語。
比唇語專家更懂唇語
“所謂AI讀唇語,,即人工智能唇語識(shí)別,,其核心技術(shù)框架為視覺識(shí)別和自然語言處理�,!北本├砉ご髮W(xué)計(jì)算機(jī)學(xué)院副教授,、網(wǎng)絡(luò)與安全研究所所長閆懷志介紹道,具體而言,,就是利用機(jī)器視覺技術(shù),,將人臉從圖像中連續(xù)識(shí)別出來,并提取其中連續(xù)的口型變化特征,,輸入至唇語識(shí)別模型,,辨識(shí)出該人物口型對(duì)應(yīng)的發(fā)音,進(jìn)而輸出可能性最大的表達(dá)語句,。
“視覺識(shí)別和自然語言處理分別有著龐大的技術(shù)體系和不同的技術(shù)路線,,但究其本質(zhì),都是通過大量的唇語數(shù)據(jù)來訓(xùn)練AI模型,,力求文本輸出的準(zhǔn)確性,�,!遍Z懷志補(bǔ)充道。
近幾年,,不斷有AI巨頭開始在唇語識(shí)別賽道上作出嘗試,。谷歌旗下Deep Mind公司就與英國牛津大學(xué)合作,研發(fā)出了一款A(yù)I讀唇語軟件,,通過讓AI讀唇語軟件“收看”數(shù)千小時(shí)的電視節(jié)目來訓(xùn)練其唇語識(shí)別能力,。有意思的是,在隨機(jī)抽取200個(gè)視頻片段的讀唇語測(cè)試中,,AI讀唇語軟件的準(zhǔn)確率達(dá)到了46.8%,,而經(jīng)過專業(yè)訓(xùn)練的人類讀唇語專家,準(zhǔn)確率僅為12.4%,。
為何AI讀唇語能夠悄然興起?閆懷志給出了自己的分析:一是強(qiáng)烈的需求牽引,,二是巨大的技術(shù)推動(dòng),。從需求牽引來說,唇語識(shí)別不僅可為部分殘障人士提供方便,,更可以在公共安防等諸多領(lǐng)域發(fā)揮巨大作用,;從技術(shù)推動(dòng)來說,由于AI算法,、算力以及數(shù)據(jù)瓶頸被不斷突破,,使得AI技術(shù)在唇語識(shí)別領(lǐng)域取得較大成功成為現(xiàn)實(shí)。
眾多難題有待突破
不過,,閆懷志也表示,,目前我國人工智能唇語識(shí)別技術(shù)尚處于起步階段,若想利用人工智能準(zhǔn)確地識(shí)別唇語,,還有很長的路要走,。
從語言本身來看,人類語言具有較高的復(fù)雜性,,在人類話語所涉及的所有音標(biāo)中,,僅有30%左右是直接由人類嘴唇來控制的,70%是難以通過肉眼,,甚至是機(jī)器視覺區(qū)分的齒音,、舌音以及喉音。而且,,不同人說話的語氣,、方言、連詞,、口音,,乃至胡須遮蓋等因素,,都會(huì)導(dǎo)致嘴型的細(xì)微變化,而恰恰是這種細(xì)微變化,,會(huì)嚴(yán)重影響人工智能對(duì)于唇語的識(shí)別和判斷,。
從技術(shù)層面來看,人工智能采集唇語的環(huán)境通常較為復(fù)雜,,若想精準(zhǔn)識(shí)別難度很高,。以目前的人工智能技術(shù)而言,對(duì)于長句,、復(fù)雜句式等的識(shí)別水平不盡如人意,,更不用說還存在著多場(chǎng)景識(shí)別、多人像唇語識(shí)別等問題,。
閆懷志表示,,只有解決了上述問題,AI讀唇語才能得到突破性提升,,邁向成熟發(fā)展階段,。
人類不同語種之間千差萬別,AI能讀懂每個(gè)語種的唇語嗎,?
閆懷志介紹,,此前較為成功的AI讀唇語系統(tǒng)大多僅限于英語模型,這是因?yàn)槎鄶?shù)AI模型都是基于英語數(shù)據(jù)訓(xùn)練而得,。但是,,從技術(shù)框架上來說,不同語種的訓(xùn)練模型是基本一致的,,或者說可以依賴于同一類技術(shù)手段來實(shí)現(xiàn),。
當(dāng)然,為了適應(yīng)不同語種的唇語識(shí)別,,也需要作一些適應(yīng)性調(diào)整:一方面要選擇對(duì)應(yīng)語種的數(shù)據(jù)進(jìn)行有針對(duì)性的訓(xùn)練,;另一方面,還需要對(duì)AI模型進(jìn)行調(diào)整,,比如納入時(shí)間屏蔽,、優(yōu)化語言模型以及改進(jìn)超參數(shù)等。
此外,,同一語種也會(huì)有不同口型,,即便口型類似,也可能代表著完全不同的意思,。因此,,成熟的AI讀唇語系統(tǒng)需要大量的唇語特征樣本數(shù)據(jù),并盡可能地覆蓋多種應(yīng)用場(chǎng)景、多類型的說話人群,,借此來提升訓(xùn)練后的唇語識(shí)別模型的泛化能力,,提高AI讀唇語對(duì)于不同口型和不同表意語言的識(shí)別準(zhǔn)確率。
亟須監(jiān)管的技術(shù)雙刃劍
盡管存在種種難題,,但仍有越來越多的AI企業(yè)開始涉足并計(jì)劃深耕人工智能唇語識(shí)別賽道,。目前來看,各大AI巨頭的選擇不盡相同,,具體可分為唇語數(shù)據(jù),、唇語視頻識(shí)別、唇語理解等,。
閆懷志也表示,,目前許多人工智能唇語識(shí)別技術(shù)領(lǐng)域已實(shí)現(xiàn)初步突破,全鏈條集成前景可期,,產(chǎn)業(yè)集群正在逐步形成,。
從應(yīng)用場(chǎng)景來看,AI讀唇語在社會(huì)公益,、公共安全等領(lǐng)域都已開始嶄露頭角,。從目前各大巨頭的布局以及相關(guān)技術(shù)的發(fā)展趨勢(shì)來看,AI讀唇語預(yù)期可在身份識(shí)別,、國家安全、智慧系統(tǒng)等方面具有廣闊的應(yīng)用前景,�,!翱梢韵胍姡捎诠�,、公共安全,、國家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,,在不久的將來,,AI讀唇語有望實(shí)現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期,�,!遍Z懷志說。
例如,,在安防安監(jiān)領(lǐng)域,,很多安監(jiān)場(chǎng)景噪音較大或僅有視頻信號(hào),無法準(zhǔn)確捕捉聲音,,人工智能唇語識(shí)別技術(shù)就能派上用場(chǎng),;在身份識(shí)別領(lǐng)域,可以利用AI讀唇語來實(shí)現(xiàn)口型支付密碼輸入,“動(dòng)動(dòng)嘴唇”就能實(shí)現(xiàn)身份識(shí)別和支付交易,;在公共安全領(lǐng)域,,利用AI讀唇語,可以在各類視頻中分析案件當(dāng)事人的唇語信息,,輔助案件偵查工作,;在智慧系統(tǒng)領(lǐng)域,可利用AI讀唇語來實(shí)現(xiàn)“無聲勝有聲”——只依靠口型來控制智能設(shè)備,,比如智能家電等,。
當(dāng)然,技術(shù)應(yīng)用是把雙刃劍,。很多人擔(dān)心,,AI讀唇語會(huì)使人們對(duì)話中的隱私內(nèi)容遭到泄露,無論當(dāng)事人是公開發(fā)言,、竊竊私語或是自言自語,。“張張嘴”就被別人竊取聊天內(nèi)容,,仔細(xì)想來確實(shí)可怕,。
閆懷志表示,這種擔(dān)心并非杞人憂天,。AI讀唇語導(dǎo)致的隱私泄露,,一方面可能是有人惡意進(jìn)行唇語獲取識(shí)別,另一方面也可能是正常使用的AI讀唇語系統(tǒng),,但其中的存儲(chǔ),、使用等環(huán)節(jié)保護(hù)不當(dāng),導(dǎo)致相關(guān)數(shù)據(jù)被竊取或?yàn)E用,,進(jìn)而對(duì)個(gè)人權(quán)益造成損害,。而且,由于涉及到當(dāng)事人的對(duì)話內(nèi)容,,具有明顯的方向性,,這種隱私泄露的危害性可能要比普通的個(gè)人信息泄露更為嚴(yán)重。
因此,,閆懷志建議,,應(yīng)從隱私安全保護(hù)的角度,在管理層面加強(qiáng)相關(guān)法律法規(guī)的制定,,嚴(yán)格規(guī)范和約束AI讀唇語的應(yīng)用場(chǎng)景,、范圍和目的,加大對(duì)技術(shù)惡意利用的監(jiān)管和懲戒力度,。此外,,還要在技術(shù)層面加強(qiáng)AI讀唇語系統(tǒng)的安全保護(hù)體系建設(shè),,以技術(shù)手段提高系統(tǒng)的識(shí)別精準(zhǔn)度,避免技術(shù)濫用,,切實(shí)保障用戶對(duì)話的內(nèi)容安全,。
![]() |
|
![]() |
焦作網(wǎng)免責(zé)聲明: | |||||||
|
|
|