閱讀提示:突破了手語生成技術(shù)難題,為聽障群體了解冬奧資訊帶來便利,同時有效解決了專業(yè)場景中手語服務(wù)資源相對匱乏的問題,促進了社會無障礙設(shè)施建設(shè)。
身穿白襯衫、紅西裝的“年輕女性”,將主播的口語播報內(nèi)容,實時翻譯成手語,傳達給聽障群體……近日,北京廣播電視臺《北京您早》節(jié)目“上線”了手語播報數(shù)字人,與真人主播同步播報冬奧資訊。
相關(guān)數(shù)據(jù)顯示,我國聽力殘疾人約2780萬人,占全國殘疾人的30%以上。手語播報數(shù)字人的出現(xiàn),讓“無聲世界”里開始充滿了溫暖的冬奧聲音。
記者了解到,北京冬殘奧會開幕在即,各項服務(wù)轉(zhuǎn)換工作接近尾聲。如何幫助盲聾殘疾人順利“收看”殘奧會比賽的配套工作也在有條不紊地進行。
此外,針對北京2022年冬奧會和冬殘奧會研發(fā)的手語播報數(shù)字人,未來有望被推廣至更多應(yīng)用場景。
讓聽障人士感受冬奧魅力
杜銀玲是一位聾人,同時也是一位手語教師、網(wǎng)絡(luò)博主。
“以前,我們觀看體育比賽時,需要同時打開電視和手機,一邊看比賽畫面,一邊看手機中的文字解說。”她告訴記者,這樣雖然也能獲取到比賽信息,但過程較為復(fù)雜,體育賽事的觀賞性也大打折扣。
從AI合成主播到虛擬美妝博主,語音播報數(shù)字人在傳媒、醫(yī)療、教育等領(lǐng)域越來越常見,但手語播報數(shù)字人卻不常見。尤其在體育新聞專業(yè)領(lǐng)域,聽障群體往往無法直接通過手語播報獲取信息。
冬奧會期間正式上崗的手語播報數(shù)字人,由北京智譜華章科技有限公司、凌云光技術(shù)股份有限公司、清華大學(xué)計算機系賈珈教授團隊、中科院計算所陳益強研究團隊聯(lián)合打造。
研發(fā)團隊在前期調(diào)研中了解到,人工手語翻譯工作量大,電視節(jié)目主持人和手語主持人配合難度高,且手語翻譯專業(yè)人員稀缺。因此,團隊希望通過AI技術(shù)將口語播報內(nèi)容翻譯合成為手語,并通過手語播報數(shù)字人進行播報。
“這套手語播報系統(tǒng)在表意的準(zhǔn)確性和表達的可懂度方面具有突出優(yōu)勢。”研發(fā)人員告訴記者,由于不需要過多人工干預(yù),這套系統(tǒng)還能節(jié)省大量人力,在手語播報時更快、更精準(zhǔn)地傳達相應(yīng)信息。
“智能手語播報拓展了我們觀看比賽、理解比賽的渠道,讓我們更深入地沉浸在比賽的氛圍里。”杜銀玲說。
數(shù)字人如何學(xué)習(xí)手語
為了讓學(xué)員準(zhǔn)確快速地進行手語翻譯,杜銀玲在日常教學(xué)中,會讓學(xué)員反復(fù)訓(xùn)練,提高手語運用的熟練度。同樣,手語播報數(shù)字人在學(xué)習(xí)手語的過程中,也經(jīng)歷了一番“系統(tǒng)而刻苦”的訓(xùn)練。
手語播報數(shù)字人生成技術(shù)涉及多個領(lǐng)域,包括計算機視覺、自然語言處理、跨媒體計算、人機交互等。
在語料庫建設(shè)階段,手語播報數(shù)字人系統(tǒng)完成了《國家通用手語詞典》8214條通用手語,以及2000多條冬奧賽事相關(guān)詞匯手語的采集和錄制。為確保手語播報的準(zhǔn)確性和專業(yè)度,研發(fā)團隊還收錄了10萬多條常用語句。
研發(fā)人員指著屏幕告訴記者,在龐大的數(shù)據(jù)源基礎(chǔ)上,團隊通過自主搭建的多模態(tài)肢體動作、表情、手勢同步采集系統(tǒng),完成多模態(tài)動作捕捉數(shù)據(jù)采集,進而再通過建立高精度語義蒸餾模型、跨模態(tài)擬人生成算法等,實現(xiàn)對文本內(nèi)容的手語播報。
“手語不同于自然語言表達,常規(guī)語速下正常人每分鐘能說出200多字,而在語音轉(zhuǎn)化到文字的過程中,需要提取核心語義。為此,團隊研發(fā)了高精度語義蒸餾模型,目的是從不同的文本中提取出有效的核心語義內(nèi)容。”北京智譜華章科技有限公司首席技術(shù)官張鵬說。
此外,在清華大學(xué)計算機科學(xué)與技術(shù)系賈珈教授團隊的技術(shù)支持下,手語播報數(shù)字人在動作擬合技術(shù)上實現(xiàn)突破,即通過采用多模態(tài)手語采集方案,實現(xiàn)動作、手勢、表情同步采集,手語播報數(shù)字人的手語表現(xiàn)力趨近于真人手語老師,手語動作更加流暢、優(yōu)美、協(xié)調(diào)。
推動無障礙溝通產(chǎn)品建設(shè)
深入體驗了手語播報數(shù)字人的專業(yè)服務(wù)后,杜銀玲對該項技術(shù)的未來充滿了期待。
“手語播報數(shù)字人將有利于推動國家通用手語標(biāo)準(zhǔn)普及,為殘疾人創(chuàng)造更多平等參與社會生活的機會。”杜銀玲說。
該系統(tǒng)上線前經(jīng)過4輪測評,200多位聽障人士和手語老師參與驗證測評,結(jié)果顯示,手語播報數(shù)字人的手語可懂度接近90%。
凌云光技術(shù)股份有限公司副總裁楊藝表示,在進行大范圍聽障群體評測基礎(chǔ)上,手語播報數(shù)字人通過在關(guān)鍵技術(shù)上取得突破,實現(xiàn)了從以前只是“比畫”一下動作,到展示面部表情和復(fù)雜手語動作體系的跨越。
“每個地方方言不同,手語表達特點不同,手語播報數(shù)字人為聽障人士提供冬奧資訊的同時,也能提供手語標(biāo)準(zhǔn)示范,在教學(xué)層面為聽障人士提供獲取知識和信息的機會。”北京電視臺新聞頻道中心副主任王毅說。
談到手語播報數(shù)字人的未來發(fā)展前景時,多位業(yè)內(nèi)人士均認為,“后冬奧時代”,這一系統(tǒng)有望被推廣至更多電視臺、網(wǎng)絡(luò)媒體,實現(xiàn)手語與語音之間的雙向轉(zhuǎn)換,讓“無聲世界”實現(xiàn)無障礙互動交流。