伴隨5G+AICDE技術(shù)的不斷發(fā)展,智慧家庭進(jìn)入加速發(fā)展階段,一個全新的智慧家庭時代正在來臨。在家庭數(shù)字化浪潮背景下,科大訊飛積極用AI賦能行業(yè)生態(tài),用人工智能助力智慧家庭產(chǎn)業(yè)走向新高度。
11月19日,由科大訊飛主辦的全球1024開發(fā)者節(jié)AI+家庭論壇在合肥奧體中心成功舉辦。本次論壇以“聚力AI 智連萬家”為主題,圍繞數(shù)字時代的新形勢、新發(fā)展,現(xiàn)場嘉賓分享了智慧家庭領(lǐng)域的最新實踐與前沿思考,共話數(shù)字化家庭的未來,見證“AI+家庭”的創(chuàng)新前行之路。
會議現(xiàn)場,科大訊飛副總裁朱家泉發(fā)表了題為《多模態(tài)融合,大屏進(jìn)入交互新時代》的精彩演講。
以下是演講內(nèi)容分享:
各位現(xiàn)場的嘉賓朋友們,線上線下的合作伙伴和開發(fā)者們,大家下午好!
很高興今天又能在1024舞臺上跟大家分享,目前科大訊飛基于大屏交互的合作進(jìn)展以及取得的新成果。
機(jī)遇:大屏交互從語音邁入多模時代時機(jī)已經(jīng)成熟
首先跟大家分享一下電視大屏人機(jī)交互發(fā)展歷程。從1925年第一臺電視開始,直到1955年電視才首次出現(xiàn)紅外遙控,歷經(jīng)了大半個世紀(jì)。訊飛和長虹在2015年才在國內(nèi)首次做出智能語音遙控電視。從2015年開始,訊飛和業(yè)界很多合作伙伴一直都在致力于如何能夠提升電視大屏的人機(jī)交互體驗,我們于2018年開始跟廣科院設(shè)立聯(lián)合語音創(chuàng)新實驗室,致力于把最好的語音體驗提供給中國的電視用戶。3年前,2019年的1024大會,訊飛攜手諸多合作伙伴一起向業(yè)界推出了國內(nèi)第一個電視大屏語音操控系統(tǒng)iFLYHOME OS。截止到現(xiàn)在,我們有什么具體的新進(jìn)展呢?
首先來看一組數(shù)據(jù),當(dāng)前訊飛和國內(nèi)的主流運營商、互聯(lián)網(wǎng)電視廠商,以及很多的智能終端合作伙伴一起攜手合作,把整個iFLYHOME OS推向了千家萬戶。截止到今年11月,在電視端累計的語音用戶數(shù)超過2.1億,日語音交互次數(shù)達(dá)到1.5億,累計語音交互次數(shù)突破600億次。正是因為合作伙伴與訊飛的共同努力推動,應(yīng)該說中國的電視大屏正式邁入了語音交互時代。
但是伴隨我們的用戶和使用次數(shù)的增長,我們也在實際的運營和訪談中發(fā)現(xiàn),當(dāng)前的語音交互還有很大的不足。對用戶來說,從交互體驗到應(yīng)用服務(wù),有很多個性化、特性化和多樣化的需求還達(dá)不到滿足,尤其是很多用戶覺得現(xiàn)在的人機(jī)交互不夠自然,沒有情感。另外在服務(wù)領(lǐng)域,除了影視服務(wù)之外,在教育、康養(yǎng)、健身、家庭辦公等多個領(lǐng)域的應(yīng)用服務(wù)也沒法提供。諸多的體驗和服務(wù)的不滿足,都是當(dāng)前我們在人機(jī)交互領(lǐng)域還需要進(jìn)一步提升的關(guān)鍵因素。
從市場環(huán)境來看,用戶側(cè),一方面現(xiàn)在攝像頭、遠(yuǎn)場設(shè)備,包括正在推出來的兒童陪護(hù)機(jī)器人,還有健身鏡,基于用戶多模態(tài)的語音交互使用習(xí)慣,我們覺得已經(jīng)逐步養(yǎng)成。訊飛側(cè),AI技術(shù)不斷成熟,從語音、視覺、認(rèn)知三大塊方向有超過100多項核心技術(shù),已經(jīng)開始逐步應(yīng)用和研發(fā),這種市場環(huán)境下,我們覺得中國電視大屏人機(jī)交互發(fā)展需要邁入一個新時代。
因此,今天訊飛聯(lián)合中國移動、中國電信、中國聯(lián)通、廣科院等合作伙伴,我們一起在“1024開發(fā)者節(jié)”這個重大的活動當(dāng)中,向業(yè)界發(fā)布科大訊飛iFLYHOME OS 2.0,來助力電視大屏的人機(jī)交互,從語音正式邁入多模態(tài)新時代。
3大提升:iFLYHOME OS 2.0能聽、會說、效果好
在業(yè)界,訊飛第一個將以虛擬人為媒介的強(qiáng)視覺多模態(tài)交互系統(tǒng)搬上電視大屏。它相對于傳統(tǒng)的人機(jī)交互,在能聽、會說、使用效果層面上得到了極大的提升,同時我們也把能聊、會認(rèn)、安全等更大的創(chuàng)新功能能力疊加到了iFLYHOME OS 2.0當(dāng)中,使得我們的大屏虛擬人真正能做到“能聽會說、能看會認(rèn)、能理解會思考”。
在能聽層面上它有什么樣的新的能力提升呢?
我們的2.12億用戶一直有一個問題困擾著語音提供商,那就是方言。中國有諸多的方言體系,雖然訊飛現(xiàn)在在電視端已經(jīng)支持20多種方言,但是有一個場景始終沒法滿足,電視的終端是在家庭下,不是私人終端,它是合家歡的終端,使用的場景有孩子、老人、年輕人,每個人在人機(jī)交互中的語音使用習(xí)慣不同,老年人偏向于方向,孩子偏向于用普通話。但是在業(yè)界現(xiàn)在的解決方案中,基本上都是需要用戶手動切換識別引擎,訊飛在滿足家庭多代同堂的場景下率先提出了混合識別,我們現(xiàn)在支持7種方言的免切換,使得在合家歡的場景下所有的用戶都可以用自己熟悉的語言習(xí)慣,和我們的電視進(jìn)行人機(jī)交互。
另一個大幅度的能力提升是降噪,一旦把遠(yuǎn)場識別功能加入了,在客廳環(huán)境下它有很多復(fù)雜的噪聲,包括電視機(jī)聲音、廚房聲音以及家里電器的聲音,有人說一用掃地機(jī)器人,語音識別就不行了,因為它太吵了。訊飛使用最新的多模降噪技術(shù),把多模態(tài)的語音進(jìn)行合理分離,充分解決了在客廳場景下這種復(fù)雜噪音的問題,較傳統(tǒng)的降噪有50%的效果提升,94%的平均準(zhǔn)確率,使得我們遠(yuǎn)場交互真正在家庭場景下能夠得到使用,使得家庭使用更舒心。
讓設(shè)備能聽得清,也要讓它能夠很好地表達(dá)出來,語音合成是我們當(dāng)前在電視人機(jī)交互中很多用戶不滿意的核心問題之一。他們一直跟我反饋,說我們現(xiàn)在的語音合成太機(jī)械化,太呆板,沒有情感。因此我們在2.0的版本中采用訊飛最先進(jìn)的極致擬人合成能力,在昨天的發(fā)布會中已經(jīng)提出來了,我們讓虛擬人的交互更有情感,它到底是什么樣的體驗?zāi)?,我們先看一個小視頻。
這是基于現(xiàn)在實際的系統(tǒng)做的模擬,我想問一下現(xiàn)場的嘉賓,你們能聽出來哪些是合成、那些是人聲嗎?其實我也不知道,我們的產(chǎn)品經(jīng)理把實際發(fā)音人和系統(tǒng)合成音做了混合對話設(shè)計,他把它藏在了里面。
可以說我們極致虛擬人的語音合成,讓虛擬人交互更有情感,它還有10+其他年齡、性別、場景發(fā)音人增加到電視大屏當(dāng)中去。
設(shè)備能聽會說,不代表它能懂,我們覺得如何讓用戶有更好的體驗,我們在2019年聯(lián)合杭研、福建移動在行業(yè)首發(fā)了一套基于大屏的人機(jī)交互評價體系和標(biāo)準(zhǔn),我們叫“懂有暢快暖”用戶體驗體系。這個體系一提出,得到了很多行業(yè)人士的認(rèn)可,端到端的交互成功率從86%提升到91.8%,讓端到端的服務(wù)體驗更加完善。
3大創(chuàng)新:iFLYHOME OS 2.0能聊、會認(rèn)、更安全
除了三大能力提升之外,還基于諸多場景做了核心的功能創(chuàng)新,有代表性的主要有三個:
第一個“能聊”。我們在做用戶訪談時,他們說現(xiàn)在的人機(jī)交互是簡單的任務(wù)性、指令性交互,就是一問一答,我想看中央一套,我們幫他放中央一套;我想看劉德華的電影,我們就幫他放劉德華的電影,但是一旦跳出任務(wù)指令,AI就顯得非常傻。
所以在新一代的人機(jī)交互當(dāng)中,把訊飛最先進(jìn)的情感型對話納入了2.0系統(tǒng),它可以通過機(jī)器人的多情緒識別表達(dá),讓現(xiàn)在的虛擬人具備實時新聞熱點能力,具備文學(xué)、歷史知識,也具備政治、軍事知識,可以跟大屏前的用戶做多場景下的復(fù)雜對話。而且這個功能有一個非常大的拓展,人一旦和虛擬人建立了信任、情感之后,我們就可以基于這種情感式的對話,挖掘更多的基于用戶在內(nèi)容上的個性化、場景化的服務(wù)推薦和需求,這項功能也會開放給所有的運營商、服務(wù)合作伙伴。
第二個“會認(rèn)”。從傳統(tǒng)的語音和現(xiàn)在的圖像、視頻識別相結(jié)合,剛才何總在做元宇宙介紹的時候也多次強(qiáng)調(diào),這是我們多模態(tài)識別核心?,F(xiàn)在的電視大屏正是因為攝像頭和機(jī)頂盒、電視業(yè)務(wù)相結(jié)合,使得我們面向多人場景下的圖像、聲音多模態(tài)融合識別技術(shù)有了更多廣泛的應(yīng)用場景。現(xiàn)在在家庭看電視的情況下,可能有多個角色,但是這多個角色都可以跟我們電視進(jìn)行人機(jī)交互。如果只是傳統(tǒng)的語音識別,我們很難做到清晰的聲音定位和遠(yuǎn)場角色識別。有了圖像之后,可以把聲音和人臉識別檢測結(jié)合,還有主論壇發(fā)布的唇形識別相結(jié)合,使得我們的語音識別指令能夠更加清晰定位到用戶,讓遠(yuǎn)場的交互更加清晰、更精準(zhǔn)。
第三個“更安全”。電視業(yè)務(wù)運營商和服務(wù)提供商都知道,對于電視大屏內(nèi)容安全是我們做電視業(yè)務(wù)從業(yè)者非常關(guān)注的。訊飛基于當(dāng)前整個聲音+文字的監(jiān)控技術(shù),基于語義的敏感內(nèi)容識別,我們和廣科院有非常深的研討,使得我們現(xiàn)在基于電視大屏語音轉(zhuǎn)文字的能力可以在新的2.0產(chǎn)品中隆重上線。它為我們在電視大屏端創(chuàng)造出更多的應(yīng)用場景,包括很多合作伙伴說的怎么樣才能把大屏的輕社交屬性做好,能不能上彈幕的功能,還有用戶反饋說運營商有一些很老、很早的視頻,這些視頻內(nèi)容沒有字幕,能不能把訊飛的字幕轉(zhuǎn)寫,把聽見轉(zhuǎn)寫能力加上去,因此我們在iFLYHOME OS 2.0當(dāng)中把整個的轉(zhuǎn)寫、翻譯能力也實時提供給應(yīng)用的合作伙伴,使得我們真的在大屏社交方向上,可以在電視大屏上做新的應(yīng)用探索。
剛才我把基于iFLYHOME OS的三大能力提升和三大功能給大家做了簡單的介紹。
大家一直說“耳聽為虛,眼見為實”,那么它真實的效果怎么樣呢,我們的小伙伴做了一個視頻,請看大屏幕。這是我們做的一些簡單的功能視頻模擬,展覽館的科技館、生活館都有對應(yīng)的展區(qū),也歡迎我們的合作伙伴們、開發(fā)者們到展廳現(xiàn)場體驗我們最新的基于電視大屏的人機(jī)交互系統(tǒng),也歡迎大家能給我們提出更多的寶貴性的改進(jìn)意見。
所有2.0的功能也面向全行業(yè)做全能力的逐步開放,包括給合作伙伴有標(biāo)準(zhǔn)化的虛擬人快速定制系統(tǒng),還有面向多領(lǐng)域的垂直方向上的能力下沉,包括剛才講的大屏輕社交、大屏康養(yǎng)、大屏政務(wù)、大屏教育等多個領(lǐng)域,都可以做到很好的語音語義、多模態(tài)識別支持。同時針對合作伙伴,也把整個接口進(jìn)行了標(biāo)準(zhǔn)化的對接,使得我們的各項開發(fā)工作可以更加高速、高效、快捷。
未來我們會持續(xù)地把很多多模態(tài)的最新技術(shù)與現(xiàn)在的iFLYHOME OS 2.0系統(tǒng)相結(jié)合,提供給諸多的產(chǎn)品、應(yīng)用、合作伙伴,包括情緒感知、體感識別、表情識別、遠(yuǎn)場手勢識別能力,會陸續(xù)的在我們的系統(tǒng)當(dāng)中定期發(fā)布。
舉一個簡單的場景——遠(yuǎn)場手勢識別。上半年,有一個合作伙伴是做棋牌的,他很想把現(xiàn)在很火的象棋、圍棋搬到電視大屏上,怎么都找不到解決方案,為什么呢?不管是用遙控按鍵,還是語音,都沒有辦法解決在電視大屏場景下去下棋這個核心場景。我們用遠(yuǎn)場手勢識別,讓爸爸、爺爺坐在沙發(fā)上,用兩個簡單的動作,一拿,一放,就能解決在電視大屏當(dāng)中的棋牌場景落地。我堅信我們把諸多的新技術(shù)放到多模態(tài)解決方案中,會給未來大屏端的應(yīng)用和服務(wù)帶來更多的創(chuàng)新以及更大的廣闊的發(fā)展空間。
就像董事長昨天說的,因為看見,所以堅信,我們認(rèn)為大屏的未來已來,科大訊飛會堅持用AI賦能,與我們的合作伙伴一起攜手,共同邁入大屏人機(jī)交互2.0新時代。
謝謝大家!