一区二区三区国产日韩欧美,在线观看日韩亚理伦,在线观看理论片国产,热门午夜福利视频

<optgroup id="kseau"></optgroup>

<rp id="kseau"></rp>

您當(dāng)前的位置：首頁 > 健康 > 健康資訊

1024AI+家庭論壇｜科大訊飛朱家泉：多模態(tài)融合，大屏進(jìn)入交互新時代

時間:2022-11-21 16:47:22 來源:安徽熱線

摘要：伴隨5G+AICDE技術(shù)的不斷發(fā)展，智慧家庭進(jìn)入加速發(fā)展階段，一個全新的智慧家庭時代正在來臨。在家庭數(shù)字化浪潮背景下，科大訊飛積極用AI賦能行業(yè)生態(tài)，用人工智能助力智慧家庭產(chǎn)業(yè)走

伴隨5G+AICDE技術(shù)的不斷發(fā)展，智慧家庭進(jìn)入加速發(fā)展階段，一個全新的智慧家庭時代正在來臨。在家庭數(shù)字化浪潮背景下，科大訊飛積極用AI賦能行業(yè)生態(tài)，用人工智能助力智慧家庭產(chǎn)業(yè)走向新高度。

11月19日，由科大訊飛主辦的全球1024開發(fā)者節(jié)AI+家庭論壇在合肥奧體中心成功舉辦。本次論壇以“聚力AI 智連萬家”為主題，圍繞數(shù)字時代的新形勢、新發(fā)展，現(xiàn)場嘉賓分享了智慧家庭領(lǐng)域的最新實踐與前沿思考，共話數(shù)字化家庭的未來，見證“AI+家庭”的創(chuàng)新前行之路。

會議現(xiàn)場，科大訊飛副總裁朱家泉發(fā)表了題為《多模態(tài)融合，大屏進(jìn)入交互新時代》的精彩演講。

以下是演講內(nèi)容分享：

各位現(xiàn)場的嘉賓朋友們，線上線下的合作伙伴和開發(fā)者們，大家下午好！

很高興今天又能在1024舞臺上跟大家分享，目前科大訊飛基于大屏交互的合作進(jìn)展以及取得的新成果。

機(jī)遇：大屏交互從語音邁入多模時代時機(jī)已經(jīng)成熟

首先跟大家分享一下電視大屏人機(jī)交互發(fā)展歷程。從1925年第一臺電視開始，直到1955年電視才首次出現(xiàn)紅外遙控，歷經(jīng)了大半個世紀(jì)。訊飛和長虹在2015年才在國內(nèi)首次做出智能語音遙控電視。從2015年開始，訊飛和業(yè)界很多合作伙伴一直都在致力于如何能夠提升電視大屏的人機(jī)交互體驗，我們于2018年開始跟廣科院設(shè)立聯(lián)合語音創(chuàng)新實驗室，致力于把最好的語音體驗提供給中國的電視用戶。3年前，2019年的1024大會，訊飛攜手諸多合作伙伴一起向業(yè)界推出了國內(nèi)第一個電視大屏語音操控系統(tǒng)iFLYHOME OS。截止到現(xiàn)在，我們有什么具體的新進(jìn)展呢？

首先來看一組數(shù)據(jù)，當(dāng)前訊飛和國內(nèi)的主流運營商、互聯(lián)網(wǎng)電視廠商，以及很多的智能終端合作伙伴一起攜手合作，把整個iFLYHOME OS推向了千家萬戶。截止到今年11月，在電視端累計的語音用戶數(shù)超過2.1億，日語音交互次數(shù)達(dá)到1.5億，累計語音交互次數(shù)突破600億次。正是因為合作伙伴與訊飛的共同努力推動，應(yīng)該說中國的電視大屏正式邁入了語音交互時代。

但是伴隨我們的用戶和使用次數(shù)的增長，我們也在實際的運營和訪談中發(fā)現(xiàn)，當(dāng)前的語音交互還有很大的不足。對用戶來說，從交互體驗到應(yīng)用服務(wù)，有很多個性化、特性化和多樣化的需求還達(dá)不到滿足，尤其是很多用戶覺得現(xiàn)在的人機(jī)交互不夠自然，沒有情感。另外在服務(wù)領(lǐng)域，除了影視服務(wù)之外，在教育、康養(yǎng)、健身、家庭辦公等多個領(lǐng)域的應(yīng)用服務(wù)也沒法提供。諸多的體驗和服務(wù)的不滿足，都是當(dāng)前我們在人機(jī)交互領(lǐng)域還需要進(jìn)一步提升的關(guān)鍵因素。

從市場環(huán)境來看，用戶側(cè)，一方面現(xiàn)在攝像頭、遠(yuǎn)場設(shè)備，包括正在推出來的兒童陪護(hù)機(jī)器人，還有健身鏡，基于用戶多模態(tài)的語音交互使用習(xí)慣，我們覺得已經(jīng)逐步養(yǎng)成。訊飛側(cè)，AI技術(shù)不斷成熟，從語音、視覺、認(rèn)知三大塊方向有超過100多項核心技術(shù)，已經(jīng)開始逐步應(yīng)用和研發(fā)，這種市場環(huán)境下，我們覺得中國電視大屏人機(jī)交互發(fā)展需要邁入一個新時代。

因此，今天訊飛聯(lián)合中國移動、中國電信、中國聯(lián)通、廣科院等合作伙伴，我們一起在“1024開發(fā)者節(jié)”這個重大的活動當(dāng)中，向業(yè)界發(fā)布科大訊飛iFLYHOME OS 2.0，來助力電視大屏的人機(jī)交互，從語音正式邁入多模態(tài)新時代。

3大提升：iFLYHOME OS 2.0能聽、會說、效果好

在業(yè)界，訊飛第一個將以虛擬人為媒介的強(qiáng)視覺多模態(tài)交互系統(tǒng)搬上電視大屏。它相對于傳統(tǒng)的人機(jī)交互，在能聽、會說、使用效果層面上得到了極大的提升，同時我們也把能聊、會認(rèn)、安全等更大的創(chuàng)新功能能力疊加到了iFLYHOME OS 2.0當(dāng)中，使得我們的大屏虛擬人真正能做到“能聽會說、能看會認(rèn)、能理解會思考”。

在能聽層面上它有什么樣的新的能力提升呢？

我們的2.12億用戶一直有一個問題困擾著語音提供商，那就是方言。中國有諸多的方言體系，雖然訊飛現(xiàn)在在電視端已經(jīng)支持20多種方言，但是有一個場景始終沒法滿足，電視的終端是在家庭下，不是私人終端，它是合家歡的終端，使用的場景有孩子、老人、年輕人，每個人在人機(jī)交互中的語音使用習(xí)慣不同，老年人偏向于方向，孩子偏向于用普通話。但是在業(yè)界現(xiàn)在的解決方案中，基本上都是需要用戶手動切換識別引擎，訊飛在滿足家庭多代同堂的場景下率先提出了混合識別，我們現(xiàn)在支持7種方言的免切換，使得在合家歡的場景下所有的用戶都可以用自己熟悉的語言習(xí)慣，和我們的電視進(jìn)行人機(jī)交互。

另一個大幅度的能力提升是降噪，一旦把遠(yuǎn)場識別功能加入了，在客廳環(huán)境下它有很多復(fù)雜的噪聲，包括電視機(jī)聲音、廚房聲音以及家里電器的聲音，有人說一用掃地機(jī)器人，語音識別就不行了，因為它太吵了。訊飛使用最新的多模降噪技術(shù)，把多模態(tài)的語音進(jìn)行合理分離，充分解決了在客廳場景下這種復(fù)雜噪音的問題，較傳統(tǒng)的降噪有50%的效果提升，94%的平均準(zhǔn)確率，使得我們遠(yuǎn)場交互真正在家庭場景下能夠得到使用，使得家庭使用更舒心。

讓設(shè)備能聽得清，也要讓它能夠很好地表達(dá)出來，語音合成是我們當(dāng)前在電視人機(jī)交互中很多用戶不滿意的核心問題之一。他們一直跟我反饋，說我們現(xiàn)在的語音合成太機(jī)械化，太呆板，沒有情感。因此我們在2.0的版本中采用訊飛最先進(jìn)的極致擬人合成能力，在昨天的發(fā)布會中已經(jīng)提出來了，我們讓虛擬人的交互更有情感，它到底是什么樣的體驗?zāi)?，我們先看一個小視頻。

這是基于現(xiàn)在實際的系統(tǒng)做的模擬，我想問一下現(xiàn)場的嘉賓，你們能聽出來哪些是合成、那些是人聲嗎？其實我也不知道，我們的產(chǎn)品經(jīng)理把實際發(fā)音人和系統(tǒng)合成音做了混合對話設(shè)計，他把它藏在了里面。

可以說我們極致虛擬人的語音合成，讓虛擬人交互更有情感，它還有10+其他年齡、性別、場景發(fā)音人增加到電視大屏當(dāng)中去。

設(shè)備能聽會說，不代表它能懂，我們覺得如何讓用戶有更好的體驗，我們在2019年聯(lián)合杭研、福建移動在行業(yè)首發(fā)了一套基于大屏的人機(jī)交互評價體系和標(biāo)準(zhǔn)，我們叫“懂有暢快暖”用戶體驗體系。這個體系一提出，得到了很多行業(yè)人士的認(rèn)可，端到端的交互成功率從86%提升到91.8%，讓端到端的服務(wù)體驗更加完善。

3大創(chuàng)新：iFLYHOME OS 2.0能聊、會認(rèn)、更安全

除了三大能力提升之外，還基于諸多場景做了核心的功能創(chuàng)新，有代表性的主要有三個：

第一個“能聊”。我們在做用戶訪談時，他們說現(xiàn)在的人機(jī)交互是簡單的任務(wù)性、指令性交互，就是一問一答，我想看中央一套，我們幫他放中央一套；我想看劉德華的電影，我們就幫他放劉德華的電影，但是一旦跳出任務(wù)指令，AI就顯得非常傻。

所以在新一代的人機(jī)交互當(dāng)中，把訊飛最先進(jìn)的情感型對話納入了2.0系統(tǒng)，它可以通過機(jī)器人的多情緒識別表達(dá)，讓現(xiàn)在的虛擬人具備實時新聞熱點能力，具備文學(xué)、歷史知識，也具備政治、軍事知識，可以跟大屏前的用戶做多場景下的復(fù)雜對話。而且這個功能有一個非常大的拓展，人一旦和虛擬人建立了信任、情感之后，我們就可以基于這種情感式的對話，挖掘更多的基于用戶在內(nèi)容上的個性化、場景化的服務(wù)推薦和需求，這項功能也會開放給所有的運營商、服務(wù)合作伙伴。

第二個“會認(rèn)”。從傳統(tǒng)的語音和現(xiàn)在的圖像、視頻識別相結(jié)合，剛才何總在做元宇宙介紹的時候也多次強(qiáng)調(diào)，這是我們多模態(tài)識別核心?，F(xiàn)在的電視大屏正是因為攝像頭和機(jī)頂盒、電視業(yè)務(wù)相結(jié)合，使得我們面向多人場景下的圖像、聲音多模態(tài)融合識別技術(shù)有了更多廣泛的應(yīng)用場景。現(xiàn)在在家庭看電視的情況下，可能有多個角色，但是這多個角色都可以跟我們電視進(jìn)行人機(jī)交互。如果只是傳統(tǒng)的語音識別，我們很難做到清晰的聲音定位和遠(yuǎn)場角色識別。有了圖像之后，可以把聲音和人臉識別檢測結(jié)合，還有主論壇發(fā)布的唇形識別相結(jié)合，使得我們的語音識別指令能夠更加清晰定位到用戶，讓遠(yuǎn)場的交互更加清晰、更精準(zhǔn)。

第三個“更安全”。電視業(yè)務(wù)運營商和服務(wù)提供商都知道，對于電視大屏內(nèi)容安全是我們做電視業(yè)務(wù)從業(yè)者非常關(guān)注的。訊飛基于當(dāng)前整個聲音+文字的監(jiān)控技術(shù)，基于語義的敏感內(nèi)容識別，我們和廣科院有非常深的研討，使得我們現(xiàn)在基于電視大屏語音轉(zhuǎn)文字的能力可以在新的2.0產(chǎn)品中隆重上線。它為我們在電視大屏端創(chuàng)造出更多的應(yīng)用場景，包括很多合作伙伴說的怎么樣才能把大屏的輕社交屬性做好，能不能上彈幕的功能，還有用戶反饋說運營商有一些很老、很早的視頻，這些視頻內(nèi)容沒有字幕，能不能把訊飛的字幕轉(zhuǎn)寫，把聽見轉(zhuǎn)寫能力加上去，因此我們在iFLYHOME OS 2.0當(dāng)中把整個的轉(zhuǎn)寫、翻譯能力也實時提供給應(yīng)用的合作伙伴，使得我們真的在大屏社交方向上，可以在電視大屏上做新的應(yīng)用探索。

剛才我把基于iFLYHOME OS的三大能力提升和三大功能給大家做了簡單的介紹。

大家一直說“耳聽為虛，眼見為實”，那么它真實的效果怎么樣呢，我們的小伙伴做了一個視頻，請看大屏幕。這是我們做的一些簡單的功能視頻模擬，展覽館的科技館、生活館都有對應(yīng)的展區(qū)，也歡迎我們的合作伙伴們、開發(fā)者們到展廳現(xiàn)場體驗我們最新的基于電視大屏的人機(jī)交互系統(tǒng)，也歡迎大家能給我們提出更多的寶貴性的改進(jìn)意見。

所有2.0的功能也面向全行業(yè)做全能力的逐步開放，包括給合作伙伴有標(biāo)準(zhǔn)化的虛擬人快速定制系統(tǒng)，還有面向多領(lǐng)域的垂直方向上的能力下沉，包括剛才講的大屏輕社交、大屏康養(yǎng)、大屏政務(wù)、大屏教育等多個領(lǐng)域，都可以做到很好的語音語義、多模態(tài)識別支持。同時針對合作伙伴，也把整個接口進(jìn)行了標(biāo)準(zhǔn)化的對接，使得我們的各項開發(fā)工作可以更加高速、高效、快捷。

未來我們會持續(xù)地把很多多模態(tài)的最新技術(shù)與現(xiàn)在的iFLYHOME OS 2.0系統(tǒng)相結(jié)合，提供給諸多的產(chǎn)品、應(yīng)用、合作伙伴，包括情緒感知、體感識別、表情識別、遠(yuǎn)場手勢識別能力，會陸續(xù)的在我們的系統(tǒng)當(dāng)中定期發(fā)布。

舉一個簡單的場景——遠(yuǎn)場手勢識別。上半年，有一個合作伙伴是做棋牌的，他很想把現(xiàn)在很火的象棋、圍棋搬到電視大屏上，怎么都找不到解決方案，為什么呢？不管是用遙控按鍵，還是語音，都沒有辦法解決在電視大屏場景下去下棋這個核心場景。我們用遠(yuǎn)場手勢識別，讓爸爸、爺爺坐在沙發(fā)上，用兩個簡單的動作，一拿，一放，就能解決在電視大屏當(dāng)中的棋牌場景落地。我堅信我們把諸多的新技術(shù)放到多模態(tài)解決方案中，會給未來大屏端的應(yīng)用和服務(wù)帶來更多的創(chuàng)新以及更大的廣闊的發(fā)展空間。

就像董事長昨天說的，因為看見，所以堅信，我們認(rèn)為大屏的未來已來，科大訊飛會堅持用AI賦能，與我們的合作伙伴一起攜手，共同邁入大屏人機(jī)交互2.0新時代。

謝謝大家！

返回首頁返回欄目

關(guān)鍵詞閱讀：

新聞熱點

熱圖推薦

頻道推薦