咨詢電話
021-80392549
幾年前,和機(jī)器人聊天,我們要忍受它們的‘詞不達(dá)意’,現(xiàn)在的技術(shù)不僅讓你懂它,還讓機(jī)器人讀懂你的猶豫、焦急甚至拒絕。”5月6日,中國(guó)AI最高獎(jiǎng)“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”頒獎(jiǎng),獲得吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)杰出貢獻(xiàn)獎(jiǎng)的京東集團(tuán)副總裁、京東科技智能服務(wù)與產(chǎn)品部負(fù)責(zé)人何曉冬博士告訴科技日?qǐng)?bào)記者,憑借技術(shù)創(chuàng)新,AI已經(jīng)可以表現(xiàn)出情緒識(shí)別和情感配合的能力。
率先提出關(guān)鍵模型框架,讓機(jī)器人會(huì)“捧哏”
“我們一直努力讓機(jī)器人有‘捧哏’的天分。”何曉冬說,“基于我們?cè)诎ǜ弑憩F(xiàn)力的對(duì)話生成、在復(fù)雜場(chǎng)景下進(jìn)行對(duì)話決策等方面的研究創(chuàng)新點(diǎn),獲獎(jiǎng)項(xiàng)目讓機(jī)器人在等待、接續(xù)的時(shí)機(jī)、說話內(nèi)容的選擇等方面都達(dá)到了令人類滿意的程度。”
“過去的技術(shù)是給機(jī)器人規(guī)定一個(gè)時(shí)間,比如無(wú)聲期超過0.5秒了,就要接話。”何曉冬說,任務(wù)型對(duì)話是以解決真實(shí)世界復(fù)雜任務(wù)為目的的,對(duì)話中的人也需要猶豫、判斷,此前的對(duì)話技術(shù)往往出現(xiàn)人還在思考,AI就急著插話的情況。
“我們提出了一個(gè)多模態(tài)的話語(yǔ)決策模型,在評(píng)價(jià)語(yǔ)音信號(hào)時(shí),不僅考量停頓時(shí)間,更重要是計(jì)算評(píng)估語(yǔ)義完整度、語(yǔ)氣、助詞等等,通過多模態(tài)信號(hào)的綜合作出動(dòng)態(tài)決策。”何曉冬解釋,這個(gè)模型可以讓AI來(lái)判斷對(duì)話者是說完了還是在思考。
“會(huì)傾聽”是人類重要的交流能力之一。京東云言犀實(shí)現(xiàn)了對(duì)機(jī)器人“傾聽”能力的塑造。在語(yǔ)音合成時(shí)給予多維度的信息,在建模時(shí)讓機(jī)器人掌握篇章、句子、字詞,多輪對(duì)話時(shí)精確捕捉用戶意圖流暢對(duì)答等,這些新探索讓京東云團(tuán)隊(duì)?wèi){“任務(wù)型智能對(duì)話交互關(guān)鍵技術(shù)及大規(guī)模產(chǎn)業(yè)應(yīng)用”,獲得吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)科技進(jìn)步獎(jiǎng)。
更為可貴的是,這是一次從源頭發(fā)起的創(chuàng)新——
在谷歌學(xué)術(shù)搜索中排名前20名的論文中只有一篇與多模態(tài)決策模型相關(guān)的論文,就是出自何曉冬及其團(tuán)隊(duì)。“2018年,我們首次發(fā)表論文研討多模態(tài)問題的基礎(chǔ)框架構(gòu)建,并依托京東的業(yè)務(wù)實(shí)踐提出很多自上而下和自下而上結(jié)合的新觀點(diǎn)。”何曉冬說,該篇論文近幾年被反復(fù)引用,已經(jīng)到達(dá)4000多次。目前仍在大量使用,表明這一多模態(tài)框架可能是當(dāng)前最有效的框架之一。
服務(wù)現(xiàn)實(shí)產(chǎn)業(yè)場(chǎng)景,做更難辨別的“人類分身”
“學(xué)術(shù)貢獻(xiàn)、在國(guó)際比賽上擊敗國(guó)內(nèi)外重要對(duì)手等成績(jī)是我們獲獎(jiǎng)的原因之一,更重要的原因是產(chǎn)業(yè)AI的大規(guī)模落地。”何曉冬坦言,實(shí)踐不僅能創(chuàng)造價(jià)值,還是技術(shù)的“試金石”,且不斷反哺研究人員完善理論。
“AI為一座城市短時(shí)間撥出了2600萬(wàn)通電話,以了解居民的健康情況。”何曉冬說,如果沒有AI,至少需要1萬(wàn)名社區(qū)人員不停地打好幾個(gè)月。
在北京、大同、蕪湖等地,任務(wù)型智能對(duì)話交互關(guān)鍵技術(shù)正在為政府更好地進(jìn)行政務(wù)管理與服務(wù)發(fā)揮了實(shí)效。AI不僅可以高效率撥打,節(jié)約了大量的人力、時(shí)間成本,還可以同時(shí)自動(dòng)錄入數(shù)據(jù),做好分析,預(yù)判潛在問題。
京東云的言犀平臺(tái)率先將獲獎(jiǎng)技術(shù)應(yīng)用于客戶服務(wù)中,囊括了4層知識(shí)體系、40多個(gè)獨(dú)立子系統(tǒng)、3000多個(gè)意圖以及3000萬(wàn)個(gè)高質(zhì)量問答知識(shí)點(diǎn),覆蓋超過1000萬(wàn)種自營(yíng)商品的電商知識(shí)圖譜,在為用戶提供服務(wù)時(shí)不僅能解決用戶需求,還能考慮用戶情緒、運(yùn)用對(duì)話技術(shù),提供可用、可控、可信的智能對(duì)話體驗(yàn)。
除了語(yǔ)言的呈現(xiàn),團(tuán)隊(duì)還在畫面、形象、儀態(tài)等方面實(shí)現(xiàn)惟妙惟肖的呈現(xiàn)。“數(shù)字人等3D人像的應(yīng)用目前很多。”何曉冬說,“我們的優(yōu)勢(shì)不僅在于更像,也在于其從理論和方法上進(jìn)一步降低了技術(shù)復(fù)雜度,降低了產(chǎn)業(yè)應(yīng)用的門檻,和企業(yè)的投入產(chǎn)出比。”
未來(lái),人工智能大模型技術(shù)或在短期內(nèi)將虛擬數(shù)字人的交互能力大幅提高,結(jié)合對(duì)話式AI、生成AI等技術(shù),很多新業(yè)態(tài)將帶來(lái)更多全新應(yīng)用場(chǎng)景,難以辨別的“人類分身”正在其中。