咨詢電話
021-80392549
隨著時代的發展和人工智能技術的愈加完善,智能服務機器人已越來越廣泛地應用于各行業、各領域當中,如我們隨處可見的迎賓機器人、智能講解機器人、會場機器人等,為緩解勞動力短缺和工作人員的壓力起到了重要作用。
當我們與服務機器人進行語音對話時,是否想過,它是依靠什么技術接收到我們的聲音,并給予及時、準確地回復的呢?比如說:“今天天氣怎么樣”?服務機器人馬上會說:“今天天氣晴朗,氣溫為10℃-22℃”,伴隨有4-5級的東南風……
其實,服務機器人的語音交互原理與我們人類是相似的,實現正常的互動必須滿足三個條件:用耳朵聽、用大腦理解、用嘴巴回答。服務機器人實現智能交互的“三大技術”分別為語音識別技術(ASR),相當于它的“耳朵”;自然語言處理技術(NLP),相當于它的“大腦”;語音合成技術(TTS),相當于它的“嘴巴”。
當我們提出問題后,智能服務機器人將通過麥克風接收聲音,聲音將通過語音識別技術(ASR),把聲學語音轉換為服務機器人能夠識別的文字、字母信息。如上圖所示,在寧夏博物館嘈雜的環境中,小笨智能服務機器人可通過語音識別技術(ASR)準確“傾聽”游客聲音,并轉換為其能夠識別的語言,為下一步對語義的分析、理解做準備。
小笨智能服務機器人語音識別技術(ASR)采用國際先進算法,通過編碼,把語音轉換為小笨智能服務機器人可以識別的樣式(即數字向量表示),因為聲音信號是服務機器人沒有辦法直接識別的,需要將聲音切割成一小段一小段音頻,然后每一小段都按一定規則的數字向量來表示。
然后就是解碼的過程,即將數字向量拼接為文字、字母的過程。將編碼好的向量放置于聲學模型和語言模型中,就可得到每一小段對應的文字、字母,然后把翻譯出來的文字、字母再經過語言模型,就可組成小笨可識別的單詞。
當然,聲學模型和語言模型也是個神經網絡,是小笨智能服務機器人通過大量的語音和語言數據訓練出來的,這也是小笨智能服務機器人可以準確識別各種復雜語音的原因之一……
解碼完成后,可識別的單詞信息將通過服務機器人的自然語言處理技術(NLP)來準確理解客戶意圖、情感傾向等信息,此為語音交互中的核心之一,也是最難的模塊之一。
自然語言處理技術(NLP)通過語法分析、句法分析、語義理解文本相似度處理、情感傾向分析等技術,具備衡量人們觀點和傾向的能力,可精準區分出哪些話屬于這個意圖,哪些表達不是這一類意圖。小笨智能自主研發的自然語言處理技術(NLP)可將接收到的信息進行分析、理解,上圖為小笨智能服務機器人在濟南能源集團辦事大廳,前來辦理業務的群眾只需要說出需求,即可準確理解群眾意圖,并從“5G云端大腦”中提取出相對應答案,發出準確的回復指令。
小笨智能服務機器人“5G云端大腦”儲存著海量知識庫,可支持生活常識、天氣、機票等信息查詢,并同步企業各類形式的信息,使企業信息通過語音、視頻、動圖等形式展現出來,滿足訪客98%以上的日常閑聊或企業業務問答。
當服務機器人發出回復指令后,還需要用“嘴巴”說出來,這就需要使用語音合成技術(TTS),即把回復指令轉換為人類能夠聽懂的聲音。如下圖,在濟南長途汽車總站小笨智能服務機器人“理解”完游客的問題后,于“5G云端大腦”中提取出準確的回復指令,并轉換為游客能夠理解的語音、視頻、圖片等形式,讓游客輕松掌握出行信息。
語音合成技術(TTS)的工作流程可分為兩步,第一步為文本處理,這一步做的事情是把文字或字母指令轉化成音素序列,并標出每個音素的起止時間、頻率變化等信息,這一步的作用不可小覷,比如拼寫相同但讀音不同的詞的區分、縮寫的處理、停頓位置的確定等。
第二步為語音合成,這一步是指根據已經標注好的音素起止時間、頻率變化等生成語音,最終通過揚聲器準確表達出來。
小笨智能語音合成技術(TTS)技術可對文本實現實時轉換,轉換時間可以按秒計算,文本輸出的語音音律流暢,讓聽者在聽取信息時感覺自然,幾乎沒有機器語音輸出的冷漠與生澀感。
小笨智能強大的自然語言處理能力,可滿足在不同應用場景中高效、準確服務,針對不同的應用場景,同步不同的樣本數據,所以,小笨智能已服務過的6000+客戶中,覆蓋政務大廳、法院、商場、機場等全行業場景,滿足了不同企業的差異化需求。
從語音識別到智能問答,從意圖識別到情感分析,無不顯示小笨智能服務機器人在當代對場景深層次服務的執著追求。未來,小笨智能將繼續堅持為企業、為社會提供有價值的見解,使傳統行業煥發新生力,讓我們的生活更方便、更高效。