咨詢電話
021-80392549
感知和推理一直是人類特有的天賦,從孩童開始,人類就開始學習并逐漸學會了排除推理(Reasoning by elimination)的方法。而人工智能如果能夠做到這一點,必然將會助推機器人等產業實現更大的飛躍。
英偉達(NVIDIA)研究人員于去年12月在 NeurIPS 上發表20篇研究最新進展的論文,解釋了最新的人工智能和圖形圖像理解技術。
英偉達一直走在人工智能創新的最前沿,不斷突破著機器學習、自動駕駛汽車、機器人、圖形等領域的技術界限,這次他們的研究理論同樣非常有意思。
▍為什么要做陌生環境推理?
在本次的論文中,英偉達介紹了嘗試進行的一系列排除推理學習研究,包括如何從零樣本中進行排除推理學習,以及識別已知環境的不同新組合。他們將Franka機器人作為研究載體,將理論研究成果在機器人上快速實現了實驗和初步驗證。
從視頻中可以看到,這個叫做Gemini的機器人,能夠通過與人對話,理解人類的選擇意圖,并最終從有多個物體的復雜環境中做出正確的抓取選擇,也可以根據所處環境的位置來區分物體并進行動作。
這并不是一件很容易的事情,因為人類對復雜場景的理解能力遠遠超出了機器人自上而下的3D感知方式。例如人類過一條沒有指示燈的馬路,就可以根據車流、馬路情況,去選擇合適的時間避開車輛成功過馬路,但機器人很難做到。
英偉達的研究人員發現,這是因為當人類在不確定的自然場景中進行思考和動作時,會先根據看到的場景和人,預判場景中各類事物的邏輯關系,同時預測物體和人的移動軌跡,甚至可以推斷他們動作的原因,從而才能完成對于場景的確定性排除推理,得到最正確的答案。
英偉達希望通過機器學習和人工智能結合的方法,嘗試解析并實現這種對于空間的立體感知和選擇能力。為此,他們不僅讓機器人結合了機器視覺,嘗試利用2D畫面來檢測、跟蹤、推斷3D姿勢并重建完整的 3D場景,還開發了一種允許人工智能通過自主學習推理環境變量的算法。
這個算法建立在例如英偉達的Riva等以語言交互為基礎的加速的對話式AI應用框架上。
Riva這個框架是英偉達于2020年5月發布并對外推出的一個GPU加速應用框架,該框架可以使企業能夠根據自身所處行業、產品和客戶的特點,使用視頻和語音數據構建最為先進的定制化對話式AI服務。
隨著居家辦公、遠程醫療和遠程學習的快速興起,對于能夠支持實時轉錄、視頻通話摘要等定制化語言型AI服務的需求也隨之激增。而英偉達的Riva則還可以用在更廣泛的方面,例如配合視覺提高機器人的環境推理能力。
在視頻中,搭載Riva的Franka機器人根據需求語音發現場景下面臨多個選擇時,會再次提出問題,從而縮小選擇范圍,正確判斷和推理排除不確定因素,最后調整位姿完成動作。
當然,要想更加輕易實現對物體的感知、視覺推理和對話式AI,首先需要一個很好的機器人開發硬件平臺,英偉達的Gemini則依然是附加了FCI (Franka Control Interface)控制接口的Franka Emika探索版機器人,并在此基礎上集成了一個具備AI對話和視覺推理的系統。
▍排除推理學習的新方法
在開源版Franka機器人(Researchversion)的基礎上,英偉達發現,物體要素特征剝離是機器人能夠順利完成自主推理的關鍵,這對于機器人能否進入更廣泛的環境中至關重要。尤其是如何讓機器人在沒有采取大量訓練的情況下,在陌生環境中對不熟悉的對象進行推理,或者是在熟悉與不熟悉對象混合的開放世界場景中進行工作。
傳統機器學習模型主要被訓練來執行歸納推理:從訓練的示例中概括歸納規則。但在英偉達的這項研究工作中,研究人員其實采取了一種排除推理的方法。即機器人收到并理解語音轉成的文本指令進行類似輪廓物品的推理,例如“選擇青色的燈泡和棕色的鑰匙”(圖 1),這其中就包含熟悉的概念和不熟悉的概念。
在英偉達的這個學習框架中,Franka機器人結合了感知模塊與包含內部記憶的推理模塊,通過強化學習構建推理策略,通過考慮所有可行性,實現對于即使從未見過的對象或概念,也可以做出正確的推理判斷。此外,它還能使用單樣本學習(one-shot learning)的方式將新概念添加到其已知概念集中,從而可以識別更多新概念。
此外,英偉達在Franka Emika探索版機器人的基礎上,還展示了如何使用強化學習訓練進行RBE推理,機器人能使用它來學習新概念,并將其新知識應用于推理其他新概念上。
他們在一組新的環境中對這種方法進行了評估,例如能夠使用機器人上的視覺硬件讀取相同盒子上的標簽信息以確定內容,得益于此,靈活的Franka機器人從一堆隨機分布的物體中,選取出了正確的物體,同時調整了關節位置和速度,并選擇以最佳軌跡抓取和移動物體將它遞給指定對象。
結果表明,Franka機器人成功地通過排除推理學習的方式,還可以學習新的概念并將其用于進一步的推理。這種方法通過擴展豐富的有監督學習方法和能夠處理新概念的理性框架,為隨機應變處理開放世界環境鋪平了道路。
▍零樣本識別組合推理
Franka穩定的開源版機器人(Research version)硬件平臺和靈敏的力控制使得英偉達在進行更深層次、更具創新性的一些研究試驗時同樣能夠更容易獲得成功。
組合推理一直被認為是人類智能的標志,也是目前人工智能系統目前面臨的一個基本限制。舉個簡單的例子,即使人們從未見過紫色花椰菜,也可以根據他們對花椰菜和其他紫色物體的熟悉程度來識別。盡管多特征組合性是深度學習網絡的關鍵設計因素,但不幸的是,因為新標簽通常建立在與類標簽相關的特征上,當前的深度學習模型難以推廣到新標簽多次組合的情況。
在這些實驗中,英偉達通過一些方式,解決了零樣本組合的機器識別問題,同時英偉達嘗試在簡單的隨機性場景中,讓Franka機器人通過遵循簡短的語言指令,通過排除推理的方式完成對某些事物的判斷和選擇。
零樣本隨機性組合是機器學習識別已知屬性對象進行組合后產生的新問題,這種組合泛化能力對于視覺和語言等現實領域的學習至關重要,此類場景在無人駕駛中會遇到非常多。
例如,行駛中的汽車就因為視覺場景重疊組合會面臨很高的空間復雜度問題,這個復雜度會隨著物體數量及其屬性的增加呈指數增長。因此目前沒有一個無人駕駛的方案能夠覆蓋所有場景下的組合子集,從而精準來識別各類場景分布下的長尾問題。
這種多事物泛化組合的情況也出現在很多AI領域的問題中出現,例如文本理解、語音語義理解和控制。
不僅如此,按照傳統方法從數據中訓練出來的模型往往會因組合泛化而失敗,原因有兩個:分布偏移和糾纏(distribution-shift and entanglement)。
因為識別新組合是分布偏移的一種極端情況,想要識別在訓練中從未觀察到或者出現過的標簽組合(零樣本學習)非常難。在以往的訓練期間,模型需要學習多標簽相關性,但這會在實際測試中因為多標簽的負責聯系損害人工智能的推理性。
同時,因為訓練樣本本身通常以組合方式標記,因此將它們的“基本”特征與示例分離通常會造成更多難以明確定義的問題。例如這會導致對新分布的樣本分類錯誤和混淆,導致學習系統很難進行組合泛化。
英偉達嘗試使用了因果框架(causal framework)解決這兩個挑戰,并提出了一個基于因果關系的嵌入模型,置入該模型的Franka機器人能從相關(混淆)數據中分離視覺對象的訓練數據,并將預測屬性和對象重新組合,實現更高顆粒度的真實數據集。
▍結語
人們可以從語言或演繹推理提供的信息中,無需任何樣本而學習到新的視覺概念,這將有助于機器人在對于文本的上下文理解中占據更強的優勢,例如,機器人可以使用推理排除法從上下文中推斷出某些文字和特殊語句的含義。
可以預見,在未來基于視覺觸覺的推理學習和對話式人工智能將使機器人技術取得更大進步,但在此之前,如何解決復雜環境下的特征抓取和少樣本情況問題,仍然需要更多人進行研究和探索。