咨詢電話
021-80392549
借助 WHIRL,機器人學會了如何完成 20 多項任務——從打開和關閉電器、櫥柜門和抽屜,到蓋上鍋蓋、推入椅子,甚至從垃圾箱中取出垃圾袋。
導語:一個新機器人系統(tǒng)Shikhar Bahl,可以直接從視頻中學習人們的行為,概括行為內容,并從中學習,使得機器人能很高效的學習如何做家務。
資料來源:卡內基梅隆大學
機器人看著 Shikhar Bahl 打開冰箱門。它記錄了他的動作、門的擺動、冰箱的位置等等,分析這些數(shù)據(jù)并準備好模仿 Bahl 的所作所為。
起初它失敗了,有時完全錯過了手柄,在錯誤的位置抓住它或不正確地拉動它。但經(jīng)過幾個小時的練習,機器人成功打開了門。
“模仿是一種很好的學習方式,”博士 Bahl 說。卡內基梅隆大學計算機科學學院機器人研究所 (RI) 的學生。“讓機器人真正從直接觀察人類中學習仍然是該領域未解決的問題,但這項工作在實現(xiàn)這種能力方面邁出了重要的一步。”
Bahl 與 RI 的教員 Deepak Pathak 和 Abhinav Gupta 合作,開發(fā)了一種新的機器人學習方法,稱為 WHIRL,是野外人類模仿機器人學習的縮寫。WHIRL 是一種用于一次性視覺模仿的有效算法。它可以直接從人機交互視頻中學習,并將該信息推廣到新任務,使機器人非常適合學習家務。
人們經(jīng)常在家中執(zhí)行各種任務。借助 WHIRL,機器人可以觀察這些任務并收集所需的視頻數(shù)據(jù),最終確定如何自行完成工作。
該團隊為現(xiàn)成的機器人添加了攝像頭及其軟件,它學會了如何完成 20 多項任務——從打開和關閉電器、櫥柜門和抽屜到蓋上鍋蓋、推椅子甚至從垃圾箱里拿出一個垃圾袋。每次,機器人都會看著一個人完成一次任務,然后開始練習和學習自己完成任務。
該團隊本月在紐約舉行的機器人:科學與系統(tǒng)會議上介紹了他們的研究。
“這項工作提供了一種將機器人帶入家中的方法,”RI 的助理教授和團隊成員 Pathak 說。
“無需等待機器人被編程或訓練成功完成不同的任務,然后再將它們部署到人們的家中,這項技術使我們能夠部署機器人并讓它們學習如何完成任務,同時適應它們的環(huán)境并單獨改進通過觀看。”
當前教授機器人任務的方法通常依賴于模仿或強化學習。在模仿學習中,人類手動操作機器人來教它如何完成任務。在機器人學習之前,這個過程必須為單個任務完成多次。在強化學習中,機器人通常接受數(shù)百萬個模擬示例的訓練,然后要求將該訓練適應現(xiàn)實世界。
在結構化環(huán)境中教機器人完成單個任務時,這兩種學習模型都能很好地工作,但它們很難擴展和部署。WHIRL 可以從人類執(zhí)行任務的任何視頻中學習。它易于擴展,不限于一項特定任務,并且可以在現(xiàn)實的家庭環(huán)境中運行。
該團隊甚至正在開發(fā)一個 WHIRL 版本,通過觀看來自 YouTube 和 Flickr 的人類互動視頻進行訓練。
計算機視覺的進步使這項工作成為可能。使用基于互聯(lián)網(wǎng)數(shù)據(jù)訓練的模型,計算機現(xiàn)在可以理解和模擬 3D 運動。該團隊使用這些模型來了解人體運動,從而促進 WHIRL 訓練。
借助 WHIRL,機器人可以在自然環(huán)境中完成任務。電器、門、抽屜、蓋子、椅子和垃圾袋沒有被修改或操縱以適應機器人。
機器人最初的幾次嘗試都以失敗告終,但一旦成功了幾次,它很快就掌握了如何完成并掌握了它。雖然機器人可能無法以與人類相同的動作完成任務,但這不是目標。
人和機器人有不同的部分,它們的動作也不同。重要的是最終結果是一樣的。門打開了。開關關閉。水龍頭已打開。
“要在野外擴展機器人技術,數(shù)據(jù)必須可靠且穩(wěn)定,并且機器人應該通過自行練習在環(huán)境中變得更好,”Pathak 說。