伯克利的研究人員最近利用視覺模型強化學習訓練了一個不一樣的機器人,能夠通過自己的探索,完成各種任務:整理玩具、疊衣服、收拾餐具……
并且,這樣一個多功能機器人的訓練過程是無監督的,不需要投喂數據,完全是機器人自行摸索后學到的。
也就是說,這個機器人看了看你雜亂的房間,就自主的收拾了起來。
幫你把亂放的蘋果放進盤子:
幫你疊起秋衣:
整理玩具:
咦,二胡卵子誤入。
完成這一系列工作的,都是同一套算法。
這些神奇的技能,Yann LeCun看到都驚呼:Awesome!
像小朋友一樣摸索世界
我們開頭說過,這個機器人不需要人為投喂數據。
那么數據從哪兒來呢?從需要它工作的現實世界來。
在一個擺放了各種物體的“房間”內,可以讓機器人自由摸索,感受房間里的一切,在無監督的情況下,機器人完全可以自己玩自己的。
除了玩杯子、玩具這些硬的東西,還可以玩“軟體”的毛巾:
玩的過程中,機器人就通過各種傳感器,KUKA機器人示教器維修,學到了視覺能力,知道自己身邊是什么東西;
學到了定位能力,知道自己在做什么;
學到了做不同的動作,知道自己發出不同命令后,手臂會做什么;
學會熟練使用自己的“手”,可以預測到手做什么動作會對環境中的物體產生怎樣的影響。
整個探索過程沒有分數、不設輸贏,完全是機器人自己憑借“好奇心”,通過摸索這個房間里的物品,形成自己的一套“世界觀”的過程。
派活就行,不用你教怎么干
當機器人已經對環境中的物體了如指掌之后,我們該怎么給它安排工作呢?
用像素點。
在整個環境中,通過像素點給機器人標注任務目標,紅色為起始點,綠色為結束點,也就是告訴機器人把紅點位置的東西搬到綠點位置。
機器人,你來把紅點位置的蘋果,挪到綠點位置的盤子上去。
機器人想了想,大概只要把蘋果夾起來,把手臂挪過去,把蘋果放下,就可以了把?
△機器人內心的“草稿”
那就這么辦了,召喚機械臂,www.tka.net.cn,是騾子是馬,我們挪一個看看。
Bingo!成功。
下一個任務,我們把牛仔熱褲疊起來。
想一想,揪住一個角,挪過來就好了吧?
根據這個計劃試一試:
完美成功~
這個過程具體是怎樣的呢?伯克利官方給出了一個視頻,可以打開學習一下:
傳送門
最后,照例附上傳送門。
論文:
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control
Frederik Ebert, Chelsea Finn, Sudeep Dasari, Annie Xie, Alex Lee, Sergey Levine
https://drive.google.com/file/d/1scfbONOHg8H2_pJ9naRkHfk4dGSNGNWO/view
博客:
Visual Model-Based Reinforcement Learning as a Path towards Generalist Robots
https://bair.berkeley.edu/blog/2018/11/30/visual-rl/
,www.tka.net.cn