谷歌 DeepMind 部門的機器人團隊推出了三款新產品,這些產品將幫助機器人在圍繞人類執行任務時做出更快的決策,並更有效率、更安全地行動。
AutoRT的資料收集系統是基於視覺語言模型(VLM)和大語言模型(LLM)—它們可協助機器人評估環境、適應不熟悉的情況並做出執行任務的決策。 VLM用於分析環境並識別視野範圍內的物體,而LLM則負責任務的創造性執行。 AutoRT最重要的創新是LLM模組中出現的「機器人組成」——以安全為導向的命令,告訴機器避免選擇涉及人、動物、尖銳物體甚至電器的任務。為了額外的安全性,當關節上的力超過一定閾值時,工作被編程為停止;他們的設計現在有一個額外的實體開關,人們可以在緊急情況下使用。
在過去的七個月裡,Google在其四棟辦公大樓中使用 AutoRT 系統部署了 53 個工作崗位,並進行了超過 77 次測試。有些機器由操作員遠端控制,而有些機器則根據給定演算法或使用 Robotic Transformer (RT-2) AI 模型自主執行任務。到目前為止,所有這些機器人的外觀都極為簡單:它們是移動底座上的機械手臂和用於評估情況的攝影機。
第二個創新是 SARA-RT(機器人變壓器的自適應穩健注意力)系統,旨在優化 RT-2 模型的運作。研究人員發現,透過將輸入資料加倍(例如提高相機的解析度),機器人對運算資源的需求會增加四倍。這個問題透過一種稱為「向上訓練」的微調人工智慧的新方法得到了解決——這種方法將對計算資源的需求的二次增長變成了幾乎線性的增長。因此,模型運行速度更快,並保持了先前的品質。
最後,Google DeepMind 工程師開發了 RT-Trajectory AI 模型,該模型簡化了訓練機器人執行特定任務的流程。設定任務後,操作員親自示範其執行範例,RT-Trajectory 分析人設定的運動軌跡並使其適應機器人的動作。
另請閱讀: