7月12日消息,據(jù)外電報(bào)道,谷歌正在使用 Gemini AI 訓(xùn)練其機(jī)器人,以便它們能夠更好地導(dǎo)航和完成任務(wù)。
DeepMind 機(jī)器人團(tuán)隊(duì)在一篇新研究論文中解釋了如何使用Gemini 1.5 Pro的長上下文窗口(決定 AI 模型可以處理多少信息)讓用戶更輕松地使用自然語言指令與其RT-2 機(jī)器人進(jìn)行交互。
這項(xiàng)技術(shù)的工作原理是拍攝指定區(qū)域(例如家庭或辦公室空間)的視頻,研究人員使用 Gemini 1.5 Pro 讓機(jī)器人觀看視頻以了解環(huán)境。
然后,機(jī)器人可以根據(jù)觀察到的情況,使用口頭和/或圖像輸出執(zhí)行命令 - 例如在向用戶展示手機(jī)并詢問「我在哪里可以給它充電?」之后,引導(dǎo)用戶到電源插座。
DeepMind 表示,其 Gemini 驅(qū)動(dòng)的機(jī)器人在 9,000 多平方英尺的操作區(qū)域內(nèi)對(duì) 50 多條用戶指令的成功率達(dá)到 90%。
研究人員還發(fā)現(xiàn)初步證據(jù),表明 Gemini 1.5 Pro 使其機(jī)器人能夠規(guī)劃如何執(zhí)行除導(dǎo)航之外的指令。
例如,當(dāng)辦公桌上有很多可樂罐的用戶詢問機(jī)器人是否有他們最喜歡的飲料時(shí),該團(tuán)隊(duì)表示 Gemini知道機(jī)器人應(yīng)該導(dǎo)航到冰箱,檢查是否有可樂,然后返回給用戶報(bào)告結(jié)果。
DeepMind 表示計(jì)劃進(jìn)一步調(diào)查這些結(jié)果。
谷歌提供的視頻演示令人印象深刻,盡管根據(jù)研究報(bào)告,機(jī)器人確認(rèn)每個(gè)請(qǐng)求后明顯的切換掩蓋了處理這些指令需要 10-30 秒的時(shí)間。我們可能還需要一段時(shí)間才能與更先進(jìn)的環(huán)境地圖機(jī)器人共享我們的家園,但至少這些機(jī)器人可能能夠找到我們丟失的鑰匙或錢包。