
據(jù)市場調研發(fā)現(xiàn),3月12日,谷歌宣布推出兩款基于Gemini 2.0的新型人工智能(AI)模型,旨在開發(fā)更靈活、可互動的機器人,有望推動機器人在更多場景中的應用和普及。
谷歌表示,最新的AI模型是為各種形狀的機器人設計的,包括人形機器人和工廠、倉庫中使用的其他類型的機器人。
據(jù)谷歌介紹,其中一款名為Gemini Robotics,是一款視覺-語言-行動模型,能夠通過物理動作輸出結果,使機器人可以理解自然語言指令并執(zhí)行復雜任務。更簡單的說,Gemini Robotics可以聽懂人類的語言,然后執(zhí)行相應的命令。
另一款名為Gemini Robotics-ER,是一個專注于空間推理的視覺-語言模型,能夠幫助機器人更好地理解周圍環(huán)境,并支持開發(fā)者利用其推理能力運行自己的程序。
谷歌DeepMind工程師Kanishka Rao表示,谷歌將Gemini模型應用于機器人,正在推動機器人技術向更智能、更通用的方向發(fā)展。“我們的世界非常復雜、動態(tài)且豐富,我認為通用智能機器人需要能夠應對這種復雜性。”
與此同時,包括Meta、特斯拉和OpenAI等巨頭均加大了在機器人領域的研發(fā)工作,許多初創(chuàng)公司也在機器人領域嶄露頭角,例如,F(xiàn)igure AI和Skild AI等,它們的估值都達到了數(shù)十億美元。
在預先錄制的演示視頻中,谷歌研究人員展示了運行其技術的機器人如何響應簡單指令。其中一臺機器人站在一堆字母拼圖前,在訓練員要求它拼出一個單詞時,它拼出了“Ace”。
工程師們還在實驗室里搭建了一個迷你玩具籃球場,另一臺機器人在被要求完成扣籃動作時,將一個小塑料球按進了籃筐。
Rao聲稱:“當我們第一次看到機器人扣籃時,整個團隊都非常興奮。這是因為機器人從來沒有見過任何與籃球有關的東西。它是通過Gemini理解了籃網(wǎng)的外觀以及‘扣籃’這個詞的含義,并能把它們聯(lián)系起來,然后在現(xiàn)實世界中完成這項任務。”
不過,谷歌強調這項工作仍處于“早期探索”階段。DeepMind研究員Vikas Sindhwani表示,Gemini模型是在對物理環(huán)境中的“常識性安全”有深刻理解的基礎上開發(fā)的。
他還提到,谷歌計劃逐步部署這些機器人,最初將它們放置在與人類保持安全距離的位置,隨著時間推移,在安全性能不斷提升的情況下,逐漸增加其互動性和協(xié)作性。
北京研精畢智信息咨詢有限公司(XYZResearch),系國內領先的行業(yè)和企業(yè)研究服務供應商,并榮膺CCTV中視購物官方合作品牌。公司秉持助力企業(yè)實現(xiàn)商業(yè)決策高效化的核心宗旨,依托十年行業(yè)積累,深度整合企業(yè)研究、行業(yè)研究、數(shù)據(jù)定制、消費者調研、市場動態(tài)監(jiān)測等多維度服務模塊,同時組建由業(yè)內資深專家構成的專家?guī)?,打造一站式研究服務體系。研精畢智咨詢憑借先進方法論、豐富的案例與數(shù)據(jù),精準把脈市場趨勢,為企業(yè)提供權威的市場洞察及戰(zhàn)略導向。