《科創(chuàng)板日?qǐng)?bào)》5月10日訊(編輯 宋子喬)當(dāng)?shù)貢r(shí)間5月9日,Meta宣布開源了一種可以將可以橫跨6種不同模態(tài)的全新AI模型ImageBind,包括視覺(圖像和視頻形式)、溫度(紅外圖像)、文本、音頻、深度信息、運(yùn)動(dòng)讀數(shù)(由慣性測(cè)量單元或IMU產(chǎn)生)。目前,相關(guān)源代碼已托管至GitHub。
何為橫跨6種模態(tài)?
即以視覺為核心,ImageBind可做到6個(gè)模態(tài)之間任意的理解和轉(zhuǎn)換。Meta展示了一些案例,如聽到狗叫畫出一只狗,同時(shí)給出對(duì)應(yīng)的深度圖和文字描述;如輸入鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。
(資料圖片僅供參考)
而此前的多模態(tài)AI模型一般只支持一個(gè)或兩個(gè)模態(tài),且不同模態(tài)之間難以進(jìn)行互動(dòng)和檢索。ImageBind無疑具有突破性意義,Meta稱,ImageBind是第一個(gè)能夠同時(shí)處理6種感官數(shù)據(jù)的AI模型,也是第一個(gè)在沒有明確監(jiān)督的情況下學(xué)習(xí)一個(gè)單一嵌入空間的AI模型。
ImageBind能做到這些,核心方法是把所有模態(tài)的數(shù)據(jù)放入統(tǒng)一的聯(lián)合嵌入空間,無需使用每種不同模態(tài)組合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練
有行業(yè)觀察者已經(jīng)迫不及待地將ImageBind于元宇宙聯(lián)系在一起。
正如Meta的研究團(tuán)隊(duì)所說,ImageBind為設(shè)計(jì)和體驗(yàn)身臨其境的虛擬世界打開了大門。該團(tuán)隊(duì)還表示,未來還將加入觸覺、語音、嗅覺和大腦功能磁共振信號(hào),進(jìn)一步探索多模態(tài)大模型的可能性,“人類可使用多種感官學(xué)習(xí)、了解世界,借助ImageBin,機(jī)器離人類又近了一步”。
值得注意的是,Meta還表示,ImageBind可以利用DINOv2強(qiáng)大的視覺功能進(jìn)一步提高其能力。DINOv2是Meta開源的計(jì)算機(jī)視覺領(lǐng)域的預(yù)訓(xùn)練大模型,同樣與Meta的元宇宙愿景密不可分,Meta CEO扎克伯格此前強(qiáng)調(diào),DINOv2可以極大地加持元宇宙的建設(shè),讓用戶在元宇宙中的沉浸體驗(yàn)更出色。
盡管ImageBind目前只是研究項(xiàng)目,沒有直接的消費(fèi)者用戶或?qū)嶋H應(yīng)用。但可以想象的是,隨著ImageBind模型逐步完善,AI應(yīng)用場(chǎng)景將進(jìn)一步拓展,元宇宙建設(shè)也將更進(jìn)一步。
比如當(dāng)ImageBind融入虛擬現(xiàn)實(shí)設(shè)備,使用者能獲得更沉浸式的體驗(yàn),玩家進(jìn)入游戲后不僅能感受游戲場(chǎng)景的溫度,還能感知物理層面上運(yùn)動(dòng)。
國(guó)盛證券分析師劉高暢此前大膽預(yù)測(cè),1-5年內(nèi),隨著多模態(tài)的發(fā)展帶來AI泛化能力提升,通用視覺、通用機(jī)械臂、通用物流搬運(yùn)機(jī)器人、行業(yè)服務(wù)機(jī)器人、真正的智能家居會(huì)進(jìn)入生活。未來5-10年內(nèi),結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。
廣告
X 關(guān)閉
廣告
X 關(guān)閉