國內(nèi)AI(人工智能)視頻交互賽道再添重磅玩家。
近日,字節(jié)跳動(dòng)旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問答。據(jù)官方介紹,本次升級(jí)基于視覺推理模型,支持聯(lián)網(wǎng)搜索。
《每日經(jīng)濟(jì)新聞》記者實(shí)測發(fā)現(xiàn),豆包的視頻通話功能用處不少,包括識(shí)別水果成熟度這樣的日常用途。此外,在識(shí)別物品時(shí),豆包更展現(xiàn)出持續(xù)記憶和邏輯推理能力。
5月27日,一位大模型算法工程師接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包在視頻通話中展現(xiàn)出的視頻理解與語音交互能力,在中文語境中處于第一梯隊(duì)。
繼文生視頻大模型后,字節(jié)在AI多模態(tài)領(lǐng)域又邁出關(guān)鍵一步。
能打視頻電話的豆包,效果如何?
“視覺是人類了解這個(gè)世界最重要的方式,對(duì)于大模型來說也是如此?!痹谌ツ?2月舉行的“2024火山引擎FORCE原動(dòng)力大會(huì)·冬”上,火山引擎總裁譚待發(fā)布了豆包視覺理解模型,稱該模型具備更出色的內(nèi)容識(shí)別、理解、推理、視覺描述和創(chuàng)作等能力。
5個(gè)月后,這一新模型的能力讓所有豆包用戶“眼見為實(shí)”了。
近日,豆包App上線了實(shí)時(shí)視頻通話功能,這一功能的實(shí)現(xiàn)正是基于豆包視覺理解模型的能力。
為了更直觀地展示這一新功能的應(yīng)用場景,豆包團(tuán)隊(duì)在其官方微信公眾號(hào)上列舉了公園內(nèi)花草識(shí)別、博物館內(nèi)實(shí)時(shí)講解、圖書館內(nèi)書籍推薦查閱以及買菜時(shí)的食材搭配這四大生活場景。在去年12月的發(fā)布會(huì)上,豆包團(tuán)隊(duì)就曾在演示視頻中呈現(xiàn)了該模型在識(shí)別地標(biāo)、讀懂代碼、分析體檢報(bào)告、為用戶提供穿搭意見等日常任務(wù)中的完成能力。
和豆包打個(gè)視頻電話,是否真的能解決上述這些生活問題呢?百聞不如一見,《每日經(jīng)濟(jì)新聞》記者近日以挑選水果、識(shí)別物品和推薦書籍這三項(xiàng)任務(wù),對(duì)豆包的實(shí)時(shí)視頻通話功能進(jìn)行了實(shí)測。
首先,是較為基礎(chǔ)的挑選水果任務(wù),這也是用戶在小紅書等社交媒體上分享得最多的應(yīng)用場景?!澳銇韼臀姨暨x一個(gè)木瓜吧?!碑?dāng)開啟視頻通話后,豆包通過對(duì)果實(shí)表皮顏色、飽滿程度等指標(biāo)的觀察,快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜后表示:“感覺突然身邊多了個(gè)懂行的買菜老大爺?!?/p>
在識(shí)別物品和推薦書籍的環(huán)節(jié),豆包展現(xiàn)出了良好的記憶能力和連貫的實(shí)時(shí)搜索、互動(dòng)性能。例如,面對(duì)雜亂擺放著書籍、巧克力、耳機(jī)和電子時(shí)鐘等物品的書桌,豆包可以輕松識(shí)別所有物品的詳細(xì)信息并記憶它們?cè)谧郎系臄[放位置。
這一記憶功能在記者瀏覽書架時(shí)得到了更為充分的展現(xiàn)。記者在書店隨機(jī)挑選了一個(gè)書架,就書架一側(cè)第一本書和豆包進(jìn)行溝通,同時(shí)舉起手機(jī)走向了書架的另一頭,再突然提出“剛剛有一本蔡磊寫的書,你看到了嗎?”的問題,豆包迅速記起這本曾在鏡頭前一閃而過的書,并對(duì)該書進(jìn)行了簡單介紹。
“(記憶功能的實(shí)現(xiàn))大概率是每隔幾秒給模型拍攝一張圖片?!币晃淮竽P退惴üこ處熢谖⑿派辖邮堋睹咳战?jīng)濟(jì)新聞》記者采訪時(shí)表示,豆包在該功能中展現(xiàn)的視頻理解和語音交互能力,在中文語境中處于第一梯隊(duì)。
與豆包進(jìn)行關(guān)于多本書籍的聊天時(shí),豆包能夠結(jié)合記憶能力與實(shí)時(shí)搜索,對(duì)書籍內(nèi)容、作者生平、同類作品推薦等話題進(jìn)行自然延伸,整個(gè)交互過程流暢且生動(dòng)。
從“聽見”到“看見”
在去年,AI的視頻交互功能就已經(jīng)在業(yè)界掀起波瀾。
2024年8月,“智譜清言”App率先推出了國內(nèi)首個(gè)面向C端(消費(fèi)者端)開放的視頻通話功能。一時(shí)間,網(wǎng)上涌現(xiàn)出大量對(duì)視頻通話功能的測試。測試方式從最基礎(chǔ)的物體識(shí)別到生活場景的溝通交流,甚至包括輔導(dǎo)小學(xué)生作業(yè)。
趕在OpenAI和谷歌之前,智譜清言先一步將AI視頻交互在國內(nèi)落地。在國際市場上,從“聽見”到“看見”同樣成為AI進(jìn)化的下一步。
2024年5月,OpenAI公司的“GPT-4o”發(fā)布?,F(xiàn)場,OpenAI的研究員演示了GPT-4o的實(shí)時(shí)視覺功能——它通過手機(jī)攝像頭實(shí)時(shí)解了一個(gè)方程,甚至還能通過前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra”同樣具備實(shí)時(shí)語音、視頻交互的能力。
今年4月,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent(智能體)才能更好地處理復(fù)雜任務(wù)。”
視頻通話功能的實(shí)現(xiàn),就建立在其多模態(tài)能力之上。從最后呈現(xiàn)的使用形態(tài)來看,視頻通話功能使得用戶無需再通過語言組織傳達(dá)眼前的信息,這無疑是對(duì)AI使用門檻的再一次降低。
技術(shù)能力的升級(jí)為AI打通了視覺和聽覺的“任督二脈”,但也要看到,AI智能助手的快速擴(kuò)張已經(jīng)來到了瓶頸,新的交互范式可能是新階段的關(guān)鍵。
據(jù)量子位智庫數(shù)據(jù),4月份Web端(網(wǎng)頁端)AI智能助手的總訪問量首次出現(xiàn)下降,說明以嘗鮮驅(qū)動(dòng)的擴(kuò)張期或已結(jié)束。
隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關(guān)注,豆包也在通過抖音生態(tài)快速觸達(dá)用戶。
27日,知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包有著龐大的用戶應(yīng)用生態(tài)作為支撐,擴(kuò)散應(yīng)該比對(duì)手要快。
他認(rèn)為,豆包在商業(yè)拓展時(shí)主要還是和“剪映”集成,可以和抖音的內(nèi)容審核AI結(jié)合。比如可以通過AI發(fā)現(xiàn)違規(guī)的短視頻內(nèi)容。盤和林還表示,AI視頻交互的使用前景非常光明,比如生成虛擬人進(jìn)行直播,又比如通過AI識(shí)別來迅速對(duì)視頻文件進(jìn)行歸納總結(jié)。
另一方面,AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫,也給AI視頻交互帶來了更多可能性。
盤和林認(rèn)為:“AI視頻交互可以和AI眼鏡有限結(jié)合,但現(xiàn)階段AI眼鏡的算力和顯示等方面還存在技術(shù)缺陷。所以,期待未來有新的融合。”