亚洲小说图片区综合在线,日本公厕撒尿高清视频,国产又黄又湿又刺激网站,少妇自慰毛多水多

“AI,你幫我挑個(gè)木瓜?”實(shí)測豆包視頻通話功能 一場AI“視覺交互”爭奪戰(zhàn)已打響
來源:每日經(jīng)濟(jì)新聞2025-05-28 08:22

國內(nèi)AI(人工智能)視頻交互賽道再添重磅玩家。

近日,字節(jié)跳動(dòng)旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問答。據(jù)官方介紹,本次升級(jí)基于視覺推理模型,支持聯(lián)網(wǎng)搜索。

《每日經(jīng)濟(jì)新聞》記者實(shí)測發(fā)現(xiàn),豆包的視頻通話功能用處不少,包括識(shí)別水果成熟度這樣的日常用途。此外,在識(shí)別物品時(shí),豆包更展現(xiàn)出持續(xù)記憶和邏輯推理能力。

5月27日,一位大模型算法工程師接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包在視頻通話中展現(xiàn)出的視頻理解與語音交互能力,在中文語境中處于第一梯隊(duì)。

繼文生視頻大模型后,字節(jié)在AI多模態(tài)領(lǐng)域又邁出關(guān)鍵一步。

能打視頻電話的豆包,效果如何?

“視覺是人類了解這個(gè)世界最重要的方式,對(duì)于大模型來說也是如此?!痹谌ツ?2月舉行的“2024火山引擎FORCE原動(dòng)力大會(huì)·冬”上,火山引擎總裁譚待發(fā)布了豆包視覺理解模型,稱該模型具備更出色的內(nèi)容識(shí)別、理解、推理、視覺描述和創(chuàng)作等能力。

5個(gè)月后,這一新模型的能力讓所有豆包用戶“眼見為實(shí)”了。

近日,豆包App上線了實(shí)時(shí)視頻通話功能,這一功能的實(shí)現(xiàn)正是基于豆包視覺理解模型的能力。

為了更直觀地展示這一新功能的應(yīng)用場景,豆包團(tuán)隊(duì)在其官方微信公眾號(hào)上列舉了公園內(nèi)花草識(shí)別、博物館內(nèi)實(shí)時(shí)講解、圖書館內(nèi)書籍推薦查閱以及買菜時(shí)的食材搭配這四大生活場景。在去年12月的發(fā)布會(huì)上,豆包團(tuán)隊(duì)就曾在演示視頻中呈現(xiàn)了該模型在識(shí)別地標(biāo)、讀懂代碼、分析體檢報(bào)告、為用戶提供穿搭意見等日常任務(wù)中的完成能力。

和豆包打個(gè)視頻電話,是否真的能解決上述這些生活問題呢?百聞不如一見,《每日經(jīng)濟(jì)新聞》記者近日以挑選水果、識(shí)別物品和推薦書籍這三項(xiàng)任務(wù),對(duì)豆包的實(shí)時(shí)視頻通話功能進(jìn)行了實(shí)測。

首先,是較為基礎(chǔ)的挑選水果任務(wù),這也是用戶在小紅書等社交媒體上分享得最多的應(yīng)用場景?!澳銇韼臀姨暨x一個(gè)木瓜吧?!碑?dāng)開啟視頻通話后,豆包通過對(duì)果實(shí)表皮顏色、飽滿程度等指標(biāo)的觀察,快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜后表示:“感覺突然身邊多了個(gè)懂行的買菜老大爺?!?/p>

在識(shí)別物品和推薦書籍的環(huán)節(jié),豆包展現(xiàn)出了良好的記憶能力和連貫的實(shí)時(shí)搜索、互動(dòng)性能。例如,面對(duì)雜亂擺放著書籍、巧克力、耳機(jī)和電子時(shí)鐘等物品的書桌,豆包可以輕松識(shí)別所有物品的詳細(xì)信息并記憶它們?cè)谧郎系臄[放位置。

這一記憶功能在記者瀏覽書架時(shí)得到了更為充分的展現(xiàn)。記者在書店隨機(jī)挑選了一個(gè)書架,就書架一側(cè)第一本書和豆包進(jìn)行溝通,同時(shí)舉起手機(jī)走向了書架的另一頭,再突然提出“剛剛有一本蔡磊寫的書,你看到了嗎?”的問題,豆包迅速記起這本曾在鏡頭前一閃而過的書,并對(duì)該書進(jìn)行了簡單介紹。

“(記憶功能的實(shí)現(xiàn))大概率是每隔幾秒給模型拍攝一張圖片?!币晃淮竽P退惴üこ處熢谖⑿派辖邮堋睹咳战?jīng)濟(jì)新聞》記者采訪時(shí)表示,豆包在該功能中展現(xiàn)的視頻理解和語音交互能力,在中文語境中處于第一梯隊(duì)。

與豆包進(jìn)行關(guān)于多本書籍的聊天時(shí),豆包能夠結(jié)合記憶能力與實(shí)時(shí)搜索,對(duì)書籍內(nèi)容、作者生平、同類作品推薦等話題進(jìn)行自然延伸,整個(gè)交互過程流暢且生動(dòng)。

從“聽見”到“看見”

在去年,AI的視頻交互功能就已經(jīng)在業(yè)界掀起波瀾。

2024年8月,“智譜清言”App率先推出了國內(nèi)首個(gè)面向C端(消費(fèi)者端)開放的視頻通話功能。一時(shí)間,網(wǎng)上涌現(xiàn)出大量對(duì)視頻通話功能的測試。測試方式從最基礎(chǔ)的物體識(shí)別到生活場景的溝通交流,甚至包括輔導(dǎo)小學(xué)生作業(yè)。

趕在OpenAI和谷歌之前,智譜清言先一步將AI視頻交互在國內(nèi)落地。在國際市場上,從“聽見”到“看見”同樣成為AI進(jìn)化的下一步。

2024年5月,OpenAI公司的“GPT-4o”發(fā)布?,F(xiàn)場,OpenAI的研究員演示了GPT-4o的實(shí)時(shí)視覺功能——它通過手機(jī)攝像頭實(shí)時(shí)解了一個(gè)方程,甚至還能通過前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra”同樣具備實(shí)時(shí)語音、視頻交互的能力。

今年4月,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent(智能體)才能更好地處理復(fù)雜任務(wù)。”

視頻通話功能的實(shí)現(xiàn),就建立在其多模態(tài)能力之上。從最后呈現(xiàn)的使用形態(tài)來看,視頻通話功能使得用戶無需再通過語言組織傳達(dá)眼前的信息,這無疑是對(duì)AI使用門檻的再一次降低。

技術(shù)能力的升級(jí)為AI打通了視覺和聽覺的“任督二脈”,但也要看到,AI智能助手的快速擴(kuò)張已經(jīng)來到了瓶頸,新的交互范式可能是新階段的關(guān)鍵。

據(jù)量子位智庫數(shù)據(jù),4月份Web端(網(wǎng)頁端)AI智能助手的總訪問量首次出現(xiàn)下降,說明以嘗鮮驅(qū)動(dòng)的擴(kuò)張期或已結(jié)束。

隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關(guān)注,豆包也在通過抖音生態(tài)快速觸達(dá)用戶。

27日,知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包有著龐大的用戶應(yīng)用生態(tài)作為支撐,擴(kuò)散應(yīng)該比對(duì)手要快。

他認(rèn)為,豆包在商業(yè)拓展時(shí)主要還是和“剪映”集成,可以和抖音的內(nèi)容審核AI結(jié)合。比如可以通過AI發(fā)現(xiàn)違規(guī)的短視頻內(nèi)容。盤和林還表示,AI視頻交互的使用前景非常光明,比如生成虛擬人進(jìn)行直播,又比如通過AI識(shí)別來迅速對(duì)視頻文件進(jìn)行歸納總結(jié)。

另一方面,AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫,也給AI視頻交互帶來了更多可能性。

盤和林認(rèn)為:“AI視頻交互可以和AI眼鏡有限結(jié)合,但現(xiàn)階段AI眼鏡的算力和顯示等方面還存在技術(shù)缺陷。所以,期待未來有新的融合。”

責(zé)任編輯: 李志強(qiáng)
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換