智能體已經(jīng)能像人一樣刷視頻了?國內聯(lián)匯科技OmAgent智能體試用!

發(fā)布時(shí)間:2024-11-22 15:16    發(fā)布者:Qingkr

智能體已經(jīng)能像人一樣刷視頻了?國內知名大模型獨角獸級別公司,資深AI玩家聯(lián)匯科技退出了OmAgent智能體,已經(jīng)開(kāi)啟試用。


當你正在觀(guān)看一部緊張刺激的動(dòng)作電影,忽然好奇:

“那個(gè)角色到底是在哪一集說(shuō)的那句話(huà)?”

“這里的背景音樂(lè )是什么?”

又或者在一場(chǎng)足球比賽中,你錯過(guò)了那個(gè)決定性的進(jìn)球,卻又想再次回放。諸如此類(lèi)的需求,如果僅憑人力尋找,無(wú)疑存在極大的工作量。

但是 AI 能夠為機器配置雙眼與大腦,讓它們能夠看懂視頻、理解劇情,對于普通人來(lái)說(shuō),這不僅是提高了搜索效率,更是擴展我們與數字世界的互動(dòng)方式。

英偉達最新發(fā)布的 NVIDIA AI Blueprint 希望幫助人們解決這一問(wèn)題。這是一種預訓練的、可自定義 AI 工作流,他為開(kāi)發(fā)者構建和部署用于典型用例的生成式 AI 應用程序提供了一套完整的解決方案。

比如在英偉達提供的試用界面中,你可以選擇三個(gè)視頻片段中的一個(gè)進(jìn)行內容問(wèn)答。

在幾輪測試過(guò)后,我們發(fā)現 Blueprint 對視頻問(wèn)答還是有不錯的效果的。你可以提問(wèn)某個(gè)事件發(fā)生的時(shí)間,也可以提問(wèn)某個(gè)對象的狀態(tài)。
例如當我們提問(wèn) “工人在什么時(shí)候掉落了箱子”,Blueprint 可以正確的回答出時(shí)間區間。二類(lèi)似于 “叉車(chē)往哪個(gè)方向開(kāi)” 這種基于連續過(guò)程的問(wèn)題,Blueprint 也可以輕松應答。
不過(guò)對于某些細節,例如 “誰(shuí)撿起了掉在地上的箱子”,Blueprint 則給出了錯誤的答案。

尤其令人遺憾的是,在試用過(guò)程中我們不斷遇到流量限制,無(wú)限驗證等問(wèn)題,試用體驗可以說(shuō)一言難盡。并且目前 Blueprint 仍然處于早期申請使用制階段,沒(méi)有辦法快速進(jìn)行使用。

Blueprint 之外,我們還有什么選擇?

經(jīng)過(guò)一番搜索和調研,我們在 Github 上發(fā)現了 OmAgent 這個(gè)項目,這是一個(gè)多模態(tài)智能體框架,提供了同樣強大的視頻問(wèn)答功能。

項目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一個(gè)開(kāi)源的智能體框架,支持簡(jiǎn)單快速地面向設備進(jìn)行智能體系統的開(kāi)發(fā),為智能手機、智能可穿戴設備、智能攝像頭乃至機器人等各類(lèi)硬件設備賦能。OmAgent 為各種類(lèi)型的設備創(chuàng )建了一個(gè)抽象概念,并大大簡(jiǎn)化了將這些設備與最先進(jìn)的多模態(tài)基礎模型和智能體算法相結合的過(guò)程,使每個(gè)人都能基于設備建立最有趣的 AI 應用。

OmAgent 的設計架構遵循三個(gè)基本原則:
1. 基于圖的工作流編排,支持分支、循環(huán)、并行等復雜邏輯操作;2. 原生多模態(tài),提供對音視圖文等多種模態(tài)數據的支持;3. 設備中心化,提供便捷的設備連接和交互方法。
簡(jiǎn)單來(lái)說(shuō),開(kāi)發(fā)者可以基于 OmAgent 設計開(kāi)發(fā)基于圖工作流編排的面向設備的原生多模態(tài)智能體。這里的設備不光包含智能手機,智能可穿戴設備(智能眼鏡等),智能家居,還包括命令行以及 web 端,開(kāi)發(fā)者只需要專(zhuān)注于智能體本身,而不用分神處理設備。
OmAgent 項目里提供了 6 個(gè)示例項目,由淺入深展示了如何搭建一個(gè)智能體的完整過(guò)程,其中視頻理解智能體工作流被 EMNLP 2024 主會(huì )收錄,實(shí)現了和 Blueprint Demo 相似的功能。


OmAgent 表現如何?


根據項目文檔只需要進(jìn)行簡(jiǎn)單的配置就可以將 OmAgent 部署運行在本地環(huán)境。我們首先對 Blueprint 提供的測試視頻進(jìn)行預處理,在這個(gè)階段視頻會(huì )被分解為若干個(gè)片段,每個(gè)片段會(huì )被大模型進(jìn)行總結,并向量化存儲在數據庫中。接下來(lái)使用之前的問(wèn)題對 OmAgent 進(jìn)行測試,可以看到智能體可以正確定位事件以及發(fā)生的時(shí)間。
Q: When did the worker drop the box?

A:

Q: Which direction did the forklift go?

A:


Q: Who picked up the box that fell on the ground?

A:

接下來(lái)我們進(jìn)行更復雜的測試,OmAgent 可以支持音頻信息以及超長(cháng)視頻索引。我們選取了最近大火的劇集《雙城之戰》第二季第一集作為素材,基于其中的畫(huà)面和劇情進(jìn)行提問(wèn)。
Q: 凱特琳收到的鑰匙代表了什么?

A:


Q: 凱特琳和蔚在爭執些什么?

A:

Q: 視頻最后幾個(gè)議員在討論什么?

A:


Q: 議員開(kāi)會(huì )的時(shí)候誰(shuí)闖入了進(jìn)來(lái)?

A:

可以看到,即使面對如此復雜的視頻素材,OmAgent 依然可以游刃有余。
除了視頻問(wèn)答之外,OmAgent 的最大特點(diǎn)是可以將智能體直接應用在硬件設備上,我們也對此進(jìn)行了測試。使用項目提供的 app,我們可以運行示例項目中的穿衣搭配推薦智能體。智能體會(huì )根據你的需求,以及你已有的衣櫥信息,為你推薦合適的穿衣建議。在這個(gè)過(guò)程中智能體會(huì )和用戶(hù)進(jìn)行多輪溝通以確定用戶(hù)需求,并最終返回最合適的搭配。

如果想了解更多OmAgent智能體技術(shù)信息,可以通過(guò)聯(lián)匯科技官網(wǎng)聯(lián)系!


本文地址:http://selenalain.com/thread-877127-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页