智能體已經(jīng)能像人一樣刷視頻了?國內知名大模型獨角獸級別公司,資深AI玩家聯(lián)匯科技退出了OmAgent智能體,已經(jīng)開(kāi)啟試用。
當你正在觀(guān)看一部緊張刺激的動(dòng)作電影,忽然好奇: “那個(gè)角色到底是在哪一集說(shuō)的那句話(huà)?” “這里的背景音樂(lè )是什么?” 又或者在一場(chǎng)足球比賽中,你錯過(guò)了那個(gè)決定性的進(jìn)球,卻又想再次回放。諸如此類(lèi)的需求,如果僅憑人力尋找,無(wú)疑存在極大的工作量。 但是 AI 能夠為機器配置雙眼與大腦,讓它們能夠看懂視頻、理解劇情,對于普通人來(lái)說(shuō),這不僅是提高了搜索效率,更是擴展我們與數字世界的互動(dòng)方式。 英偉達最新發(fā)布的 NVIDIA AI Blueprint 希望幫助人們解決這一問(wèn)題。這是一種預訓練的、可自定義 AI 工作流,他為開(kāi)發(fā)者構建和部署用于典型用例的生成式 AI 應用程序提供了一套完整的解決方案。 比如在英偉達提供的試用界面中,你可以選擇三個(gè)視頻片段中的一個(gè)進(jìn)行內容問(wèn)答。 在幾輪測試過(guò)后,我們發(fā)現 Blueprint 對視頻問(wèn)答還是有不錯的效果的。你可以提問(wèn)某個(gè)事件發(fā)生的時(shí)間,也可以提問(wèn)某個(gè)對象的狀態(tài)。 尤其令人遺憾的是,在試用過(guò)程中我們不斷遇到流量限制,無(wú)限驗證等問(wèn)題,試用體驗可以說(shuō)一言難盡。并且目前 Blueprint 仍然處于早期申請使用制階段,沒(méi)有辦法快速進(jìn)行使用。 Blueprint 之外,我們還有什么選擇? 經(jīng)過(guò)一番搜索和調研,我們在 Github 上發(fā)現了 OmAgent 這個(gè)項目,這是一個(gè)多模態(tài)智能體框架,提供了同樣強大的視頻問(wèn)答功能。 項目地址:https://github.com/om-ai-lab/OmAgent OmAgent 是什么 OmAgent 是一個(gè)開(kāi)源的智能體框架,支持簡(jiǎn)單快速地面向設備進(jìn)行智能體系統的開(kāi)發(fā),為智能手機、智能可穿戴設備、智能攝像頭乃至機器人等各類(lèi)硬件設備賦能。OmAgent 為各種類(lèi)型的設備創(chuàng )建了一個(gè)抽象概念,并大大簡(jiǎn)化了將這些設備與最先進(jìn)的多模態(tài)基礎模型和智能體算法相結合的過(guò)程,使每個(gè)人都能基于設備建立最有趣的 AI 應用。 OmAgent 的設計架構遵循三個(gè)基本原則:
A: Q: Which direction did the forklift go? A:
A: 接下來(lái)我們進(jìn)行更復雜的測試,OmAgent 可以支持音頻信息以及超長(cháng)視頻索引。我們選取了最近大火的劇集《雙城之戰》第二季第一集作為素材,基于其中的畫(huà)面和劇情進(jìn)行提問(wèn)。 A:
A: Q: 視頻最后幾個(gè)議員在討論什么? A:
A: 可以看到,即使面對如此復雜的視頻素材,OmAgent 依然可以游刃有余。 如果想了解更多OmAgent智能體技術(shù)信息,可以通過(guò)聯(lián)匯科技官網(wǎng)聯(lián)系! |