忘記密碼
近日,上海人工智能實驗室通用視覺團隊推出以對話為中心的視頻理解新范式VideoChat,基于書生通用視頻模型(InternVideo)首次提出整合視頻理解基礎模型和大語言模型的兩種方式:VideoChat-Text(多種感知模型顯式描述視頻)和VideoChat-Embed(單一視頻模型隱式編碼視頻)。目前,數據和模型已開源。
技術報告:https://arxiv.org/abs/2305.06355
開源代碼:https://github.com/OpenGVLab/Ask-Anything
【一起看視頻、聊視頻、做視頻 】
用VideoChat陪你看視頻,它不僅能看懂劇情,和你聊劇情,甚至對視頻中的舞蹈提供配樂建議。如何做到的?一起來看看吧!
看劇場景
研究人員從學術數據集TVQA隨機選取視頻素材對VideoChat進行測試,結果如下圖所示,相較于miniGPT4、LLava、mPLUG-owl等圖文問答模型,VideoChat能更好地理解圖像和視頻并回答相關問題。
視頻理解
VideoChat對視頻的理解不僅限于對環境、人物、物品的識別,甚至可以理解視頻中人物的表情、情緒以及整體氛圍。
例如,針對下面的視頻,VideoChat不僅能夠“看到”視頻內的人穿著白色襯衫和藍色褲子在冰箱前跳舞,周圍有許多卡通人物,還能“感知”到他在跳舞時面帶微笑,充滿喜悅,享受音樂,帶有活力和熱情;VideoChat甚至“看懂”了視頻中的幽默之處:男子的舞蹈與廚房內的物品形成有趣的對比。
在“看懂”視頻的基礎上,VideoChat甚至能對視頻配樂提出改善建議。例如,針對下面的舞蹈視頻,VideoChat的建議是配上動漫音樂,看來它也是懂二次元的。
時間和空間感知
VideoChat-Text和VideoChat-Embed都具備強大的時間和空間感知能力,但VideoChat-Embed的隱式視頻編碼能更深入地感知視頻深層含義,如攝像機的鏡頭語言等。
在時間感知與分析中,VideoChat-Text(下圖右)可以識別出視頻中做瑜伽的動作,甚至給出了人物可能摔倒的判斷并進行安全提醒。這里用到了視頻基礎模型InternVideo和其他感知模型強大的視覺建模能力和大語言模型對事件的對話能力。而VideoChat-Embed(下圖左)中除了可以正確識別出視頻中任務的動作之外,還能夠定位事件發生的時間、視頻拍攝的地點和攝像機的鏡頭語言,后者是僅靠顯式視頻描述與大語言模型結合所難以達成的。
圖片理解
此外VideoChat同樣能讀懂圖片,發個表情包給VideoChat,它也懂打工人周一的心情。
【如何實現?】
研究人員的初衷是利用大語言模型(Large Language Model,LLM)來理解視頻,為此構建了兩種以聊天為中心的通用視頻理解新范式:
1. VideoChat-Text:將視頻翻譯成詳細的文本描述
2. VideoChat-Embed:將視頻映射為文本空間的特征編碼
VideoChat-Text
VideoChat-Text將視頻利用多種感知模型直接編碼成文本描述信息,如視頻分類模型得到行為類別,圖像描述模型得到不同幀的空間細節信息,語音識別生成字幕等,下圖展示了對《老友記》部分情節的文本描述:
在生成視頻文本描述后,將這些細節描述信息通過下述prompt模版結合,輸進大語言模型輔助理解。
理論上VideoChat-Text可以通過結合檢測、分割、跟蹤等模型得到視頻的詳細描述,并且可以利用ChatGPT等大語言模型得到魯棒性較強的效果。但缺點是token非常冗余,限制了LLM能力的發揮,且效果受限于感知模型的種類和效果。
VideoChat-Embed
VideoChat-Embed框架和微調數據
VideoChat-Embed則利用視頻基礎模型,隱式地將視頻信息編碼為文本對齊的編碼。在本論文中,研究人員遷移了BLIP的圖文預訓練模型。為了增強圖像模型的視頻理解能力,研究人員借鑒UniFormerV2(點擊了解)將圖像編碼器改造為高效地視頻編碼器,并利用預訓練的QFormer將冗余的視頻token壓縮,最后使用簡單的線性層對齊大語言模型的特征維度。
兩階段訓練方式
為了提高訓練效率,研究者們在訓練時將視覺編碼器、QFormer和文本編碼器凍結,僅訓練額外的GMHRA、query和linear層,并且設計了兩階段訓練方法。在第一階段使用10M視頻數據加15M圖像數據 (CC3M+CC12M+COCO Caption+SBU+VG)進行簡單描述對齊。而在第二階段,研究者們標注了11K的視頻指令微調數據(7K視頻詳細描述+4K的視頻對話數據),并使用額外的7K圖像指令微調數據(3K來自MiniGPT-4的圖像詳細描述+2K來自LLaVA的圖像對話數據+2K來自LLaVA的圖像推理數據)。具體地,對于詳細的視頻描述數據,利用VideoChat-Text提供上下文,使用GPT-4生成對應的詳細描述,并復用MiniGPT-4的后處理prompt,去除無意義與重復描述。而對于多輪的視頻對話,研究人員借鑒LLaVA,設計了復雜的視頻prompt生成,具體可閱讀文末技術報告。指令數據例子如下所示:
目前VideoChat對于圖像和視頻都有較好的感知。未來,團隊將基于書生通用視頻模型(InternVideo)進一步強化模型計數、位置、時序等能力,設計更豐富的指令微調數據,解決更復雜的長視頻因果推理。