基于多模態(tài)大模型的視覺內(nèi)容理解與生成學(xué)術(shù)報告

發(fā)布時間：2025年07月21日作者：彭宇新瀏覽次數(shù)：

報告題目：基于多模態(tài)大模型的視覺內(nèi)容理解與生成

報告時間：7月23日上午10點

報告地點：民主樓313

報告摘要：多模態(tài)大模型在視覺內(nèi)容理解與生成的協(xié)同進化上展現(xiàn)出巨大潛力，也面臨關(guān)鍵挑戰(zhàn)。在視覺內(nèi)容理解上，真實世界的細(xì)粒度和多模態(tài)特性對大模型提出挑戰(zhàn)；在視覺內(nèi)容生成上，如何生成內(nèi)容真實、邏輯合理且語義一致的視覺內(nèi)容是需要研究的關(guān)鍵問題。圍繞上述難題，本團隊在細(xì)粒度多模態(tài)大模型、AIGC等方面進行了相關(guān)研究，推動多模態(tài)大模型賦能視覺內(nèi)容的理解與生成。

報告人簡介：彭宇新，北京大學(xué)二級教授、博雅特聘教授，CAAI/CIE/CSIG Fellow，2019年國家杰出青年科學(xué)基金獲得者，2025年青年科學(xué)基金項目（A類）延續(xù)資助計劃獲得者，2019年國家萬人計劃科技創(chuàng)新領(lǐng)軍人才，2018年科技部中青年科技創(chuàng)新領(lǐng)軍人才，863項目首席專家，中國工程院“人工智能2.0”規(guī)劃專家委員會專家，中國人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟專家委員會主任，中國圖象圖形學(xué)學(xué)會副秘書長、提名與獎勵委員會副主任，北京圖象圖形學(xué)學(xué)會副理事長。主要研究方向為多媒體分析、計算機視覺、人工智能。以第一完成人獲2016年北京市科學(xué)技術(shù)獎一等獎和2020年中國電子學(xué)會科技進步獎一等獎，2008年獲北京大學(xué)寶鋼獎教金優(yōu)秀獎，2017年獲北京大學(xué)教學(xué)優(yōu)秀獎。主持了863、國家自然基金重點、北京自然基金聯(lián)合基金重點、發(fā)改委專項等40多個項目。發(fā)表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A類論文150多篇，獲最佳論文獎2次。10次參加由美國國家標(biāo)準(zhǔn)技術(shù)局NIST舉辦的國際評測TRECVID視頻搜索比賽，均獲第一名。成果應(yīng)用于國家網(wǎng)信辦、公安部、國家廣播電視總局等重要單位以及華為、騰訊、快手、蔚來、美團、中國電信、中國鐵塔等頭部企業(yè)。IEEE TCSVT高級領(lǐng)域編委、IEEE TMM等期刊編委，培養(yǎng)博士生獲中國計算機學(xué)會、中國電子學(xué)會等優(yōu)博。