報告題目:基于多模態(tài)大模型的視覺內(nèi)容理解與生成
報告時間:7月23日上午10點
報告地點:民主樓313
報告摘要:多模態(tài)大模型在視覺內(nèi)容理解與生成的協(xié)同進化上展現(xiàn)出巨大潛力,也面臨關(guān)鍵挑戰(zhàn)。在視覺內(nèi)容理解上,真實世界的細(xì)粒度和多模態(tài)特性對大模型提出挑戰(zhàn);在視覺內(nèi)容生成上,如何生成內(nèi)容真實、邏輯合理且語義一致的視覺內(nèi)容是需要研究的關(guān)鍵問題。圍繞上述難題,本團隊在細(xì)粒度多模態(tài)大模型、AIGC等方面進行了相關(guān)研究,推動多模態(tài)大模型賦能視覺內(nèi)容的理解與生成。
報告人簡介:彭宇新,北京大學(xué)二級教授、博雅特聘教授,CAAI/CIE/CSIG Fellow,2019年國家杰出青年科學(xué)基金獲得者,2025年青年科學(xué)基金項目(A類)延續(xù)資助計劃獲得者,2019年國家萬人計劃科技創(chuàng)新領(lǐng)軍人才,2018年科技部中青年科技創(chuàng)新領(lǐng)軍人才,863項目首席專家,中國工程院“人工智能2.0”規(guī)劃專家委員會專家,中國人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟專家委員會主任,中國圖象圖形學(xué)學(xué)會副秘書長、提名與獎勵委員會副主任,北京圖象圖形學(xué)學(xué)會副理事長。主要研究方向為多媒體分析、計算機視覺、人工智能。以第一完成人獲2016年北京市科學(xué)技術(shù)獎一等獎和2020年中國電子學(xué)會科技進步獎一等獎,2008年獲北京大學(xué)寶鋼獎教金優(yōu)秀獎,2017年獲北京大學(xué)教學(xué)優(yōu)秀獎。主持了863、國家自然基金重點、北京自然基金聯(lián)合基金重點、發(fā)改委專項等40多個項目。發(fā)表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A類論文150多篇,獲最佳論文獎2次。10次參加由美國國家標(biāo)準(zhǔn)技術(shù)局NIST舉辦的國際評測TRECVID視頻搜索比賽,均獲第一名。成果應(yīng)用于國家網(wǎng)信辦、公安部、國家廣播電視總局等重要單位以及華為、騰訊、快手、蔚來、美團、中國電信、中國鐵塔等頭部企業(yè)。IEEE TCSVT高級領(lǐng)域編委、IEEE TMM等期刊編委,培養(yǎng)博士生獲中國計算機學(xué)會、中國電子學(xué)會等優(yōu)博。
