1月11日上午,悉尼大學(xué)張敬博士后研究員做客我?!拔囱雽?dǎo)師論壇”,在線作了題為“視覺Transformer模型結(jié)構(gòu)設(shè)計及其應(yīng)用”的學(xué)術(shù)報告。報告會由研究生院主辦,電氣與控制工程學(xué)院承辦,電控學(xué)院研究生導(dǎo)師及研究生參加了此次報告會,會議由電控學(xué)院劉偉峰教授主持。
報告會上,張敬研究員圍繞Transformer模型結(jié)構(gòu)的改進,首先介紹了將卷積神經(jīng)網(wǎng)絡(luò)與Transforme模型相結(jié)合,從參數(shù)數(shù)量、數(shù)據(jù)集大小、計算量、精度等方面對大模型的性能進行評估;其次,講解了如何通過改變Transformer模型的圖像輸入方式,提高Transformer在視覺領(lǐng)域中模型的魯棒性。最后,對上述模型在圖像識別、物體檢測、語義分割等領(lǐng)域的應(yīng)用及取得的顯著進展進行展示和匯報。
報告會結(jié)束后,與會師生與張敬研究員就報告內(nèi)容進行了深入的交流與探討。報告聚焦視覺Transformer前沿技術(shù),拓寬了師生學(xué)術(shù)視野和科研思路。
新聞小貼士:
張敬,博士,2015年畢業(yè)于中國科學(xué)技術(shù)大學(xué)自動化系,目前在悉尼大學(xué)計算機系從事博士后研究,主要從事計算機視覺與深度學(xué)習(xí)等人工智能領(lǐng)域的相關(guān)科學(xué)研究工作,在 CCF A類國際會議/期刊以及IEEE 匯刊等國際著名期刊已發(fā)表學(xué)術(shù)論文90余篇,谷歌學(xué)術(shù)引用6200余次。長期擔(dān)任著名國際學(xué)術(shù)期刊和會議審稿人、程序委員會委員、高級程序委員會委員及領(lǐng)域主席。2023年晉升為美國電氣和電子工程師協(xié)會(IEEE)高級會員。提出的ViTAE Transformer可廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割、視頻實例分割、圖像摳圖、目標(biāo)跟蹤、文字檢測和識別、遙感圖像分析等多個領(lǐng)域,并取得了非常有競爭力的結(jié)果,相關(guān)GitHub倉庫關(guān)注量超過5000。該模型在相關(guān)比賽或者公開數(shù)據(jù)集多次名列第一,受到廣泛關(guān)注。
(核稿:楊南 編輯:劉倩)