精品免费人成视频APP_人妻无码一区二区三区四区_国内露脸中年夫妇交换_中文字幕人妻熟人妻熟丝袜美_国产精品久久久久7777按摩_强睡邻居人妻中文字幕_久久精品国产精品亚洲下载_日本不卡一区二区三区_97人人模人人爽人人少妇_看全色黄大色大片免费久久

類腦通用智能大模型

日期:2025-05-30 10:09

導(dǎo)讀:2025年5月25日,2025國(guó)家新質(zhì)生產(chǎn)力與智能產(chǎn)業(yè)發(fā)展會(huì)議在北京隆重召開。本次會(huì)議以“向新而行·以質(zhì)致遠(yuǎn)”為主題,聚焦國(guó)家戰(zhàn)略需求,緊扣科技前沿,立足發(fā)展實(shí)踐,匯聚產(chǎn)學(xué)研用多方力量,打造了一場(chǎng)融合學(xué)術(shù)研討、產(chǎn)業(yè)前瞻與成果表彰的科技盛會(huì)。本次大會(huì)設(shè)置八場(chǎng)平行會(huì)議。在“人工智能前沿”平行會(huì)議中,特別邀請(qǐng)了中國(guó)科學(xué)院自動(dòng)化研究所研究員李國(guó)齊作題為“類腦通用智能大模型”的報(bào)告。李國(guó)齊研究員以大腦的信息處理機(jī)制為靈感,聚焦于樹突脈沖神經(jīng)網(wǎng)絡(luò)這一前沿領(lǐng)域。他結(jié)合自身團(tuán)隊(duì)的科研成果與最新進(jìn)展,深入剖析了構(gòu)建新一代通用類腦智能大模型基礎(chǔ)架構(gòu)的主要科學(xué)問題,并積極探索基于該新架構(gòu)實(shí)現(xiàn)低功耗人工智能發(fā)展的創(chuàng)新路徑。


關(guān)于人工智能是否需要類腦啟發(fā)的問題,當(dāng)前學(xué)術(shù)界仍存在較大爭(zhēng)論。Hinton曾明確表示,克服人工智能局限的關(guān)鍵在于建立計(jì)算機(jī)、科學(xué)和生物學(xué)之間的橋梁。


一、研究背景與發(fā)展態(tài)勢(shì)

2023年,提出“NeuroAI”概念的論文中也涉及這一問題,論文的作者中不乏諾貝爾獎(jiǎng)和圖靈獎(jiǎng)獲得者。LeCun本人也在其個(gè)人博客中提到該論文,稱神經(jīng)科學(xué)一直是AI強(qiáng)大驅(qū)動(dòng)力的關(guān)鍵。然而,DeepMind的科學(xué)家對(duì)此觀點(diǎn)提出了質(zhì)疑,認(rèn)為AI的重要成果并未受到神經(jīng)科學(xué)機(jī)制的啟發(fā),甚至指出許多頂級(jí)AI論文的成果并沒有借鑒神經(jīng)科學(xué)的機(jī)制。從最近諾貝爾獎(jiǎng)得主的學(xué)術(shù)背景來看,可以發(fā)現(xiàn)交叉學(xué)科的背景和思想碰撞為科研提供了重要的推動(dòng)力。例如,諾貝爾獎(jiǎng)獲得者 Hopfield是物理學(xué)學(xué)士和博士,在20世紀(jì)60年代便開始涉足物理學(xué)與生物學(xué)的交叉領(lǐng)域;Hinton則擁有心理學(xué)學(xué)士學(xué)位之后長(zhǎng)期在認(rèn)知科學(xué)系工作,之后專注于人工智能的研究。2024年諾貝爾化學(xué)獎(jiǎng)得主Hassabis擁有計(jì)算機(jī)科專業(yè)的學(xué)士學(xué)位,并于2005年轉(zhuǎn)向計(jì)算神經(jīng)科學(xué)領(lǐng)域攻讀博士學(xué)位。由此可見,交叉學(xué)科的融合不僅推動(dòng)了各學(xué)科的發(fā)展,也為解決復(fù)雜的科研問題提供了新的思路。盡管目前在AI是否受到腦科學(xué)啟發(fā)的問題上存在爭(zhēng)議,但腦科學(xué)與人工智能的結(jié)合已逐漸成為現(xiàn)實(shí),并在一些領(lǐng)域取得了顯著成果

回顧大模型的發(fā)展歷程,當(dāng)前主流的大模型架構(gòu)大多源自2017年谷歌提出的Transformer架構(gòu)。盡管最早并非由谷歌自身意識(shí)到Transformer架構(gòu)在規(guī)模擴(kuò)大上具有巨大潛力,但OpenAI卻在其基礎(chǔ)上研發(fā)了GPT系列,從GPT-1GPT-3,直到GPT-3參數(shù)規(guī)模擴(kuò)展至遷移參數(shù),引發(fā)學(xué)術(shù)界的廣泛關(guān)注,而ChatGPT的發(fā)布更是讓人工智能技術(shù)進(jìn)入了全球聚焦的視野。Transformer架構(gòu)的優(yōu)勢(shì)在于它能夠充分發(fā)揮GPU集群的高效計(jì)算能力,促進(jìn)了大規(guī)模語言模型的發(fā)展,例如DeepMindAlphaFold系列,成功為生物學(xué)領(lǐng)域帶來革新,并為其貢獻(xiàn)了諾貝爾獎(jiǎng)。

目前,人工智能已顯著進(jìn)入大模型時(shí)代,模型的規(guī)模和參數(shù)量也急劇增加。在Scaling Law理論的驅(qū)動(dòng)下,隨著模型規(guī)模、參數(shù)量及計(jì)算資源的不斷增加,當(dāng)前人工智能模型的性能得到了顯著提升。從GPT-11.17億參數(shù)到GPT-41.8萬億參數(shù),規(guī)模的增長(zhǎng)直接推動(dòng)了模型性能的提升。然而,隨著模型規(guī)模的不斷擴(kuò)大,也有必要思考,單純追求規(guī)模的增長(zhǎng)是否能持續(xù)推動(dòng)AI系統(tǒng)向更高階段發(fā)展,或者是否應(yīng)該尋求其他突破性的研究方向來進(jìn)一步優(yōu)化現(xiàn)有系統(tǒng)。

在中國(guó),大模型的研究和應(yīng)用面臨機(jī)遇和挑戰(zhàn)。雖然國(guó)內(nèi)如DeepSeek、字節(jié)跳動(dòng)、百度、騰訊、阿里等公司也開始涉足大模型領(lǐng)域,并推動(dòng)了國(guó)內(nèi)大模型的熱潮,但我認(rèn)為目前的挑戰(zhàn)主要集中在國(guó)內(nèi)GPU算力平臺(tái)的瓶頸問題上。目前國(guó)產(chǎn)AI芯片或國(guó)產(chǎn)GPU集群在高效穩(wěn)定支持超大規(guī)模大模型訓(xùn)練(比如萬卡集群乃至更大規(guī)模的集群)和推理上仍存在諸多挑戰(zhàn),尤其是在計(jì)算能力和功耗方面的限制使得大模型的高效運(yùn)行變得日益困難。為此,亟需研究并開發(fā)低功耗的智能計(jì)算系統(tǒng),以應(yīng)對(duì)當(dāng)前算力需求日益增長(zhǎng)的問題。

盡管Transformer架構(gòu)在大模型中取得了巨大的成功,但該架構(gòu)也面臨一些固有的缺點(diǎn)。例如,在訓(xùn)練過程中,隨著序列長(zhǎng)度的增加,開銷呈現(xiàn)平方復(fù)雜度;而在推理階段,時(shí)間和空間復(fù)雜度隨著序列長(zhǎng)度的增加而線性增長(zhǎng),導(dǎo)致處理超長(zhǎng)序列的能力受限。以DeepSeek為例,目前其最大支持64K128K長(zhǎng)度的序列學(xué)習(xí),但對(duì)于長(zhǎng)序列文本,如《紅樓夢(mèng)》或《三國(guó)演義》等超長(zhǎng)文本作品仍難以有效進(jìn)行處理和分析。

與此不同的是,大腦在處理信息時(shí)具有遠(yuǎn)超GPU的能效。大腦的神經(jīng)元數(shù)量已經(jīng)達(dá)到千億級(jí)別,而且神經(jīng)元之間的連接數(shù)通過突觸連接形成了極為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)神經(jīng)元與1,00010,000個(gè)其他神經(jīng)元進(jìn)行連接,形成了一個(gè)規(guī)模龐大的網(wǎng)絡(luò),這種結(jié)構(gòu)的能效遠(yuǎn)高于當(dāng)前的GPU架構(gòu)。由此,未來的AI研究或許應(yīng)當(dāng)通過關(guān)注模仿大腦的工作機(jī)制,借鑒神經(jīng)科學(xué)的原理探索更加高效的計(jì)算模型和架構(gòu)。

盡管當(dāng)前的大模型被視為點(diǎn)神經(jīng)元的模型,但大腦本身卻是一個(gè)極為復(fù)雜的動(dòng)態(tài)系統(tǒng)。每個(gè)神經(jīng)元的胞體和樹突可以通過數(shù)百到數(shù)千個(gè)微分方程來描述,這意味著,如果要全面刻畫大腦的動(dòng)態(tài)行為,其參數(shù)量可能高達(dá)100億億左右。然而,與此相對(duì)的是,大腦的功耗僅為20瓦左右。相比之下,當(dāng)前的大模型參數(shù)量低于大腦的參數(shù)規(guī)模好幾個(gè)數(shù)量級(jí),但其功耗卻高出了好幾個(gè)數(shù)量級(jí)。我們估算大腦的能效遠(yuǎn)超現(xiàn)有的CPU,其能效比高出十個(gè)以上的數(shù)量級(jí)。因此,思考神經(jīng)科學(xué)是否可以為新一代人工智能技術(shù)的理論與計(jì)算架構(gòu)提供貢獻(xiàn),成為了一個(gè)至關(guān)重要的課題。

然而,神經(jīng)科學(xué)與人工智能之間存在一個(gè)明顯的鴻溝。從當(dāng)前的研究來看,神經(jīng)科學(xué)主要側(cè)重于精細(xì)的結(jié)構(gòu)和生理細(xì)節(jié),強(qiáng)調(diào)神經(jīng)元之間的復(fù)雜連接以及大腦尺度的動(dòng)力學(xué),而人工智能則更注重抽象的結(jié)構(gòu)和計(jì)算的高效性,尤其是在大規(guī)模并行計(jì)算方面。例如,GPU在處理大規(guī)模并行計(jì)算時(shí),能夠?qū)崿F(xiàn)高效的計(jì)算能力,但它卻難以高效支持當(dāng)前神經(jīng)科學(xué)所關(guān)注的精細(xì)結(jié)構(gòu)和神經(jīng)元建模。這也就造成了神經(jīng)科學(xué)和人工智能之間的鴻溝:當(dāng)前人工智能模型往往難以將神經(jīng)科學(xué)中的復(fù)雜結(jié)構(gòu)融入進(jìn)來,并且難以將其擴(kuò)展到大規(guī)模的計(jì)算模型中。

我們提出的學(xué)術(shù)思路是,通過對(duì)比現(xiàn)有的大模型和大腦的差異,尋找未來研究的方向。現(xiàn)有的大模型可以用“點(diǎn)神經(jīng)元模型+自注意力機(jī)制+Transformer架構(gòu)”來表達(dá),而人腦的基本計(jì)算單位是樹突神經(jīng)元模型。與點(diǎn)神經(jīng)元模型相比,樹突神經(jīng)元模型要復(fù)雜得多,它具有樹狀結(jié)構(gòu),包含多個(gè)分支和房室,每個(gè)分支和房室都存在動(dòng)力學(xué)過程,并且每個(gè)分支上有不同的動(dòng)力學(xué)參數(shù),這使得樹突神經(jīng)元模型具備多尺度的記憶能力。因此,我們的目標(biāo)是探討是否可以將這種人腦機(jī)制融入到現(xiàn)有的大模型中,從而構(gòu)建一個(gè)通用的類腦智能大模型架構(gòu)。

為了實(shí)現(xiàn)這一目標(biāo),我們提出了幾個(gè)改進(jìn)的觀點(diǎn)。首先,當(dāng)前的大模型在生物學(xué)的可信程度上較低,未能充分利用大腦復(fù)雜的多尺度動(dòng)力學(xué)特征。以神經(jīng)元模型為例,現(xiàn)有的大多數(shù)深度學(xué)習(xí)模型使用的是“點(diǎn)神經(jīng)元模型”,其結(jié)構(gòu)相對(duì)簡(jiǎn)單,而樹突脈沖神經(jīng)元模型則更為復(fù)雜,包含多分支和多房室的結(jié)構(gòu),每個(gè)分支都具有不同的動(dòng)力學(xué)特征,可以帶來更強(qiáng)的記憶能力。

其次,大模型的功耗過高,未能充分體現(xiàn)人腦低功耗計(jì)算的優(yōu)勢(shì)。人腦通過事件驅(qū)動(dòng)、動(dòng)態(tài)計(jì)算和稀疏計(jì)算來處理信息,而當(dāng)前的大模型則主要依賴大規(guī)模、密集的矩陣乘法和向量運(yùn)算,造成了其高能耗的特性。人腦在計(jì)算過程中,通過選擇性地激活計(jì)算單元來節(jié)省能量,而這一點(diǎn)在大模型中尚未得到有效應(yīng)用。

此外,現(xiàn)有的大模型也未能充分利用神經(jīng)元種類的多樣性。在目前的模型中,盡管參數(shù)量可以達(dá)到百億甚至千億級(jí)別,但每個(gè)神經(jīng)元的工作方式基本相同,缺乏神經(jīng)元種類之間的差異性。與此相比,大腦中的神經(jīng)元種類豐富,并且即使是同一種類的神經(jīng)元,其動(dòng)力學(xué)參數(shù)也大不相同。這種多樣性使得人腦能夠在處理不同任務(wù)時(shí)表現(xiàn)出優(yōu)異的通用性和泛化能力,而現(xiàn)有的大模型在這一方面仍顯不足。

 

二、類腦通用智能大模型-關(guān)鍵科學(xué)問題

未來的人工智能系統(tǒng)應(yīng)更多地考慮如何從神經(jīng)科學(xué)中汲取靈感,尤其是如何將大腦的多尺度動(dòng)力學(xué)、低功耗計(jì)算和神經(jīng)元多樣性融入到大模型的設(shè)計(jì)中,以提升其智能水平、能效和泛化能力。這一方向的研究,或許能夠幫助我們突破當(dāng)前大模型的局限,開啟AI發(fā)展新的篇章。

當(dāng)前,盡管大模型在各個(gè)領(lǐng)域取得了顯著進(jìn)展,但它們?cè)诠姆矫嫒匀贿^于高,與人腦的能效相比存在較大差距,且在計(jì)算架構(gòu)上還有許多潛在的改進(jìn)空間。我們希望借助大腦信息處理的機(jī)制,優(yōu)化現(xiàn)有的基礎(chǔ)模型計(jì)算架構(gòu),從而推動(dòng)下一代模型的效率和性能。為了實(shí)現(xiàn)這一目標(biāo),需要構(gòu)建一個(gè)從腦科學(xué)、神經(jīng)科學(xué)到人工智能的橋梁。神經(jīng)科學(xué)與人工智能之間的鴻溝可以通過樹突計(jì)算和樹突脈沖神經(jīng)網(wǎng)絡(luò)(DSNN)來彌合,因?yàn)闃渫簧窠?jīng)網(wǎng)絡(luò)具備內(nèi)生的時(shí)空動(dòng)態(tài)特征,并且神經(jīng)元能夠進(jìn)行01的通信、事件驅(qū)動(dòng)以及系數(shù)加法等計(jì)算特性。通過這一計(jì)算機(jī)制,我們希望能夠構(gòu)建一個(gè)通用的類腦智能大模型,既能在性能上與傳統(tǒng)大模型相匹配,同時(shí)在代價(jià)上大幅降低。

脈沖神經(jīng)網(wǎng)絡(luò)(SNN)作為一種新興的類腦計(jì)算范式,能夠在計(jì)算高效性與生物合理性之間找到一個(gè)平衡點(diǎn)。這一平衡使得脈沖神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)高效的計(jì)算,且功耗顯著低于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。神經(jīng)形態(tài)芯片的出現(xiàn)為大規(guī)模脈沖神經(jīng)網(wǎng)絡(luò)的模擬與計(jì)算提供了支持。此外,人工神經(jīng)網(wǎng)絡(luò)(ANN)架構(gòu),如MLPCNNTransformer等,雖然在深度學(xué)習(xí)領(lǐng)域取得了重要進(jìn)展,但其基于“點(diǎn)神經(jīng)元”的計(jì)算單元限制了其計(jì)算效率的提升。相比之下,脈沖神經(jīng)網(wǎng)絡(luò)通過事件驅(qū)動(dòng)的稀疏加法,在能效方面具備更大的優(yōu)勢(shì)。

然而,基于脈沖神經(jīng)網(wǎng)絡(luò)構(gòu)建類腦大模型仍面臨一系列科學(xué)挑戰(zhàn)。其中最主要的問題之一是如何突破現(xiàn)有的scaling law”驅(qū)動(dòng)模型的限制。當(dāng)前的大模型主要通過增加神經(jīng)元數(shù)量、層數(shù)、寬度以及參數(shù)量來提升性能,這種外生復(fù)雜性驅(qū)動(dòng)的增長(zhǎng)方式存在一定的局限性。因此,我們提出要改變這一思路,轉(zhuǎn)向基于內(nèi)生復(fù)雜性的新型通用類腦大模型架構(gòu)。內(nèi)生復(fù)雜性指的是神經(jīng)元的內(nèi)部結(jié)構(gòu)和動(dòng)態(tài)特性所帶來的復(fù)雜性,而非僅依賴于外部規(guī)模的擴(kuò)展。

在這一過程中,需要解決三個(gè)層面的科學(xué)問題。首先,在神經(jīng)元模型層面,現(xiàn)有的大多數(shù)神經(jīng)網(wǎng)絡(luò)模型采用的是“點(diǎn)神經(jīng)元”模型,我們的目標(biāo)是構(gòu)建樹突神經(jīng)元模型,這種模型更接近大腦的神經(jīng)元結(jié)構(gòu),具有多房室和多分支的復(fù)雜結(jié)構(gòu)。盡管這種精細(xì)化的神經(jīng)元結(jié)構(gòu)能夠帶來更多的計(jì)算動(dòng)態(tài),但在GPU上進(jìn)行大規(guī)模訓(xùn)練時(shí),將面臨極大的挑戰(zhàn),尤其是在如何提升并行訓(xùn)練速度、證明樹突神經(jīng)元模型在理論上的通用性與泛化性方面,需要深入研究。

其次,在神經(jīng)網(wǎng)絡(luò)層面,我們希望能夠替代現(xiàn)有的Transformer架構(gòu)。Transformer模型由于其計(jì)算復(fù)雜度的二次增長(zhǎng),導(dǎo)致推理時(shí)的時(shí)間和空間復(fù)雜度也呈線性增長(zhǎng)。因此,需要尋求一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)能夠?qū)崿F(xiàn)線性復(fù)雜度,以解決Transformer架構(gòu)在大規(guī)模應(yīng)用中的局限性。

我們的目標(biāo)是通過引入脈沖神經(jīng)網(wǎng)絡(luò)和基于內(nèi)生復(fù)雜性的設(shè)計(jì)理念,構(gòu)建一個(gè)更為高效、低功耗且具備更高智能水平的類腦大模型。盡管這一過程面臨許多挑戰(zhàn),通過克服這些科學(xué)問題,能夠?yàn)橄乱淮斯ぶ悄艿幕A(chǔ)架構(gòu)提供全新的解決方案。

在高效計(jì)算層面,不僅要優(yōu)化現(xiàn)有的大模型技術(shù),還要結(jié)合脈沖神經(jīng)網(wǎng)絡(luò)的獨(dú)特優(yōu)化方法,特別是在擴(kuò)展層面和圈層結(jié)構(gòu)的優(yōu)化上。然而,盡管脈沖神經(jīng)網(wǎng)絡(luò)具備顯著的低功耗優(yōu)勢(shì),它在類腦大模型的研究中并沒有成為主流。這是因?yàn)椋L(zhǎng)期以來,脈沖神經(jīng)網(wǎng)絡(luò)面臨著一個(gè)關(guān)鍵問題——缺乏高效的大規(guī)模學(xué)習(xí)算法和計(jì)算理論。由于這一局限,脈沖神經(jīng)網(wǎng)絡(luò)在許多主流神經(jīng)網(wǎng)絡(luò)性能指標(biāo)上與傳統(tǒng)模型存在較大差距。因此,盡管脈沖神經(jīng)網(wǎng)絡(luò)在理論上具有許多優(yōu)勢(shì),但由于性能的落后,許多研究者對(duì)其應(yīng)用前景持懷疑態(tài)度,尤其是在AI領(lǐng)域,性能往往是衡量技術(shù)價(jià)值的最關(guān)鍵標(biāo)準(zhǔn)。

目前的挑戰(zhàn)是如何突破這一困境,為脈沖神經(jīng)網(wǎng)絡(luò)的應(yīng)用提供更加高效的大規(guī)模學(xué)習(xí)算法和計(jì)算框架,以便使其在與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的競(jìng)爭(zhēng)中取得更好的表現(xiàn)。這將是未來推進(jìn)脈沖神經(jīng)網(wǎng)絡(luò)向主流發(fā)展并取得更廣泛應(yīng)用的關(guān)鍵所在。

 

三、重要進(jìn)展與展望

首先,在理論層面,我們發(fā)表了一系列關(guān)于脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的研究論文,成功解決了脈沖神經(jīng)網(wǎng)絡(luò)在大規(guī)模訓(xùn)練中的主要問題。過去,脈沖神經(jīng)網(wǎng)絡(luò)通常只能處理510層的結(jié)構(gòu),而現(xiàn)在,已經(jīng)能夠?qū)崿F(xiàn)50500層的深層網(wǎng)絡(luò)架構(gòu)。這一進(jìn)展使得脈沖神經(jīng)網(wǎng)絡(luò)在性能上大大提升。2023年,提出了SpikeGPT,并在AI頂會(huì)NeurIPSICLR和權(quán)威期刊IEEE TPAMI上發(fā)布了全異步驅(qū)動(dòng)(Spike-driven Transformer)架構(gòu)的V1/V2/V3版本。此外,在ICML上提出了可逆的脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法,解決了訓(xùn)練過程中的復(fù)雜度問題。我們關(guān)于脈沖神經(jīng)網(wǎng)絡(luò)研究成果在ECCVNeurIPSAAAI等多個(gè)會(huì)議中獲得了最佳論文獎(jiǎng)提名和Oral報(bào)告,推動(dòng)了脈沖神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域與主流模型的對(duì)比和競(jìng)爭(zhēng)。

在神經(jīng)元模型層面,在今年的ACL會(huì)議上,提出了多房室、多分支的并行脈沖神經(jīng)元模型,該模型在解決長(zhǎng)序列建模的問題取得進(jìn)展。我們提出的Spike-driven Transformer系列工作,其中V1版本于2023年在NeurIPs上發(fā)布,采用了“Spike-driven self-attention SDSA)”算子,能效相比Self-attention提升4080倍,發(fā)表于IEEE TPAMIV3版本則在圖像處理任務(wù)中達(dá)到了86.7%的精度,接近當(dāng)前主流神經(jīng)網(wǎng)絡(luò)模型的表現(xiàn)。脈沖神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中能夠保持低顯存和低延遲,同時(shí)在能效上提供量級(jí)的提升。例如,MetaLA線性統(tǒng)一模型架構(gòu),能夠在性能上超越當(dāng)前主流的Mamba網(wǎng)絡(luò)架構(gòu),這一成果在2024NeurIPSOral論文中有所展示。我們還將線性Transformer模型與SSM和線性RNN統(tǒng)一成一個(gè)統(tǒng)一的框架,使得不同類型的線性模型可以相互轉(zhuǎn)化。

在架構(gòu)層面,2024年和其它團(tuán)隊(duì)合作在Nature Communication上提出了樹突脈沖神經(jīng)網(wǎng)絡(luò),同時(shí)在Nature Computational Science期刊(NCS)上發(fā)布了基于內(nèi)生復(fù)雜性構(gòu)建神經(jīng)科學(xué)到人工智能橋梁的理論框架。這一思路被認(rèn)為是構(gòu)建類腦大模型的重要思想基礎(chǔ)。 NCS期刊發(fā)表評(píng)論認(rèn)為AI研究更多偏向于工程和應(yīng)用,而神經(jīng)科學(xué)則具有更強(qiáng)的探索性。如果能夠?qū)⒏敿?xì)且生物上更真實(shí)的神經(jīng)元模型納入深度學(xué)習(xí)的框架中,必定能夠推動(dòng)深度學(xué)習(xí)取得更大的進(jìn)展。

通過這些進(jìn)展,我們團(tuán)隊(duì)已成功解決了脈沖神經(jīng)網(wǎng)絡(luò)面臨的一系列瓶頸,并在多個(gè)領(lǐng)域取得了顯著的技術(shù)突破。未來,將繼續(xù)推動(dòng)這一方向的發(fā)展,尤其是在深層結(jié)構(gòu)訓(xùn)練和計(jì)算效率優(yōu)化方面,力求突破當(dāng)前的技術(shù)瓶頸,為類腦智能大模型的實(shí)現(xiàn)奠定堅(jiān)實(shí)的基礎(chǔ)。

在訓(xùn)練平臺(tái)方面,與北京大學(xué)田永鴻教授合作開源了SN的訓(xùn)練平臺(tái)——SpikingJelly。這個(gè)平臺(tái)可以在CPUGPU層面加速脈沖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,速度相比之前的主流平臺(tái)可提升一個(gè)數(shù)量級(jí)。

在應(yīng)用層面,去年在ECCV上提出了SpikeYolo框架,專注于物體檢測(cè)領(lǐng)域。我們?cè)?/span>COCO數(shù)據(jù)集上測(cè)試時(shí),脈沖神經(jīng)網(wǎng)絡(luò)的表現(xiàn)與Yolo-V8模型相當(dāng),且能效可提升5-20倍。這個(gè)工作彌補(bǔ)了SNN與當(dāng)前人工智能主流模型之間的差距,展示了脈沖神經(jīng)網(wǎng)絡(luò)在低功耗計(jì)算中的巨大潛力。此外,還提出了基于脈沖神經(jīng)元的大模型量化框架。這項(xiàng)研究成果使得我們僅用單卡80GB A100 GPU 16小時(shí)就可實(shí)現(xiàn)LLAMA框架下700億參數(shù)的大模型量化。通過提出的OBS框架能夠檢測(cè)神經(jīng)元的顯著性,并對(duì)顯著性高的神經(jīng)元量化采用更長(zhǎng)的步長(zhǎng),從而優(yōu)化模型的性能。

今年在AAAI2026上投遞了一篇文章,提出了一個(gè)基于脈沖神經(jīng)網(wǎng)絡(luò)的3D視覺語言訓(xùn)練框架。通過對(duì)3D稀疏數(shù)據(jù)集的研究,我們發(fā)現(xiàn)脈沖神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的性能能夠超越現(xiàn)有的主流神經(jīng)網(wǎng)絡(luò)模型,取得了行業(yè)領(lǐng)先的成績(jī)。

在芯片層面,將脈沖神經(jīng)網(wǎng)絡(luò)部署到感算一體的類腦芯片上進(jìn)行實(shí)測(cè),取得了低功耗計(jì)算的顯著成果。例如,在識(shí)時(shí)科技合作中,將注意力機(jī)制部署到脈沖神經(jīng)網(wǎng)絡(luò)中,經(jīng)過測(cè)試,功耗僅為0.41毫瓦,典型任務(wù)的功耗也僅為毫瓦級(jí)別。脈沖神經(jīng)網(wǎng)絡(luò)能效優(yōu)勢(shì)主要來自三個(gè)方面:首先,替代了傳統(tǒng)的加法計(jì)算;其次,能夠控制脈沖的發(fā)放率,使得計(jì)算更加稀疏;最后,通過事件驅(qū)動(dòng)的激活方式,結(jié)合異步芯片架構(gòu),極大地降低了信息處理的功耗。

最近我們提出了一個(gè)神經(jīng)形態(tài)大模型框架,專門解決當(dāng)前AI大模型中的兩個(gè)核心問題:低功耗和可解釋性。在這一框架中,成功將一個(gè)15億參數(shù)的大模型部署到FPGA平臺(tái),動(dòng)態(tài)功耗控制在13瓦左右,整個(gè)推理過程可以避免使用乘法運(yùn)算。此外,通過構(gòu)建等價(jià)的脈沖發(fā)放特性的神經(jīng)形態(tài)大模型,可以觀測(cè)模型的內(nèi)部動(dòng)態(tài)狀態(tài),可推動(dòng)AI模型的可解釋性研究。

為了進(jìn)一步推動(dòng)脈沖神經(jīng)網(wǎng)絡(luò)的發(fā)展,正在與國(guó)產(chǎn)GPU公司展開合作,致力于訓(xùn)練7B-70B量級(jí)的類腦大模型。我們希望打通從國(guó)產(chǎn)數(shù)據(jù)到國(guó)產(chǎn)基礎(chǔ)模型、從國(guó)產(chǎn)算力平臺(tái)再到類腦芯片的研究鏈條,同時(shí)中國(guó)科學(xué)院與自動(dòng)化研究所與中國(guó)科學(xué)院腦智卓越中心共同成立了腦認(rèn)知與類腦智能全國(guó)重點(diǎn)實(shí)驗(yàn)室。此外,自動(dòng)化所申請(qǐng)了北京通用智能大模型的北京重點(diǎn)實(shí)驗(yàn)室以推動(dòng)類腦大模型的技術(shù)突破 

我們希望能夠構(gòu)建出百億到千億參數(shù)規(guī)模的通用類腦大模型,在邊緣端實(shí)現(xiàn)極低功耗的傳統(tǒng)計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用計(jì)算,在端側(cè)應(yīng)用中支持3B10B參數(shù)的垂直場(chǎng)景大模型,并在云端部署70B及以上的類腦大模型。這一目標(biāo)的實(shí)現(xiàn)將促進(jìn)類腦智能技術(shù)的廣泛應(yīng)用和生態(tài)系統(tǒng)的快速發(fā)展。

總之當(dāng)前類腦計(jì)算方面的研究已經(jīng)取得了顯著的進(jìn)展,未來將通過跨學(xué)科的合作,推動(dòng)算法、訓(xùn)練平臺(tái)、軟件、芯片和平臺(tái)的深度整合,為類腦大模型的廣泛應(yīng)用鋪平道路。

*本文根據(jù)作者所作報(bào)告速記整理而成

 

嘉賓簡(jiǎn)介: 

李國(guó)齊,中國(guó)科學(xué)院自動(dòng)化研究所研究員,博士生導(dǎo)師,腦認(rèn)知與類腦智能全國(guó)重點(diǎn)實(shí)驗(yàn)室副主任,通用類腦智能大模型北京市重點(diǎn)實(shí)驗(yàn)室主任,國(guó)家杰出青年基金獲得者;在NatureNature子刊、Science 子刊等期刊和AI頂會(huì)上發(fā)表論文 200余篇,論文被引用1.6萬余次;主持國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目、聯(lián)合重點(diǎn)項(xiàng)目、科技部重點(diǎn)研發(fā)項(xiàng)目等30余項(xiàng);擔(dān)任IEEE TNNLSIEEE TCDS和清華大學(xué)學(xué)報(bào)-自然科學(xué)版編委;曾獲得中國(guó)自動(dòng)化學(xué)會(huì)自然科學(xué)一等獎(jiǎng),ECCV最佳論文獎(jiǎng)提名,中國(guó)算力大會(huì)最佳論文獎(jiǎng),曾入選北京市杰青,中國(guó)科學(xué)院百人計(jì)劃,DeepTech中國(guó)智能計(jì)算科技創(chuàng)新人物,中國(guó)算力青年先鋒人物。