人工智能在圖像識別、音頻處理、自然語言處理、大模型等領(lǐng)域應(yīng)用極為廣泛。新興智能應(yīng)用對AI芯片的算力和能效提出了更高的要求。存內(nèi)計算技術(shù)通過將存儲與計算深度融合,能大幅度降低冗余的數(shù)據(jù)搬運,有效提升AI芯片能效。在各種存儲介質(zhì)中,SRAM具有工作電壓低、讀寫速度快、讀寫功耗低,工藝兼容性好等顯著優(yōu)勢,近年來,基于SRAM的存內(nèi)計算芯片在能效、算力等方面相比于傳統(tǒng)架構(gòu)取得了質(zhì)的飛躍。不同應(yīng)用場景通常需要不同的計算位寬以實現(xiàn)計算精度與能效的最優(yōu)化。但當前基于SRAM的存內(nèi)計算芯片仍然面臨不同配置下的陣列利用率和能效損失等問題,導(dǎo)致其難以實現(xiàn)最佳的能效。
針對以上問題,中國科學院微電子研究所喬樹山研究員團隊設(shè)計了一款基于SRAM的數(shù)字可重構(gòu)存內(nèi)計算芯片。該存內(nèi)計算芯片采用全數(shù)字設(shè)計,能夠保證不同位寬配置下的精確計算。為實現(xiàn)不同位寬配置下的高利用率和高能效,團隊提出了一種基于行計算的數(shù)字存內(nèi)計算架構(gòu),該架構(gòu)能夠?qū)崿F(xiàn)1-8bit內(nèi)任意位寬下有符號/無符號計算,且在不同配置下均能實現(xiàn)極高的計算資源利用率。為了進一步提升系統(tǒng)的能效,團隊對數(shù)字存內(nèi)計算芯片中功耗占比最高的求和陣列進行了低功耗設(shè)計,提出了一種基于4-2壓縮器的求和陣列,并采用定制化的設(shè)計方法設(shè)計了一款低功耗4-2壓縮器,有效降低了求和操作的能耗。該存內(nèi)計算芯片支持1-8bit的計算位寬,1bit乘累加峰值能效突破2238TOPS/W,4bit乘累加峰值能效突破44.82TOPS/W。
本工作以“A 1–8b Reconfigurable Digital SRAM Compute-in-Memory Macro for Processing Neural Networks”為題發(fā)表在集成電路頂級期刊IEEE Transactions on Circuits and Systems I: Regular Papers,微電子所喬樹山研究員為通訊作者。
????該研究得到了科技部科技創(chuàng)新2030重大項目、地方合作等項目的支持。
圖1. 基于SRAM的可重構(gòu)存內(nèi)計算芯片顯微照片及芯片參數(shù)
圖2. 數(shù)字可重構(gòu)存內(nèi)計算芯片架構(gòu)圖
科研工作