存內計算(CIM)芯片相比傳統(tǒng)馮諾依曼架構芯片在宏單元層級實現(xiàn)了高能效,但系統(tǒng)層級的復雜周邊電路使得系統(tǒng)能效仍然受限,系統(tǒng)/宏單元能效比通常低40%,使其在面向神經網絡和推薦系統(tǒng)應用領域仍然存在一些挑戰(zhàn)。此外,對存儲主導(例如推薦系統(tǒng)的嵌入層)的操作,需要大量的片外訪問,由于嵌入表不能被完全存儲到片上,即使采用內容可尋址存儲器(CAM),仍會導致大量的片外訪問和較高的片上CAM搜索功耗。
針對上述挑戰(zhàn),微電子所集成電路制造技術重點實驗室劉明院士團隊提出了一種具有Z型脈動陣列CIM 主干(backbone)和分塊/分行自行關斷(block/self-gating)CAM的存內計算處理器。本工作針對不同的卷積和矩陣向量乘法(MVM)操作,提出了一種可重構Z型存儲訪問結構和一種存內計算脈動陣列來提升系統(tǒng)/宏單元能效比。團隊還提出了一種基于數(shù)據(jù)分布特性的分塊/分行自行關斷的CAM宏單元以減小片外訪問和片上搜索功耗。該工作在28nm CMOS工藝下成功流片,對神經網絡和推薦系統(tǒng)應用分別實現(xiàn)了37.9-81.5TOPS/W和12.3-56.1nJ/request的系統(tǒng)能效。
基于該成果的文章“A 41.7TOPS/W@INT8 Computing-in-Memory Processor with Zig-Zag Backbone-Systolic CIM and Block/Self-Gating CAM for NN/Recommendation Applications”入選2024年VLSI會議。微電子所博士生戴卓玉為第一作者,微電子所岳金山助理研究員和劉明院士為通訊作者。
圖1:CIM-CAM處理器整體架構圖
圖2:28nm高能效CIM-CAM芯片照片與關鍵參數(shù)
科研工作