當(dāng)前,智能計算設(shè)備呈指數(shù)式增長,迫切需要低功耗與低延遲執(zhí)行神經(jīng)網(wǎng)絡(luò)推理任務(wù),以及不依賴云端的片上學(xué)習(xí)能力來動態(tài)適應(yīng)邊緣端復(fù)雜多變的應(yīng)用場景。非易失存算一體技術(shù)可最大化減少數(shù)據(jù)搬運帶來的功耗和延遲并消除靜態(tài)功耗,為邊緣智能計算設(shè)備提供了一種極具競爭力的方案。非易失存算一體芯片近年來持續(xù)快速發(fā)展,其在集成規(guī)模、能效、算力等方面均取得了長足的進(jìn)步,實現(xiàn)了對片上推理任務(wù)的高效支持。但進(jìn)行片上學(xué)習(xí)通常需要對模型參數(shù)進(jìn)行海量次數(shù)的更新以及高精度的反向傳播。受限于有限的擦寫次數(shù)、較高的擦寫功耗以及有限的計算精度,當(dāng)前,非易失存算一體芯片仍然難以高效支持片上學(xué)習(xí)與訓(xùn)練。
針對以上問題,中國科學(xué)院微電子研究所劉明院士團(tuán)隊設(shè)計了基于非易失/易失存儲融合型的片上學(xué)習(xí)存算一體宏芯片。團(tuán)隊在14nm FinFET工藝上驗證了具有多值存儲能力的5晶體管型邏輯閃存單元,編程電壓(-25%)與編程時間(-66%)較同類型器件均獲得有效降低;在此基礎(chǔ)上,團(tuán)隊進(jìn)一步提出了邏輯閃存單元與SRAM融合的新型陣列,不僅可以利用非易失與易失性存儲單元的特點滿足片上學(xué)習(xí)過程中長期與短期信息的存儲,還能通過對矩陣-向量乘與矩陣元素乘的高效處理加速片上學(xué)習(xí)過程中所需的關(guān)鍵算子。團(tuán)隊還提出了一種與存儲陣列深度融合的低硬件開銷差分型模數(shù)轉(zhuǎn)換電路,采用采樣電容復(fù)用的方法節(jié)省面積,通過多元素稀疏感知的方案節(jié)省功耗。該芯片可以有效支持具有突觸可塑性的神經(jīng)網(wǎng)絡(luò),基于前饋過程動態(tài)更新短期信息,從而實現(xiàn)動態(tài)的片上學(xué)習(xí)。該存算一體宏芯片在14nm FinFET工藝下流片,可實現(xiàn)小樣本學(xué)習(xí)等片上學(xué)習(xí)任務(wù),8比特矩陣-矩陣-向量計算能效達(dá)到了22.64TOP/W。這一研究結(jié)果為基于存算一體架構(gòu)的片上學(xué)習(xí)芯片提供了新思路。
近期,本工作以“A Flash-SRAM-ADC-Fused Plastic Computing-in-Memory Macro for Learning in Neural Networks in a Standard 14nm FinFET Process”為題發(fā)表在 ISSCC 2024國際會議上,微電子所博士生王琳方為第一作者、竇春萌研究員為通訊作者。參與本工作的主要研究人員還包括微電子所博士生李偉增以及碩士生周治道。該研究得到了科技部重點研發(fā)計劃、國家自然科學(xué)基金、中國科學(xué)院戰(zhàn)略先導(dǎo)專項等項目的支持。
14nm FinFET非易失-易失融合型片上學(xué)習(xí)存算一體芯片:(a)顯微鏡照片,(b)非易失邏輯閃存單元編程電壓與時間對比,(c)工作頻率與計算能效
綜合信息