為您推薦

技術名稱 針對邊緣運算優化之高效能端對端大型語言模型加速器晶片
計畫單位 國立陽明交通大學
計畫主持人 黃俊達
科學突破性
本團隊研發出專為Transformer架構與LLM推論優化的高效加速器MMA。我們的晶片具備低功耗、高效能等優勢,是目前唯一可全端運行大語言模型於邊緣裝置的方案。相較於喬治亞理工的MicroScopiQ、首爾大學的Tender及高麗大學的OPAL架構,我們率先實現LLM on Edge的完整落地。
產業應用性
本團隊成功研發全球首款可全端運行LLM於邊緣裝置的加速器MMA,內建MX運算與動態量化單元,有效提升能效與精度。支援多種精度格式與非線性函數,優化資料傳輸,大幅降低延遲。執行Llama2-7b時運算資源使用率達95,PPL表現僅與原模型差0.3,為目前唯一實現LLM端對端計算的設計。
媒合需求
大型語言模型已廣泛應用於日常與專業領域,我們設計的晶片可應用於企業伺服器或行動裝置,提供即時推理服務,同時降低能源消耗並保障資料隱私。未來人人可在手機上離線運行LLM,實現隨時隨地安全互動的AI體驗。
關鍵字 語言模型 加速器 AI晶片 模型量化 邊緣運算 MX格式
  • 聯絡人
  • 王宏銘