Name: 混合卷積神經網路硬體加速器系統設計與其模型訓練分析工具
Brand: Future Tech Pavilion, FUTEX未來科技館
SKU: P0028600005114
Price: 2020 TWD

:::

為您推薦

AI深度壓縮工具鏈及混合定點數CNN運算加速器

適用於賣場環境之智慧型自走載具辨識、避障與導航技術

低功耗深度學習硬體加速器 / 應用於自動駕駛的圖像語意分割技術

新冠病毒的前期擴散預測

技術名稱	混合卷積神經網路硬體加速器系統設計與其模型訓練分析工具
計畫單位	國立交通大學
計畫主持人	郭峻因
技術簡介	本作品設計了Hybrid CNN硬體加速器系統與其深度學習模型訓練分析工具 Hybrid CNN硬體加速器系統 1. 採用SPE高效率的處理混和精度模型運算，可支援1, 2, 4 ,8bit的CNN運算，並且可以動態切換不同的輸入位元運算模式，讓混和精度硬體加速器的計算單元持續處於在高使用率的狀態。 2. 透過Input Ping-Pong Buffer來優化DRAM資料存取以及混和精度硬體加速器運算的程序排程；採用2-Stage Input Buffer來減少2-D Systolic PE Array在傳送資料時的時脈延遲，讓Hybrid CNN加速器之硬體使用率更進一步提升。 3. 透過獨立的Partial Sum Sorter來存取On-chip Memory，使Hybrid CNN硬體加速器在各種模式下都可以讓On Chip Memory維持在100%的使用率。 4. 混和精度硬體加速器支援採用動態定點數量化過的CNN模型，輸出資料可以量化成1, 2, 4 or 8bit，相較於採用INT16/32作為輸出的硬體加速器，其輸出頻寬需求大幅度的降低。 5. 具備與Hybrid CNN硬體加速器對應之完整的CNN Model Parser/Compiler，目前支援BVLC caffe與我們開發的訓練分析工具(IVS-Caffe)，預計未來會持續增加所支援的深度學習訓練framework架構。深度學習模型訓練分析工具 1. 透過Knowledge Transfer、Dynamic Quantization等方法，此工具可以訓練出大幅度簡化的Hybrid CNN模型。 2. 使用SSTE的方式來解決Bit accurate level的CNN模型在訓練時所產生的偏微分回傳問題，透過統計乘法器以及加法器的Overflow頻率，並讓Overflow頻率較高的位置不進行偏微分回傳，以減少因為STE產生的偏微分誤差。 3. 本團隊開發了一個自動深度學習模型架構定點數量化/訓練工具(ezQUANT)，可以自動量化深度學習浮點數模型，成為動態定點數模型並進行重新訓練。使用者只需要提供浮點數模型、訓練、校正、測試資料、還有可以接受的準確度下降量等，即可透過此工具自動產生量化後之深度學習模型定點數模型架構，即可移植於前述混和精度硬體加速器上實現。
科學突破性	1. 本作品之混合精度硬體加速器可支援1, 2, 4和8-bit 運算 2. 本作品在Xilinx ZCU102 FPGA上能夠達到691GOPS(8-bit)/5530GOPS(1-bit) 3. 本作品首創混合精度模型演算法與訓練流程 4. 本作品首創支援bit accurate 層級的驗證
產業應用性	針對產業應用方面，本作品的混合模型訓練工具能夠有效的減少模型的資料量，並透過本作品客製化的硬體加速器來達到運算加速的效果。本作品的軟體工具可以用來進行模型訓練或者是重新訓練，並且在訓練完成後我們也能提供相對應的硬體加速器，來符合終端的運算需求，能夠減少浮點數模型放到終端裝置運行時產生精度下降的情形。
關鍵字	混合型卷積神經網路訓練工具動態量化輕量化模型二位元模型混合精度模型位元精確之模型分析位元精確之模型訓練量化分析深度學習量化深度學習

聯絡人
蔡家齊

電子信箱
apple.35932003@gmail.com

預約媒合

其他人也看了