鯤云科技成立于 2016 年 1 月,提供物聯網移動及野外節點人工智能芯片及解決方案,讓前端圖像捕捉設備無需連接后臺服務器即可進行本地化人工智能,自主研發的雨人平臺支持對圖像采集節點進行專業分析,用以支持人工判斷。
鯤云科技聚焦于人工智能時代,為物聯網中如毛細血管般的應用前端裝上大腦, 提供物聯網人工智能芯片及解決方案。
近日,鯤云科技在深圳舉行 CAISA 芯片產品發布會,發布全球首款數據流 AI 芯片 CAISA,定位于高性能 AI 推理,已完成量產。鯤云通過自主研發的數據流技術在芯片實測算力上實現了技術突破,較同類產品在芯片利用率上提升了最高 11.6 倍。第三方測試數據顯示僅用 1/3 的峰值算力,CAISA 芯片可以實現英偉達 T4 最高 3.91 倍的實測性能。鯤云科技的定制數據流技術不依靠更大的芯片面積和制程工藝,通過數據流動控制計算順序來提升實測性能,為用戶提供了更高的算力性價比。
此次發布是華強北之光黑科技系列發布的首場活動。深圳市人民政府副市長、黨組成員聶新平,福田區委副書記、區長黃偉,市科技創新委員會副主任鐘海、市工信局副局長徐志斌、市科協黨組成員、常務委員孫楠和福田區委常委、副區長舒毓民、原政協深圳市委員會副主席、黨組成員、深圳市源創力離岸創新中心理事長王學為等政府領導及山東產業技術研究院副院長雷斌、深圳市源創力離岸創新中心總裁周路明、英特爾 PSG 中國區總經理、銷售總監 Tiffany Xia 夏迎麗等合作伙伴出席發布會。聶新平、舒毓民同志分別為活動致辭。中國科協黨組成員、書記處書記宋軍,鯤云科技聯合創始人兼首席科學家、英國皇家工程院院士、美國電子電氣工程師學會(IEEE)會士、英國計算機學會(BCS)會士 Wayne Luk 陸永青院士,浪潮信息副總裁、浪潮 AI & HPC 總經理劉軍,清華大學信息科學技術學院副院長、電子工程系主任、深鑒科技聯合創始人汪玉教授,戴爾科技集團全球資深副總裁、大中華區企業解決方案總經理曹志平,鵬城實驗室高級顧問、黨委書記、清華大學計算機系教授、學位委員會主席、CCF 會士楊士強,Intel Tiffany Xia 夏迎麗,中國信息通信研究院云大所人工智能部主任、工信部人工智能技術和應用評測實驗室常務副主任、中國人工智能產業發展聯盟(AIIA)總體組組長、南京新一代人工智能研究院院長孫明俊等嘉賓為鯤云成功實現全球首款數據流 AI 芯片量產送上了祝福和寄語。
I 超高芯片利用率,定制數據流芯片架構完成 3.0 升級
此次發布的 CAISA 芯片采用鯤云自研的定制數據流芯片架構 CAISA 3.0,相較于上一代芯片架構,CAISA3.0 在架構效率和實測性能方面有了大幅的提升,并在算子支持上更加通用,支持絕大多數神經網絡模型快速實現檢測、分類和語義分割部署。CAISA3.0 在多引擎支持上提供了 4 倍更高的并行度選擇,架構的可拓展性大大提高,在 AI 芯片內,每一個 CAISA 都可以同時處理 AI 工作負載,進一步提升了 CAISA 架構的性能,在峰值算力提升 6 倍的同時保持了高達 95.4% 的芯片利用率,實測性能線性提升。同時新一代 CAISA 架構對編譯器 RainBuilder 的支持更加友好,軟硬件協作進一步優化,在系統級別上為用戶提供更好的端到端性能。
CAISA3.0 架構圖
CAISA3.0 架構繼續保持在數據流技術路線的全球領先地位,指令集架構采用馮諾依曼計算方式,通過指令執行次序控制計算順序,并通過分離數據搬運與數據計算提供計算通用性。CAISA 架構依托數據流流動次序控制計算次序,采用計算流和數據流重疊運行方式消除空閑計算單元,并采用動態配置方式保證對于人工智能算法的通用支持,突破指令集技術對于芯片算力的限制。此次升級,CAISA 架構解決了數據流架構作為人工智能計算平臺的三大核心挑戰:
1. 高算力性價比:在保持計算正確前提下,通過不斷壓縮每個空閑時鐘推高芯片實測性能以接近芯片物理極限,讓芯片內的每個時鐘、每個計算單元都在執行有效計算;
2. 高架構通用性:在保證每個算法在 CAISA 上運行能夠實現高芯片利用率的同時,CAISA3.0 架構通用支持所有主流 CNN 算法;
3. 高軟件易用性:通過專為 CAISA 定制的編譯工具鏈實現算法端到端自動部署,用戶無需底層數據流架構背景知識,簡單兩步即可實現算法遷移和部署,降低使用門檻。
具體來講,鯤云 CAISA3.0 架構的三大技術突破主要通過以下的技術方式實現:
1. 高算力性價比:時鐘級準確的計算
CAISA3.0 架構由數據流來驅動計算過程,無指令操作,可以實現時鐘級準確的計算,最大限度的減少硬件計算資源的空閑時間。CAISA3.0 架構通過數據計算與數據流動的重疊,壓縮計算資源的每一個空閑時鐘;通過算力資源的動態平衡,消除流水線的性能瓶頸;通過數據流的時空映射,最大化復用芯片內的數據流帶寬,減少對外部存儲帶寬的需求。上述設計使 CNN 算法的計算數據在 CAISA3.0 內可以實現不間斷的持續運算,最高可實現 95.4% 的芯片利用率,在同等峰值算力條件下,可獲得相對于 GPU 3 倍以上的實測算力,從而為用戶提供更高的算力性價比。
2. 高架構通用性:流水線動態重組
CAISA3.0 架構可以通過流水線動態重組實現對不同深度學習算法的高性能支持。通過 CAISA 架構層的數據流引擎、全局數據流網、全局數據流緩存,以及數據流引擎內部的人工智能算子模塊、局部數據流網、局部數據流緩存的分層設計,在數據流配置器控制下,CAISA 架構中的數據流連接關系和運行狀態都可以被自動化動態配置,從而生成面向不同 AI 算法的高性能定制化流水線。在保證高性能的前提下,支持用戶使用基于 CAISA3.0 架構的計算平臺實現如目標檢測、分類及語義分割等廣泛的人工智能算法應用。
3. 高軟件易用性:算法端到端自動化部署
RainBuilder 架構圖
專為 CAISA3.0 架構配備的 RainBuilder 編譯工具鏈支持從算法到芯片的端到端自動化部署,用戶和開發者無需了解架構的底層硬件配置,簡單兩步即可實現算法快速遷移和部署。RainBuilder 編譯器可自動提取主流 AI 開發框架(TensorFlow,Caffe,PyTorch,ONNX 等)中開發的深度學習算法的網絡結構和參數信息,并面向 CAISA 結構進行優化;工具鏈中的運行時(Runtime)和驅動(Driver)模塊負責硬件管理并為用戶提供標準的 ATPI 接口,運行時可以基于精確的 CAISA 性能模型,實現算法向 CAISA 架構的自動化映射,同時提供可以被高級語言直接調用的 API 接口;最底層的驅動可以實現對用戶透明的硬件控制。RainBuilder 工具鏈使用簡單,部署方便,通用性強,可以讓用戶快速和低成本的部署和遷移已有算法到 CAISA 硬件平臺上。
I 首款量產數據流 AI 芯片,CAISA 帶來 AI 芯片研發新方向
CAISA 芯片
作為全球首款采用數據流技術的 AI 芯片,CAISA 搭載了四個 CAISA3.0 引擎,具有超過 1.6 萬個 MAC(乘累加)單元,峰值性能可達 10.9TOPs。該芯片采用 28nm 工藝,通過 PCIe3.0×4 接口與主處理器通信,同時具有雙 DDR 通道,可為每個 CAISA 引擎提供超過 340Gbps 的帶寬。
CAISA 芯片架構圖
作為一款面向邊緣和云端推理的人工智能芯片,CAISA 可實現最高 95.4% 的芯片利用率,為客戶提供更高的算力性價比。CAISA 芯片具有良好的通用性,可支持所有常用 AI 算子,通過數據流網絡中算子的不同配置和組合,CAISA 芯片可支持絕大多數的 CNN 算法。針對 CAISA 芯片,鯤云提供 RainBuilder3.0 工具鏈,可實現推理模型在芯片上的端到端部署,使軟件工程師可以方便的完成 CAISA 芯片在 AI 應用系統中的集成。
鯤云科技創始人牛昕宇發布全球首款數據流 AI 芯片
I 高算力性價比的 AI 計算平臺星空加速卡系列產品發布
星空加速卡系列產品圖
發布會上,鯤云科技創始人 CEO 牛昕宇博士還發布了基于 CAISA 芯片的星空系列邊緣和數據中心計算平臺, X3 加速卡和 X9 加速卡,并公布了由人工智能產業技術聯盟(AIIA)測試的包括 ResNet50,YOLO v3 等在內的主流深度學習網絡的實測性能。
鯤云科技創始人牛昕宇發布星空 X3 加速卡
星空 X3 加速卡是搭載單顆 CAISA 芯片的數據流架構深度學習推斷計算平臺,為工業級半高半長單槽規格的 PCIe 板卡。得益于其輕量化的規格特點,X3 加速卡可以與不同類型的計算機設備進行適配,包括個人電腦、工業計算機、網絡視頻錄像機、工作站、服務器等,滿足邊緣和高性能場景中的 AI 計算需求。相較于英偉達邊緣端旗艦產品 Xavier,X3 可實現 1.48-4.12 倍的實測性能提升。
X3 vs Xavier 芯片利用率對比圖
X3 vs Xavier 性能對比圖
X3 vs Xavier 延時對比圖
鯤云科技創始人牛昕宇發布星空 X9 加速卡
星空 X9 加速卡為搭載 4 顆 CAISA 芯片的深度學習推斷板卡,峰值性能 43.6TOPS,主要滿足高性能場景下的 AI 計算需求。同英偉達旗艦產品 T4 相對,X9 在 ResNet50, YOLO v3 等模型上的芯片利用率提升 2.84-11.64 倍。在實測性能方面,X9 在 ResNet50 可達 5240FPS,與 T4 性能接近,在 YOLO v3 U-Net Industrial 等檢測分割網絡,實測性能相較 T4 有 1.83-3.91 倍性能提升。在達到最優實測性能下,X9 處理延時相比于 T4 降低 1.83-32 倍。實測性能以及處理延時的大幅領先,讓數據流架構為 AI 芯片的發展提供了提升峰值性能之外的另一條技術路線。
X9 vs T4 芯片利用率對比圖
X9 vs T4 性能對比圖
X9 vs T4 延時對比圖
鯤云科技通過 CAISA 數據流架構提高芯片利用率,同樣的實測性能,對芯片峰值算力的要求可大幅降低 3-10 倍,從而降低芯片的制造成本,為客戶提供更高的算力性價比。目前星空 X3 加速卡已經實現量產,星空 X9 加速卡將于今年 8 月推出市場。鯤云科技成為國內首家在發布會現場披露 Benchmark 的 AI 芯片公司。
I 商業落地先行,鯤云加速卡實現多領域規模落地
作為技術驅動的 AI 芯片公司,鯤云科技自成立以來一直注重商業落地,目前鯤云科技已與多家行業巨頭達成戰略合作,成為英特爾全球旗艦 FPGA 合作伙伴,在技術培訓、營銷推廣以及應用部署等方面進行合作;與浪潮、戴爾達成戰略簽約,在 AI 計算加速方面開展深入合作;與山東產業技術研究院共建山東產研鯤云人工智能研究院,推進人工智能芯片及應用技術的規?;涞?。明星產品 “星空” 加速卡已在電力、教育、航空航天、智能制造、智慧城市等領域落地。自 2016 年成立至今,鯤云科技已經完成了天使輪,Pre-A 輪及 A 輪融資,設有深圳、山東、倫敦研發中心。2018 年成立人工智能創新應用研究院,定位于建立人工智能產業化技術平臺,支持人工智能最新技術在各垂直領域快速實際落地,啟動鯤云高校計劃,開展人工智能課程培訓和科研合作。除與 Intel 合作進行人工智能課程培訓外,鯤云人工智能應用創新研究院已同帝國理工學院、哈爾濱工業大學、北京航空航天大學、天津大學、香港城市大學等成立聯合實驗室,在定制計算、AI 芯片安全、工業智能等領域開展前沿研究合作。
對標芯片數據來源:
T4 性能數據來源:https://developer.nvidia.com/deep-learning-performance-training- inference#resnet50-latency
Xavier 性能數據來源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks
ResNet50,ResNet152 算法網絡來源:https://github.com/tensorflow/models/tree/master/research/slim
YOLO 算法網絡來源:https://pjreddie.com/darknet/yolo/
SSD-ResNet50 算法網絡源:https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16
UNet Industrial 算法網絡來源 https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16
模型參考
https://github.com/pushyami/yolov3caffe/blob/master/deploy.prototxt