由中國工程院信息與電子工程學部主辦,浪潮信息承辦,2021年人工智能計算大會(AICC)于北京成功召開。作為全球AI計算領域最具影響力的技術盛會,本次大會以“智算·新際”為主題,邀請到眾多專家學者與產業領袖,就智能算力發展、人工智能產業創新以及產業數字化轉型展開精彩分享。燧原科技副總裁鄧輝先生受邀出席“AI芯片創新技術”分論壇,并就燧原科技如何立足于國產云端AI算力攻克通用性與性能雙重挑戰發表演講。
起點
長期處于自主創新空白的云端訓練AI算力一切要從2012年那場改變人工智能發展史的ImageNet圖像分類競賽開始談起。在當時的比賽中,“深度學習之父”、圖靈獎獲得者——多倫多大學Geoffrey Hinton教授首次提出深度卷積神經網絡模型“AlexNet”,參數量達6000萬。AlexNet的出現是人工智能技術發展史上重要的轉折點,它將沉寂已久的深度學習技術再次推至歷史舞臺。除了革命性的“大模型”,Geoffrey Hinton教授創新性地采用了異構算力GPU作為訓練加速資源。“AI加速”這個概念由此進入廣大AI科研工作者與產業落地先鋒的視野。
新一輪技術文明由此開始,可這并沒有帶來我國自主創新AI算力的繁榮,一直以來,AI加速產品與技術都被GPU廠商所壟斷,尤其是在云端訓練領域,由于云端數據中心整體架構的高度復雜性、大規模分布式AI訓練帶來的巨大挑戰及其本身要支撐的業務多樣性等原因,云端訓練是國內廠商切入難度最為高的一個領域,長期處于空白的狀態,燧原科技作為行業領頭羊于2019年發布邃思1.0云端訓練芯片,開始了攻堅技術壁壘、打破壟斷的征程。
挑戰
云端專用AI訓練產品的性能與通用性互聯網是人工智能技術與產業發展的沃土,人工智能在互聯網的廣泛應用得益于各類深入人們生活的終端應用所產生的大量數據,而云計算作為關鍵的底層技術支撐,正與互聯網共同以孿生體姿態不斷地蓬勃發展,為我們帶來了空前的數據井噴與突破人類認知的巨量模型,對超強算力產生了爆炸性的需求;傳統GPU架構雖然早期開創了人工智能發展的篇章,但隨著人工智能產業蓬勃發展,在規模效應的驅使下,DSA架構帶來的更經濟的成本與更高效的計算能力使得專用AI訓練產品變得越來越有優勢。然而由于專用AI訓練產品天生缺乏生態積累,在模型泛化與通用性上一直是業界痛點。因此如何保證比GPU更高效的AI模型計算能力,同時兼顧一定的通用性是云端AI訓練芯片面臨的最大挑戰。燧原科技副總裁鄧輝先生表示:“我們把性能與通用性作為產品成功最重要的衡量標準,經過3年的努力,這兩方面的能力在我們第二代產品上取得飛躍。”
燧原
中國首家發布二代云端訓練加速產品組合的企業燧原科技以助力發展我國集成電路和人工智能產業、推動AI算力普惠化為使命,秉承“做大芯片、拼硬科技”的原則,自2019年12月推出第一代云端訓練芯片邃思1.0以后,率先實現國產AI芯片數據中心與千卡液冷集群的商業落地,并于2021年7月在世界人工智能大會(WAIC)發布邃思2.0,是中國唯一一家推出二代云端訓練加速產品組合的企業。
基于燧原科技自研的GCU-CARE計算引擎,邃思2.0進行了大規模的架構升級,針對人工智能計算的特性進行深度優化,夯實了支持通用異構計算的基礎。支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8;并在單精度算力方面達到與7nm GPU相當的性能水平:單精度FP32峰值算力最高達到40 TFLOPS,單精度張量TF32峰值算力最高達到160 TFLOPS,大大提高了能效比。同時搭載了4顆HBM2E片上存儲芯片,高配支持64 GB內存,帶寬最高可達1.8 TB/s。GCU-LARE也全面升級,提供雙向300 GB/s互聯帶寬,支持數千張云燧CloudBlazer加速卡互聯,實現優異的線性加速比。
而同步升級的馭算TopsRider軟件平臺,成為燧原科技構建原始創新軟件生態的基石。通過軟硬件協同架構設計,充分發揮邃思2.0的性能;基于算子泛化技術及圖優化策略,支持主流深度學習框架下的各類模型訓練;利用Horovod分布式訓練框架與GCU-LARE互聯技術相互配合,為超大規模集群的高效運行提供解決方案。開放升級的編程模型和可擴展的算子接口,為客戶模型的優化提供了自定義的開發能力。
基于邃思2.0,燧原科技推出了云燧T20人工智能訓練加速卡與云燧T21人工智能訓練OAM模組,能夠通過300GB/s的獨立片間互聯通道提供靈活的多芯片算力擴展方案,支持單機多卡、單機柜多節點、多機柜大機群多種部署方式。
未來
更多的AI解決方案與產品孵化除了強勁的原始創新芯片支撐,AI算力的騰飛與人工智能產業的發展需要依托于健全的生態合作體系。在演講的最后,燧原科技副總裁鄧輝先生表示:“未來,我們期望在人工智能領域和浪潮以及更多的合作伙伴一起合作打造更多AI解決方案和產品,助力中國AI產業蓬勃發展。”