我故意没有穿内裤让同桌c_做爰全过程免费的视频观看l _中国xxnxx免费_www.xxx.国产

登錄 注冊
購物車0
TOP
Imgs 行業資訊

0

什么是DPU 未來的DPU智能?卡硬件形態

2021-11-25 14:08:00
1.什么是DPU
 
DPU(Data Processing Unit)是以數據為中心構造的專用處理器,采用軟件定義技術路線支撐基礎設施層資源虛擬化,支持存儲、安全、服務質量管理等 基礎設施層服務。2020年NVIDIA公司發布的DPU產品戰略中將其定位為數據中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業熱潮。DPU的出現是異構計算的一個階段性標志。與GPU的發展類似,DPU是應用驅動的體系結構設計的又一典型案例;但與GPU不同的是,DPU面向的應用更加底層。DPU要解決的核心問題是基礎設施的“降本增效”,即將“CPU處理效率低 下、GPU處理不了”的負載卸載到專用DPU,提升整個計算系統的效率、降低 整體系統的總體擁有成本(TCO)。DPU的出現也許是體系結構朝著專用化路線發展的又一個里程碑。
 
 
關于DPU中“D”的解釋
 
DPU中的“D”有三種解釋:
 
(1)Data Processing Unit,即數據處理器。這種解釋把“數據”放在核心 位置,區別于信號處理器、基帶處理器等通信相關的處理器對應的“信號”, 也區別于GPU對應的圖形圖像類數據,這里的“數據”主要指數字化以后的各 種信息,特別是各種時序化、結構化的數據,比如大型的結構化表格,網絡流 中的數據包,海量的文本等等。DPU就是處理這類數據的專用引擎。
 
(2)Datacenter Processing Unit,即數據中心處理器。這種解釋把數據中心作為DPU的應用場景,特別是隨著WSC(Warehouse-scale Computer)的興起, 不同規模的數據中心成為了IT核心基礎設施。目前來看,DPU確實在數據中心 中使用前景非常廣闊。但是計算中心的三大部分:計算、網絡、存儲,計算部分是CPU占主導,GPU輔助;網絡部分是路由器和交換機,存儲部分是高密度 磁盤構成的的RAID系統和SSD為代表非易失性存儲系統。在計算和網絡中扮演 數據處理的芯片都可以稱之為Datacenter Processing Unit,所以這種說法相對比 較片面。
 
(3)Data-centric Processing Unit,即以數據為中心的處理器。Data-centric,即數據為中心,是處理器設計的一種理念,相對于“Control-centric”即控制為 中心。經典的馮諾依曼體系結構就是典型的控制為中心的結構,在馮諾依曼經 典計算模型中有控制器、計算器、存儲器、輸入和輸出,在指令系統中的表現 是具有一系列非常復雜的條件跳轉和尋址指令。而數據為中心的理念與數據流 (Data Flow)計算一脈相承,是一種實現高效計算的方法。同時,現在試圖打 破訪存墻(Memory Wall)的各種近存(Near-memory)計算、存內(Inmemory)計算、存算一體等技術路線,也符合數據為中心的設計理念。
 
以上三種關于“D”的解釋,從不同角度反映DPU的特征,都有一定的可取之處,筆者認為可以作為不同的三個維度來理解DPU的內涵。
 
DPU的作用
 
DPU最直接的作用是作為CPU的卸載引擎,接管網絡虛擬化、硬件資源池 化等基礎設施層服務,釋放CPU的算力到上層應用。以網絡協議處理為例,要 線速處理10G的網絡需要的大約4個Xeon CPU的核,也就是說,單是做網絡數據包處理,就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速網絡,性能的開銷就更加難以承受了。Amazon把這些開銷都稱之為 “Datacenter Tax”,即還未運行業務程序,先接入網絡數據就要占去的計算資源。AWS Nitro產品家族旨在將數據中心開銷(為虛擬機提供遠程資源,加密解密,故障跟蹤,安全策略等服務程序)全部從CPU卸載到Nitro加速卡上,將給上層應用釋放30%的原本用于支付“Tax”的算力!
 
DPU可以成為新的數據網關,將安全隱私提升到一個新的高度。在網絡環境下,網絡接口是理想的隱私的邊界,但是加密、解密算法開銷都很大,例如 國密標準的非對稱加密算法SM2、哈希算法SM3和對稱分組密碼算法SM4。如果用CPU來處理,就只能做少部分數據量的加密。在未來,隨著區塊鏈承載的業務的逐漸成熟,運行共識算法POW,驗簽等也會消耗掉大量的CPU算力。而這些都可以通過將其固化在DPU中來實現,甚至DPU將成為一個可信根。
 
DPU也可以成為存儲的入口,將分布式的存儲和遠程訪問本地化。隨著 SSD性價比逐漸可接受,部分存儲遷移到SSD器件上已經成為可能,傳統的面向 機械硬盤的SATA協議并不適用于SSD存儲,所以,將SSD通過本地PCIe或高速 網絡接入系統就成為必選的技術路線。NVMe(Non Volatile Memory Express) 就是用于接入SSD存儲的高速接口標準協議,可以通過PCIe作為底層傳輸協議,將SSD的帶寬優勢充分發揮出來。同時,在分布式系統中,還可通過NVMe over Fabrics(NVMe-oF)協議擴展到InfiniBand、Ethernet、或Fibre channel節點中,以RDMA的形式實現存儲的共享和遠程訪問。這些新的協議處理都可以集成在DPU中以實現對CPU的透明處理。進而,DPU將可能承接各種互連協議控制器的角色,在靈活性和性能方面達到一個更優的平衡點。
 
DPU將成為算法加速的沙盒,成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC,在CXL、CCIX等標準組織所倡導CPU、GPU與DPU等數據一致性訪問協議的鋪墊下,將更進一步掃清DPU編程障礙,結合FPGA等可編程器件,可定制硬件將有更大的發揮空間,“軟件硬件化”將成為常態,異構計算 的潛能將因各種DPU的普及而徹底發揮出來。在出現“Killer Application”的領域都有可能出現與之相對應的DPU,諸如傳統數據庫應用如OLAP、OLTP, 5G 邊緣計算,智能駕駛V2X等等。
 
2.DPU的發展背景
 
DPU的出現是異構計算的又一個階段性標志。摩爾定律放緩使得通用CPU 性能增長的邊際成本迅速上升,數據表明現在CPU的性能年化增長(面積歸一 化之后)僅有3%左右1,但計算需求卻是爆發性增長,這幾乎是所有專用計算芯片得以發展的重要背景因素。以AI芯片為例,最新的GPT-3等千億級參數的超大型模型的出現,將算力需求推向了一個新的高度。DPU也不例外。隨著2019年我國以信息網絡等新型基礎設施為代表的“新基建”戰略帷幕的拉開,5G、千兆光纖網絡建設發展迅速,移動互聯網、工業互聯網、車聯網等領域發展日新月異。云計算、數據中心、智算中心等基礎設施快速擴容。網絡帶寬從主流 10G朝著25G、40G、100G、200G甚至400G發展。網絡帶寬和連接數的劇增使得數據的通路更寬、更密,直接將處于端、邊、云各處的計算節點暴露在了劇增的數據量下,而CPU的性能增長率與數據量增長率出現了顯著的“剪刀差”現象。所以,尋求效率更高的計算芯片就成為了業界的共識。DPU芯片就是在這樣的趨勢下提出的。
帶寬增長率(RBP)不平衡
摩爾定律的放緩與全球數據量的爆炸式增長之間的矛盾正在迅速加劇,通常被視為處理器專業化的背景。雖然所謂的硅摩爾定律已經明顯放緩,但“數據摩爾定律”已經到來。IDC數據顯示,過去10年全球數據量年復合增長率接近50%,進一步預測計算能力需求將每4個月翻一番。因此,有必要尋找能夠帶來比通用處理器更快的計算能力增長的新計算芯片,DPU應運而生。這個背景雖然在某種程度上是合理的,但還是太模糊,沒有回答DPU新的原因是什么,什么“量變”導致“質變”?
從各種制造商公布的DPU架構來看,雖然結構不同,但都強調網絡處理能力。從這個角度來看,DPU是一個很強的IO芯片,這也是DPU和CPU最大的區別。CPU的IO性能主要體現在高速的前端總線(FSB,英特爾系統中的前端總線)。CPU通過FSB連接到北橋芯片組,再連接到主存系統和其他高速外設(主要是PCIe設備)。目前更新后的CPU通過集成內存控制器等手段削弱了北橋芯片的功能,但其本質保持不變。CPU處理網絡處理的能力體現在網卡訪問鏈路層的數據幀,然后通過操作系統(OS)的內核模式發起DMA中斷響應,并調用相應的協議解析器獲取網絡傳輸的數據(雖然也有一些技術可以在用戶模式下通過輪詢直接獲取網絡數據而不需要內核模式中斷,比如英特爾的DPDK、Xilinx的Onload等。但目的是減少中斷開銷和從內核模式到用戶模式的切換開銷,這不是根本。可以看出,CPU通過非常間接的手段支持網絡IO,CPU的前端總線帶寬主要是為了匹配主存(尤其是DDR)的帶寬,而不是網絡IO的帶寬。
相比之下,DPU的IO帶寬幾乎可以和網絡帶寬持平。例如,如果網絡支持25G,那么DPU必須支持25G。從這個意義上說,DPU繼承了網卡芯片的一些特點,但與網卡芯片不同的是,DPU不僅僅是對鏈路層的數據幀進行分析,更是對數據內容進行直接的處理和復雜的計算。因此,DPU是在支持強IO的基礎上,擁有強大計算能力的芯片。簡而言之,DPU是一個IO密集型芯片;相比之下,DPU是一個計算密集型芯片。
此外,通過比較網絡帶寬與一般CPU的增長趨勢,我們可以發現一個有趣的現象:帶寬與性能增長率之比的不平衡(RBP)。將RBP定義為網絡帶寬的增長率高于CPU性能的增長率,即RBP=BWGR/perf  . gr如圖1-1說明將Mellanox的ConnectX系列網卡的帶寬作為網絡IO的情況,將英特爾系列產品的性能作為CPU的情況,定義了一個新的指標“帶寬性能增長率”來反映趨勢變化。
2010年之前,網絡帶寬的年增長率在30%左右,2015年略微增長到35%,然后近幾年達到45%。相應的,CPU的性能增長也從10年前的23%下降到了12%,最近幾年更是直接下降到了3%。在這三個時間段,RBP指數從1左右漲到了3,近幾年更是突破了10!如果網絡帶寬增長率幾乎等于CPU性能增長率,RGR  ~ 1,IO壓力還沒有出現,那么當RBP目前達到10倍時,CPU幾乎無法直接應對網絡帶寬增長率。RBP指數近年來的大幅上漲,可能是DPU最終等待機會“誕生”的重要原因之一。
借助異構計算發展趨勢
DPU首先充當計算卸載的引擎,直接效果就是“減輕”CPU的負擔。DPU的部分功能可以在早期的TOE(TCP/IP卸載引擎)中看到。顧名思義,TOE就是把CPU處理TCP協議的任務“卸載”到網卡上。傳統的TCP軟件處理方式雖然層次清晰,但逐漸成為網絡帶寬和時延的瓶頸。軟件處理對CPU的占用也會影響CPU處理其他應用的性能。TCP卸載引擎(TOE)技術,通過將TCP和IP協議的處理過程移交給網絡接口控制器進行處理,不僅通過硬件加速提高了網絡延遲和帶寬,還顯著降低了CPU處理協議的壓力。優化有三個方面:1)隔離網絡中斷,2)減少內存數據拷貝,3)基于硬件的協議分析。這三個技術點已經逐漸發展成為數據平面計算的三大技術,也是DPU普遍需要支持的技術點。比如NVMe協議用輪詢策略代替中斷策略,充分發揮高速存儲介質的帶寬優勢;DPDK采用用戶模式調用,開發“Kernelbypassing”機制,實現零拷貝(ZEOR-copy);DPU特定應用核心,如復雜校驗和計算、數據包格式分析、查找表、IP安全(IPSec)支持等。可以看作是協議處理的硬件支持。所以,TOE基本上可以算是DPU的雛形。
延續TOE的思路,將更多的計算任務卸載到網卡端進行處理,推動了SmartNIC技術的發展。普通智能網卡的基本結構是以高速網卡為基本功能,以高性能FPGA芯片為計算擴展,實現用戶自定義的計算邏輯,達到計算加速的目的。然而,這種“網卡FPGA”模式并沒有把智能網卡變成絕對主流的計算設備。很多智能網卡產品都作為簡單的FPGA加速卡使用,既利用了FPGA的優勢,又繼承了所有FPGA的局限性。DPU是現有智能網卡的集成,可以看到以前智能網卡的很多影子,但明顯高于以前任何一個智能網卡的定位。
可見,DPU其實在業內已經孕育了很長時間。從早期的網絡協議處理和卸載到后續的網絡、存儲和虛擬化卸載,其作用仍然非常顯著。然而,在此之前,DPU只是“名義上的”,現在是時候邁出新的一步了。
3.3的發展歷史。公用事業局(Department  of  Public  Utilities)
隨著云平臺虛擬化技術的發展,智能網卡的發展基本可以分為三個階段(如圖如圖1-2所示):
6999c1fa-3b8a-11ec-82a9-dac502259ad0.png
圖1-2智能卡開發的三個階段
階段:基本功能卡
基本網卡(即普通網卡)提供2x10G或2x25G帶寬吞吐量,硬件卸載能力較少,主要是Checksum、LRO/LSO、SR-IOV支持,多隊列能力有限。云平臺虛擬化網絡中,基本功能網卡提供虛擬機(VM)網絡訪問的方式主要有三種:操作系統內核驅動接管網卡,將網絡流量分配給VM;OVS-DPDK接管網卡,將網絡流量分配給虛擬機(VM);并在高性能場景中通過SR-IOV為虛擬機提供網絡訪問能力。
階段:硬件卸載卡
可以認為是第一代智能網卡,具有豐富的硬件卸載能力,典型的有OVS  Fastpath硬件卸載、基于RoCEv1和RoCEv2的RDMA網絡硬件卸載、無損網絡能力(PFC、ECN、ETS等)的硬件卸載。)在融合網絡中,NVMe-oF存儲域的硬件卸載,以及安全傳輸的數據平面卸載等。在此期間,智能網卡主要卸載數據平面。
第三階段:DPU智能卡
可以認為是第二代智能網卡。在第一代智能網卡上增加CPU可以用來卸載控制平面的任務和數據平面的一些靈活復雜的任務。目前,DPU智能網卡的特點首先是支持PCIe根聯合體模式和端點模式。配置為PCIe根聯合體模式時,可實現NVMe存儲控制器,與NVMe  SSD磁盤一起搭建存儲服務器。
此外,由于大規模數據中心網絡的需求,對無損網絡的要求更加嚴格,需要解決數據中心網絡中流量和大象流帶來的網絡擁塞和延遲問題。各大云廠商都提出了自己的對策,如阿里巴巴云的高精度擁塞控制(HPCC,高精度共識控制),AWS的可伸縮可靠數據報(SRD)等。
DPU智能網卡將會引入更先進的方法來解決這類問題,比如DPU智能網卡上的全新解決方案——可替換的TrueFabric。此外,業界在Hypervisor中提出了網絡、存儲、安全全棧卸載的發展方向,以英特爾為代表提出了IPU,將基礎設施的所有功能卸載到智能網卡上,可以充分釋放之前用于Hypervisor管理的CPU功率。
基于的未來DPU智能卡硬件形式
隨著越來越多的功能被添加到智能網卡中,它的功率將很難被限制在75W,這就需要一個獨立的供電系統。因此,未來智能網卡可能有三種形式:
(1)對于獨立供電的智能網卡,需要考慮網卡狀態與計算服務之間的低級信號識別,以及智能網卡在計算系統啟動期間或啟動后是否已經進入服務狀態,這些都需要探索解決。
(2)沒有PCIe接口的DPU智能網卡可以組成DPU資源池,負責網絡功能,如負載均衡、訪問控制、防火墻設備等。管理軟件可以通過智能網卡管理接口直接定義相應的網絡功能,作為一個沒有PCIe接口的虛擬化網絡功能集群提供相應的網絡能力。
(3)具有多個PCIe接口和多個網絡端口的DPU芯片。例如,Fungible  F1芯片支持16個雙模PCIe控制器,可以配置為Root  Complex模式或Endpoint模式以及8x100G網絡接口。PCIe  Gen3 x8接口可支持8臺Dual-Socket計算服務器,網絡側提供8x100G帶寬網絡端口。
作為一種新型專用處理器,隨著需求側的變化,DPU將成為未來計算系統的重要組成部分,對支撐下一代數據中心將起到至關重要的作用。
4.4之間的關系。DPU和中央處理器和圖形處理器
CPU是整個IT生態系統的定義者。無論是服務器端的x86,還是移動端的ARM,都各自構建了穩定的生態系統,既形成了技術生態系統,又形成了封閉的價值鏈。
GPU是執行規則計算、如圖-shaped渲染的主要芯片。隨著NVIDIA對通用GPGPU)和CUDA編程框架的推廣,GPU已經成為如圖圖像、深度學習、矩陣運算等數據并行任務中的主計算引擎,也是高性能計算中最重要的輔助計算單元。在2021年6月公布的Top500高性能計算機(超級計算機)前10名中,有6臺(第2、3、5、6、8、9)搭載了NVIDIA的GPU。
數據中心不同于超極計算機,其主要面向科學計算,如大型飛機研制、石油勘探、新藥研發、天氣預報、電磁環境計算等應用,其性能是主要指標,對接入帶寬要求不高。但數據中心面臨云計算的商業應用,對接入帶寬、可靠性、容災、靈活擴展等有更高的要求。以及虛擬機、容器云、并行編程框架、內容分發網絡等技術。與之配套開發的,都是為了更好地支持電子商務、支付、視頻流、網盤、辦公OA等上層商業應用。然而,這些IaaS和PaaS層的服務成本極高。亞馬遜曾宣布AWS的系統成本超過30%。如果需要更好的服務質量,網絡、存儲和安全等基礎設施服務的成本將會更高。
這些基礎層的應用類型與CPU架構匹配度低,導致計算效率低。現有的CPU架構有兩類:多核架構(幾個或幾十個內核)和眾核架構(幾百個或更多內核),每種架構都支持唯一的標準通用指令集之一,如x86、ARM等。以指令集為邊界,軟硬件分開獨立開發,迅速推動了軟件產業與微處理器產業的協同發展。然而,隨著軟件復雜性的增加,軟件的生產力越來越受到重視,軟件工程學科也更加關注如何高效地構建大規模軟件系統,而不是如何用更少的硬件資源獲得盡可能高的執行性能。業內有個綽號叫“安迪比爾定律”。它的內容是“安迪給的,比爾拿走的”。安迪指的是英特爾前CEO安迪格羅夫,比爾指的是微軟前CEO比爾蓋茨,意思是硬件性能的提升很快被軟件消耗掉。
就像CPU在圖像處理上不夠高效一樣,還有大量的基礎層應用在CPU處理上也是低效的,比如網絡協議處理、交換路由計算、加解密、數據壓縮等計算密集型任務,以及支持分布式處理的數據一致性協議,比如RAFT等。這些數據或者通過網絡IO或者通過板級高速PCIe總線接入系統,然后通過共享主存通過DMA機制提供給CPU或GPU。要處理大量的上層應用,要維護底層軟件的基礎設施,還要處理各種特殊的IO協議,復雜的計算任務讓CPU不堪重負。
5.工業化的機會。公用事業局(Department  of  Public  Utilities)
數據中心作為IT基礎設施最重要的組成部分,近十年來成為各大高端芯片廠商關注的焦點。各大廠商用全新的DPU理念重新包裝后,將原有的產品和技術投放市場。
與此同時,一些互聯網廠商,如海外的谷歌、亞馬遜、國內的阿里巴巴等巨頭紛紛啟動了自研芯片計劃,研發重點放在數據處理器的高性能專用處理器芯片上,希望改善云端服務器的成本結構和單位能耗的性能水平。數據預測,DPU在云計算市場的應用需求最大,市場規模將隨著云計算數據中心的迭代而增大。到2025年,僅中國的市場容量就將達到40億美元。

高都電子,為客戶創造價值!

雙面板免費加費,四層板加急打樣,厚銅電路板打樣

Xcm