如果您希望可以时常见面,欢迎标星收藏哦~
过去五年DPU迎来高速发展,芯片巨头和云厂商们大举进军DPU,纷纷“抢滩”DPU市场。2021年英伟达发布BlueField2的DPU产品,并高调宣称这是数据中心场景下的“第三颗支柱型芯片(原文为the third pillar)”,同年Marvell发布了代号为OCTEON的DPU产品,主打5G基带处理,携手Facebook打造高性能的OpenRAN解决方案。次年芯片巨头英特尔携全新的重磅产品IPU加入了对DPU市场的争夺。前思科高管创立的科技公司Pensando在2022年被AMD以19亿美元收入麾下。
潜力无限的DPU市场,也吸引了众多初创公司的加入。但是面对来自英伟达、英特尔、AMD、Marvell等巨头的竞争,DPU初创公司又有几家能够斩获成功。2020年DPU初创明星企业Fungible以1.9亿美元的低价卖给了微软;2024年,以色列DPU初创公司Pliops和法国DPU公司Kalray报团取暖,意图加快DPU的研发速度。。。。
即便如此,DPU这几年在国内发展如火如荼,涌现出一批优秀的芯片初创公司,包括中科驭数、云豹智能、云脉芯联等,此外还有众多头部云厂商参与DPU研发,包括移动云、阿里云、天翼云、百度云等。据不完全统计,国内涉及DPU产品的公司有三十余家。就DPU关注热度而言,国内并不亚于国外。
风起云涌的DPU市场,国产厂商战犹酣。就在6月19日,中科驭数发布的第三代DPU芯片K2-Pro,再次引爆了国产DPU市场。中科驭数的这把火吹响AI,吹向算力,更重新定义了DPU。
DPU:“欲戴皇冠,必承其重”
大数据、算法和算力已经成为人工智能产业发展的三架马车。而中央处理器、图形处理器、数据处理器” 成为未来计算的三大支柱,如果把CPU比做大脑、那么GPU就好比是肌肉、而DPU就是神经中枢。
进一步而言,CPU承载了应用生态,决定了计算系统是否可以通用;GPU提供了高密度各类精度的算力,决定了系统是否有足够的“力量”;DPU负责数据在各种CPU和GPU之间高效流通,决定了系统是否能协同工作。所以,只有大脑和肌肉,没有神经中枢,大概就会半身不遂了。
DPU被冠以“PU”的皇冠之后,必然要承受其重。
目前,DPU正面临着三大关键挑战:一,AI大模型时代,更高的算力造就更多的智能,越多的智能需要越多的算力,这样正循环的态势使得算力和智能发展势头不可逆转;二,虽然摩尔定律在过去十年已然放缓,但是芯片的集成度并没有下降,“Super Computer on a single Chip”已经成为现实。芯片做得越大必然对IO要求越来越高,因为数据是计算的基础,没有数据,芯片里面放再多晶体管也没有用。三,算力供给形式的多样化所带来的挑战,从最早的虚拟机,到现在的容器、裸金属和虚拟机并池管理,计算资源的提供方式变得多样化。这就要求必须在算力底座核心芯片上面下功夫。
发展这么多年,DPU现在成熟了吗?关于此可能业界的看法不一。不过Gartner的技术成熟度曲线给出了一些参考。2021年Gartner发布的成熟度曲线里面首次有了DPU,表明它在业界已经引起了足够的关注,并被认为是具有潜力的技术。当时预测DPU成熟还需要5-8年时间,现在过去了三年,现在距离预测最早成熟期还有两年。经过过去3、4年时间的沉淀,DPU早已经脱离了初级网卡的形态,也不再仅仅是单芯片,DPU的功能也不是狭义的卸载CPU负载的角度来看待,而应有更广泛的视野。
而DPU能否大规模商业化取决于两点:第一是成本,一颗DPU卖5万块钱,做得再好也不太可能大规模商业化。现在DPU成本仍然很贵,英伟达的DPU大约在三四千美金以上,要想达到比较大规模的量产,DPU还要进一步降低成本。第二是软硬件成熟度,虽然现在算力基础设施从原来“网络+交换节点”这种分布式的系统结构朝着“三U一体”的趋势演进,但是所有趋势沉淀都需要时间,对于大芯片而言,3-5年就想让它走向成熟是不现实的,也许可能需要5-10年才能成熟。
总的来说,未来两年对于DPU的发展至关重要,谁能在技术创新、市场需求、生态系统建设、性能验证和成本控制等方面做得更好,谁就能在AI时代的DPU市场中占据领先地位。
国产DPU迈入新台阶
国内来看,中科驭数是率先完成三代DPU芯片研发迭代,并成功实现规模化商用的DPU厂商。2018年中科驭数孵化于中科院计算所,只聚焦DPU,不为任何风口所动的精神,使得中科驭数一直走的相当稳健,六年三代芯片、一个架构、一个软件、一个指令集,如今更是迈向了芯云一体。可以说,中科驭数已经成为国产DPU芯片研发领域不可或缺的主力军,更是中流砥柱。
驭云
鄢贵海指出,缓慢稳健是大象的专属权利。创新性企业,必须用一年走过别人三年的路,才有可能在市场竞争中赢得生存空间。在复杂大型芯片每代产品普遍3~5年的研发周期中,中科驭数用6年的时间,完成了三代芯片的迭代,平均每代芯片迭代仅有不到2年的时间。同时在成本控制上,也远小于行业的平均值。其秘诀就是全栈技术自主研发,重硅前验证,快速迭代。用理论来指导实践,而非盲目地诉诸于通过工程试错来优化设计。
中科驭数最新发布的第三代DPU芯片K2-Pro,是专为破解大规模数据中心性能瓶颈而生的高效能数据处理芯片,采用自主研发的KPU架构,集网络、存储、安全及计算等多业务卸载功能于一体,包处理速率翻倍至80Mpps,最高支持200G网络带宽,具备高度可编程性,确保了系统的灵活扩展性,为数据中心的业务增长和算力扩容提供坚实基础。在处理复杂任务时,K2-Pro相比上一代芯片能耗降低30%。作为一款纯国产的高性能解决方案,K2-Pro适用于云计算、智能计算、及高性能计算等领域,助力数据中心应对日益增长的规模和性能需求。
中科驭数不仅将DPU视为单一芯片,而是从三个维度重新定义其价值:1)架构决胜,用最先进的芯片架构来重新定义DPU芯片架构;2)软件护城,用最高兼容性来重新定义DPU的软件系统;3)平台上门,用最低的成本让客户接入DPU规模化部署与业务验证。以架构创新、软件护城、平台赋能,中科驭数重新定义了DPU。
在DPU产业价值及落地方面,国产DPU也取得了很大的进步。就比如,中科驭数DPU系列产品高效赋能各行各业,已成功为金融、通信、交通、数据中心等众多领域提供算力底座支持。尤其在金融计算行业,中科驭数低时延DPU产品占据较高的市场份额,在业内具有较高的知名度和影响力。
这款第三代DPU芯片的问世,将为国内数据中心和云计算产业带来新的发展机遇,同时也为全球DPU市场注入了新的活力。
软件方面也毫不逊色
在DPU领域,英伟达有专为DPU研发的DOCA,Intel 有IPU的IPDK。对标国际一流DPU软件开发平台,中科驭数HADOS已突破万卡级别落地部署。
中科驭数的HADOS在不少方面都有独特的沉淀和积累,HADOS 3.0在高性能云原生网络,尤其是微服务治理、运维管控、仿真模拟、生态适配、国内安全加解密、以及最重要的人工智能场景下,国产AI和GPU适配均占据了明显的优势,HADOS已经站在了业界的最前沿,与业界巨头竞争角力。
此外,值得一提的是,中科驭数坚定的从0到1的技术底色,推出了KISA指令集。KISA是中科驭数面向DPU强IO、强数据、弱控制、敏捷异构的需求而推出的强扩展指令集,是业界首个面向DPU领域的专用指令集。
那么为何会推出这样的一套指令集呢?这是因为在专用计算领域,DPU作为一种复杂的算力芯片,其编程范式的多样性和不统一性,很难满足上层应用敏捷迭代的需求。这要比国外走的更靠前。
不同于传统的CPU指令集,KISA面向数据而非控制,高计算密度型而非低计算密度型,以数据流为基本操作单元,而非字节。更重要的是,KISA首次在指令集层次支持敏捷异构,用一套统一的指令实现了多种异构处理核进行管理调度。目前,KISA指令集涵盖了KISA基础架构、以及面向DPU专用处理扩展指令,包含包解析、转发指令、以及表查询指令等。基于KISA已经覆盖25大类应用场景,累计数百个用例,得到非常充分验证。
KISA将软件定义技术路线向着更加可落地、可执行的方向推进了一大步,它系统性地解决了领域专用计算的编程范式混杂的难题,让开发变得更加简单高效,让每一行代码直达DPU算力。
中科驭数凭借HADOS和KISA的创新,已经站在了DPU技术的前沿,在全球DPU市场中与业界巨头展开了有力的竞争。
结语
有了DPU,算力基础设施将从绿皮车时代进入到高铁时代,不仅解决了连通问题,更解决整个算力基础设施之间节点、虚拟机和物理机之间逻辑距离问题。
DPU产业已经成为国内外竞争的新焦点,在未来数据中心、智算中心等高带宽、低延迟、高吞吐率产品都将发挥重要作用,为东数西算、算力网络等重要新型算力基础设施建设提供核心组件。虽然现在DPU还没有像GPU那样在数据中心应用规模如此大,但是随着AI赋能各行各业的推进,数据量的指数级增长,DPU必将大有所用。
点这里加关注,锁定更多原创内容
今天是《半导体行业观察》为您分享的第3811期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦