你的位置:开云(中国)Kaiyun官方网站 登录入口 > 新闻动态 > kaiyun官方网站照旧无法称心GPU之间通讯的需求-开云(中国)Kaiyun官方网站 登录入口

kaiyun官方网站照旧无法称心GPU之间通讯的需求-开云(中国)Kaiyun官方网站 登录入口

发布日期:2025-07-28 08:37    点击次数:94

新闻动态

(原标题:大芯片,两条道路) 如若您但愿不错常常碰头,宽宥标星储藏哦~ 在前不久刚收尾的CES展会上,英伟达重磅推出RT50系列显卡和GB10超等芯片等产物,激励行业温和。 对此,Cerebras探口而出的对英伟达评价说念:“它不是确实的AI大芯片”。 尽人皆知,跟着AI波浪的兴起,芯片成为行业关节推手。行为GPU巨头,英伟达凭借高性能GPU占据AI芯片市集的主导地位,跟英特尔、AMD等厂商雷同,齐是采选将大片晶圆切分红微型芯片的步地,然后将繁密GPU或加快器互联起来打形成性能刚劲的AI处理器

详情

kaiyun官方网站照旧无法称心GPU之间通讯的需求-开云(中国)Kaiyun官方网站 登录入口

(原标题:大芯片,两条道路)

如若您但愿不错常常碰头,宽宥标星储藏哦~

在前不久刚收尾的CES展会上,英伟达重磅推出RT50系列显卡和GB10超等芯片等产物,激励行业温和。

对此,Cerebras探口而出的对英伟达评价说念:“它不是确实的AI大芯片”。

尽人皆知,跟着AI波浪的兴起,芯片成为行业关节推手。行为GPU巨头,英伟达凭借高性能GPU占据AI芯片市集的主导地位,跟英特尔、AMD等厂商雷同,齐是采选将大片晶圆切分红微型芯片的步地,然后将繁密GPU或加快器互联起来打形成性能刚劲的AI处理器集群。

与此同期,业界还有一种径直在整片晶圆上作念AI大芯片架构的厂商。其中,Cerebras就是后者的典型代表之一,旨在以不同联想范例和架构的AI大芯片,领跑“后AI期间”。

英伟达,Not a real big AI chip

开始以芯片巨头英伟达为例,来望望这种通过小芯片集群架构来联想AI芯片的步地。

进入AI大模子期间, 因为单芯片算力和内存有限,无法承载大模子,单个GPU纯属AI模子早已成为历史。通过多种互连工夫将多颗GPU算力芯片互连在整个提供大范畴的算力、内存,成为行业趋势。

在DGX A100情况下,每个节点上8张GPU通过NVLink和NVSwitch互联,机间径直用200Gbps IB HDR网罗互联;到了DGX H100,英伟达把机内的NVLink推广到机间,加多了NVLink-network Switch,不错搭建256个H100 GPU构成的SuperPod超等辩论系统。

不错看到,跟着AI算力需求赓续增长,多GPU并行成为一种趋势,不错因循大模子的纯属和推理。

关于多GPU系统而言,一个关节的挑战是怎么罢了GPU之间的高速数据传输和协同责任。然则,传统的PCIe总线由于带宽闭幕和延长问题,照旧无法称心GPU之间通讯的需求。

对此,英伟达推出了NVLink、NVSwitch等互连工夫,通过更高的带宽和更低的延长,为多GPU系统提供更高的性能和成果,支抓GPU 之间的高速数据传输和协同责任,提高通讯速率,加快辩论过程等。

NVLink用于说合多个GPU之间或说合GPU与其他开导(如CPU、内存等)之间的通讯。它允许GPU之间以点对点步地进行通讯,具有比传统的 PCIe 总线更高的带宽和更低的延长,为多GPU系统提供更高的性能和成果。

NVSwitch旨在处治单作事器中多个GPU之间的全说合问题,允许单个作事器节点中多达16个GPU罢了全互联,这意味着每个GPU齐不错与其他GPU径直通讯,无需通过CPU或其他中介。

NVSwitch全说合拓扑

(图源:nextplatform)

2022年,英伟达将NVSwitch芯片孤独出来,并制作成NVLink交换机,不错在单个机架内和多个机架间说合成NVLink网罗,不错处治GPU之间的高速通讯带宽和成果问题。

2023年,英伟达生成式AI引擎DGX GH200参加量产,GH200是H200 GPU与Grace CPU的蛊惑体,一个Grace CPU对应一个H200 GPU,GPU与GPU、GPU与CPU之间均采选NVLink4.0说合;

再到新一代AI加快卡GB200,由1个Grace CPU和2个Blackwell GPU构成。在GB200 NVL72整机柜中,一共包含了72颗Blackwell GPU芯片,18颗NVSwitch芯片,英伟达用了5000根铜缆将总计的GPU齐与总计的NVSwitch全部说合起来。

经过多年演进,NVLink工夫已升级到第5代。NVLink 5.0以100GB/s的速率在处理器之间迁徙数据。每个GPU有18个NVLink说合,Blackwell GPU将为其他GPU或Hopper CPU提供每秒1.8TB的总带宽,这是NVLink 4.0带宽的两倍,是行业范例PCIe Gen5总线带宽的14倍。NVSwitch也升级到了第四代,每个NVSwitch支抓144个NVLink 端口,无险峻交换容量为14.4TB/s。

粗豪看到,跟着每一代NVLink的更新,其每个GPU的互联带宽齐是在赓续的提高,其中NVLink之间粗豪互联的GPU数,也从第一代的4路到第四代/第五代的18路。每个NVLink链路的速率也由第一代的20Gb/s提高至面前的1800Gb/s。

NVLink和NVSwitch等工夫的引入,为GPU集群和深度学习系统等应用场景带来了更高的通讯带宽和更低的延长,从而提高了系统的全体性能和成果。

在2025年CES上,英伟达新推出GeForce RTX 5090与GB10芯片,代表着英伟达在辩论架构和工夫道路上的再一次跨越。

Blackwell架构采选了最新一代的CUDA中枢和Tensor中枢,很是优化了AI辩论的成果。NVLink72行为一种高速互联工夫,允很多达72个Blackwell GPU 互联,构建出极为壮健的辩论集群。此外,行为集群的一部分,2592个Grace CPU中枢也为GPU提供了壮健的协同辩论智商,粗豪更好地不休和和洽任务。

除了传统的GPU和集群处治决策,英伟达还推出了AI超等辩论机Project DIGITS,Project Digits的中枢在于其搭载了英伟达的Grace Blackwell超等芯片(GB10)。

GB10是一款SoC芯片,基于Grace架构CPU和Blackwell GPU的组合,Grace GPU部分基于Arm架构,具有20个高效节能中枢,Blackwell GPU部分则支抓高达1PFlops(每秒一千万亿次)的FP4 AI性能,可运行2000亿参数的大模子。GB10还采选了NVLink-C2C芯片间互联工夫,将GPU与CPU之间的通讯成果提高到新的高度,为腹地AI模子的开发、推理和测试提供壮健的支抓。

据先容,这台AI超算还集成了128GB LPDDR5X内存和高达4TB的NVMe存储,使开发东说念主员粗豪处理很多条款尖酸的AI责任负载。

除此除外,Project DIGITS还配备了一颗孤独的NVIDIA ConnectX互联芯片,它不错让“GB10”超等芯片里面的GPU兼容多种不同的互联工夫范例,其中包括NCCL、RDMA、GPUDirect等,从而使得这颗“大核显”不错被各式开发软件和AI应用径直拜访,允许用户运行具有多达4050亿个参数的大模子。

这意味着,在踱步式系统中,除了单卡和多卡互连外,作事器之间的多机互联也不错采选InfiniBand、以太网、GPUDirect等新的互联工夫。

在硬件和互联工夫除外,英伟达还开发了以CUDA为中枢的软件架构,与其硬件进行配套使用,从而更好地阐发硬件的性能。英伟达凭借其在系统和网罗、硬件和软件的全方向布局,使其在AI生态紧紧占据主导地位。

试验上,行业芯片大厂齐在互联工夫上积极布局。除了英特尔2001年忽视的PCIe(PCI-Express)条约,AMD也推出了与英伟达NVLink相似的Infinity Fabric工夫。

AMD的AI加快器Instinct MI300X平台,就是通过第四代Infinity Fabric链路将8个实足说合的MI300X GPU OAM模块集成到行业范例OCP联想中,为低延长AI处理提供高达1.5TB HBM3容量。第四代Infinity Fabric支抓每通说念高达32Gbps,每链路产生128GB/s的双向带宽。

与此同期,AMD、博通、想科、Google、惠普、英特尔、Meta和微软在内的八家公司组建了新的定约,为东说念主工智能数据中心的网罗制定了新的互联工夫UALink(Ultra Accelerator Link)。

据了解,UALink提议的第一个范例版块UALink 1.0,将说合多达1024个GPU AI加快器,构成一个辩论“集群”,基于包括AMD的Infinity Fabric在内的“怒放范例”,UALink 1.0将允许AI加快器所附带的内存之间的径直加载和存储,共同完成大范畴辩论任务。

与现存互连范例比较,UALink 1.0总体上将提高速率,同期裁汰数据传输延长。

UALink定约旨在创建一个怒放的行业范例,允很多家公司为整个生态系统增涨价值,从而幸免工夫操纵。

AI芯片,互连挑战与内存瓶颈

从行业大厂推出的一系列GPU和SoC粗豪看到,跟着AI大模子对算力基础设施的条款从单卡拓展到了集群层面,其AI芯片采选的是将多个小芯片进行集群和互连的架构,这对大范畴卡间互联的兼容性、传输成果、时延等主见忽视了更高的条款。

GPU集群的范畴和有用算力,很大程度上取决于GPU集群网罗竖立和使用的交换机开导,说合范例的带宽也闭幕了辩论网罗的带宽。

从PCIe到NVLink、Infinity Fabric再到InfiniBand、以太网和UALink,尽管这些工夫赓续迭代升级,通过高带宽、低延长的数据传输,罢了了GPU或AI作事器之间的高速互联,在提深重度学习模子的成果和辩论性能方面阐发了紧要作用。

但粗豪预猜想是,跟着将来辩论数据的爆炸式增长、神经网罗复杂性赓续加多,以及AI工夫的加快演进,对更高带宽的需求还在连接增长。

互联工夫仍不成幸免的成为行业中的瓶颈挑战,闭幕了GPU和AI芯片的最大性能开释。

与互联工夫的滞后比较,存储工夫的瓶颈似乎亦然一大关节。

尽人皆知,冯·诺依曼架构靠近的一个中枢挑战是CPU/GPU等处理器的辩论速率与内存拜访速率之间的不匹配,尤其是与存储开导的速率比较更是一丈差九尺。这就是业界著名的“内存墙”,其不平衡的发展速率对日益增长的高性能辩论形成了极大制约,成为纯属大范畴AI模子的瓶颈。

刻下在AI、机器学习和大数据的鼓动下,数据量呈现出指数级的增长,存储工夫必须紧随自后,身手确保数据处理的成果和速率。关于刻下的内存行业来说,高带宽内存(HBM)照旧成为焦点,尤其是在AI大模子纯属和推理所需的GPU芯片中,HBM简直照旧成为标配。

尽管以HBM为代表的存储工夫带来了显耀的存算带宽提高,在一定程度上缓解了带宽压力,但并未从根底上改变辩论和存储分离的架构联想。与GPU等辩论芯片的快速发展比较,仍靠近内存受限、存储空间的数据糊涂智商容易跟不上辩论单位需求量的挑战。

存算带宽透露(图源:Cerebras )

存储工夫滞后于辩论芯片发展的表象,赫然照旧成为当代辩论系统中的一大瓶颈。存储工夫的滞后会给高性能辩论带来多重挑战:

辩论智商毁坏:GPU的壮健辩论智商无法得到充分独揽,存储瓶颈导致大批的GPU辩论资源处于称心状态,无法高效地实行任务。这种不匹配导致了系统性能的低效阐发,加多了辩论时辰和能源虚耗。

AI纯属成果下落:在深度学习纯属过程中,大批的数据需要肤浅地在GPU与存储之间交换。存储的低速和高延长径直导致AI纯属过程中数据加载时辰过长,从而延长了模子纯属周期。这关于需要快速迭代的AI形势来说,可能会形成较大资本压力。

大范畴数据处理的辞让:跟着大数据的兴起,很多AI应用需要处理海量数据。刻下存储工夫未能有用支抓大范畴数据的快速处理和存储,很是是在多节点踱步式辩论的场景中,存储瓶颈常常成为数据流动的最大辞让。

详尽来看,英伟达、AMD等芯片厂商行为AI畛域的主导硬件聘请,其壮健的并行辩论智商为大范畴神经网罗的纯属提供了极大的匡助。

然则,在AI模子范畴抓续扩大、推理任务安宁提高的过程中,GPU架构的局限性安宁表露,大批数据的传输和存储可能成为瓶颈,进而影响AI大模子纯属和推理的速率和成果。

Cerebras:A real big AI chip

面对上述挑战,Cerebras推出的Wafer-Scale引擎成为了窜改性的处治决策。

以前70年中,莫得任何公司告捷克服制造大型芯片的复杂性,即即是Intel和Nvidia这样行业巨头也未能处治这一挑战。尽管在与诸多曾尝试构建大型芯片的大家研究后,很多东说念主以为制造如斯大的芯片不成能罢了,但Cerebras依然充满信心。

“晶圆级”引擎,来势汹汹

2019年,Cerebras公开展示了WSE-1芯片,这一芯片比那时最大的GPU大了56.7倍,包含突出1.2万亿个晶体管,而那时最大的GPU唯有211亿个晶体管;2022年,在湾区的辩论历史博物馆展示了WSE-2芯片,WSE-2将晶体管数目提高到2.6万亿,并在更小的空间和功耗下提供了更强的辩论性能,符号着辩论历史上的一个紧要里程碑。

2024年,Cerebras推出的WSE-3包含4万亿个晶体管和90万个辩论中枢,其性能不错纯属比OpenAI的GPT-4大13倍的AI模子。

WSE-3与面前行业最新的 GPU 芯片尺寸对比

传统芯片在晶圆上以网格模式打印,然后切割成数百个微型芯片,而Cerebras的晶圆级集成则跳过了这种切割时局,径直将整个晶圆联想成一个单一的超大芯片,因此称为“晶圆级”引擎。该决策通过将海量的辩论资源和存储资源蚁集在单一的超大范畴芯片(晶圆)上,优化了数据传输旅途,减少了延长,显耀提高了推理速率。

措施略这种联想的必要性,开始需要了解AI开发中触及的两大瓶颈:一是处理数百万矩阵乘法运算所需的辩论智商(FLOPs);二是通过各式归一化、SoftMax或ReLU操作在模子说合中更新权重所需的内存带宽。

在辩论智商部分,诚然其跳动遵守摩尔定律,但内存带宽的提高却远远滞后。举例,英伟达从2020年发布的A100到2022年的H100,辩论智商加多了约6倍,但内存带宽仅增长了1.7倍。

纯属时辰的主导要素从辩论智商转向了内存带宽。

同期,由于传统的处理器芯片里面内存有限,无法存储用于辩论的数据。在处理如LLM模子纯属这样的大范畴辩论任务时,处理器芯片需要赓续地将数据从芯片外的内存中收支。处理器与内存芯片之间的通讯速率远低于处理器辩论速率,芯片与芯片之间的通讯速率比芯片里面的通讯慢100倍以上,导致内存瓶颈问题。

Cerebras的晶圆级引擎恰是为了处治这些瓶颈而联想的。

通过联想更大的芯片,不错加多处理器和腹地内存芯片的空间,独揽千千万万的硅线罢了两者之间的高速通讯,联想幸免了像英伟达、AMD在将多个GPU或处理器说合时靠近的互联瓶颈和内存带宽问题。

具体来看,在这个超大芯片上,Cerebras将辩论单位和内存单位高度集成,形成了一个密集的网格结构。

与传统的冯·诺依曼架构不同,这种存算一体工夫将辩论单位与存储单位深度会通,极地面减少了数据在内存与处理器之间传输的距离和时辰,从根底上冲破了“存储墙”问题,极大提高了存算交换成果,使得数据能在极短的时辰内完成读取和辩论,从而罢了超快推理。

获利于芯片尺寸,对比英伟达H100 GPU,Cerebras WSE-3领有90万个辩论中枢,是H100的52倍,片上内存是H100的880倍,内存带宽是其7000倍,而通过WSE-3的片上互联工夫,中枢之间的互连带宽更是作念到了214Pbps,是H100系统的3715倍。

Cerebras WSE与英伟达H100存算带宽对比

诸多上风加抓下,把柄Cerebras的数据,其推理作事在运行开源模子Llama 3.1 8B时不错达到1800 token/s的生成速率,而在运行Llama 3.1 70B时也能达到450 token/s。比较之下,英伟达H100 GPU 在这两个模子上的发扬分手为242 token/s和128 token/s。在许厚情况下,WSE-3比使用英伟达H100构建的系统快10到20倍。

然则,这样大尺寸的芯片诚然性能壮健,但更容易遭逢劣势,因为跟着芯单方面积增大,良率会指数级下落。因此,尽管较大的芯片肤浅运行速率更快,早期的微处理器为了保管可罗致的制造良率与利润,肤浅聘请适中的尺寸。

连年来,跟着制造工艺和光刻开导的跳动,劣势率得到了适度,且通过范例的内存制造工艺,不错绕过有劣势的部分,确保全体芯片不被一个劣势影响。Cerebras在其WSE芯片中添加了冗余中枢联想,并通过固件映射来屏蔽制造劣势,以铩羽单一劣势损坏整个芯片。这与传统的芯片制造步地不同,后者肤浅会丢弃有劣势的芯片。

同期,容错率的程度可由劣势发生时损失的芯单方面积来猜测。关于多中枢芯片而言,中枢越小,容错率越高。如若单个中枢饱胀小,就有可能制造相等大的芯片。

据了解,在决定构建晶圆级芯片之前,Cerebras开始联想了一个相等小的中枢。Wafer Scale Engine 3中的每个AI 中枢约为0.05mm2,仅为H100 SM 中枢大小的约1%。这两种中枢联想均具备容错智商,这意味着一个WSE 中枢的劣势仅会损失0.05mm2,而H100 则会损负约6mm2。从表面上来看,Cerebras WSE芯片的容错率比GPU高约100倍,推敲的是劣势对硅面积的影响。

但只是领有小中枢还不够。Cerebras还开发了一种精密的路由架构,粗豪动态重新竖立中枢之间的说合。当侦测到劣势时,系统可透过冗余通讯旅途自动绕过劣势中枢,并独揽掌握中枢保抓芯片的全体运算智商。

路由架构(图源:techbang)

该路由系统与小量备用中枢协同责任,粗豪替换受劣势影响的中枢。与以往需要大范畴冗余的步地不同,Cerebras的架构透过奢睿型路由罢了了以最少备用中枢达成高良率。

在营业模式上,Cerebras的中枢产物不是单独销售WSE芯片,而是提供与其WSE芯片共同联想和优化的集成辩论系统。到面前为止,Cerebras 照旧推出了三款辩论系统:CS-1(针对WSE-1),CS-2(针对WSE-2),以及最新的CS-3(针对WSE-3)。

每个系统齐包含一个“引擎块”,其中包括芯片封装、供电系统和一个封锁的里面水轮回,用于冷却功耗巨大的WSE芯片。此外,总计的冷却和电源开导齐有冗余且支抓热插拔。

据了解,Cerebras的系统决策具备诸多上风:

推广智商:Cerebras的辩论系统通过其SwarmX(网罗通讯)和MemoryX(存储权重)工夫来罢了可推广性。SwarmX工夫允许最多192台CS-2系统或2048台CS-3系统说合在整个,罢了简直线性性能增益。举例,三倍数目的CS-3系统不错将LLM的纯属速率提高三倍。比较之下,英伟达通过收购Mellanox来说合GPU,但性能增益是次线性的。

此外,MemoryX工夫为每个辩论系统提供最高1.2TB的存储空间,允许每个系统存储24万亿参数,并在纯属期间将总计模子参数存储在芯片外,同期提供接近芯片内的性能。一个由2048台CS-3系统构成的集群不错以256 exaFLOPS的AI辩论智商,不到一天的时辰就不错完成Llama2-70B模子的纯属。

内存和辩论解耦:Cerebras的系统允许内存和辩论智商孤独推广,而GPU的内存和辩论智商是固定的。比如,英伟达的H100芯片内存闭幕为80GB,GPU集群需要将LLM分解成多个小部分,在千千万万的GPU之间分拨,加多了模子踱步和不休的复杂性。而Cerebras的单个辩论系统不错容纳和纯属一个包含数万亿参数的模子,不需要踱步式纯属软件,从而减少了开发过程中97%的代码量。

系统性能:Cerebras的辩论系统单台开导的性能照旧突出传统的GPU机架。2019年发布的CS-1就比GPU快1万倍,且比那时群众名步骤181的Joule超等辩论机快200倍。CS-2于2021年发布,性能较CS-1提高一倍。而CS-3于2024年推出,性能再翻倍,但功耗和资本未加多。一个CS-3系统的辩论智商相等于一整房间作事器中数十到数百个GPU的总数。48台CS-3的集群性能突出了好意思国的Frontier超等辩论机——群众名步骤一的超等辩论机,但资本低廉了100倍。

AI推明智商:2024年8月,Cerebras为CS-3系统启用了AI推理功能,成为群众最快的AI推理提供商。一个月后,Groq和SambaNova在推理速率上有所进展,但Cerebras赶快夺回了第一的位置。Cerebras的推明智商比Nvidia H100快20倍,资本仅为其五分之一。关于需要及时或高糊涂量推理的AI产物开发者,Cerebras的低延长推明智商将尤为紧要。

AI大芯片,更适用于大模子推理?

AI推理是指在经过大批数据纯属之后,AI系统独揽其模子对新的输入数据进行判断、分类或预测的过程。推理速率的快慢径直影响着AI系统的响应智商、用户体验,以及AI工夫在及时交互应用中的可行性。

刻下,尽管大多数AI系统照旧不错处理复杂的任务,但推理过程仍然耗时较长。尤其在当然话语处理(NLP)任务中,举例ChatGPT这种诳言语模子,系统需要逐字生成回话,这使得及时交互变得安宁且不成见。

跟着AI大模子抓续发展,行业重心正在从“纯属模子”转向“模子推理”,意味着对推理基础设施的需求呈现飞腾趋势。举例,不管是OpenAI的o1和o3模子,照旧Google的Gemini 2.0 Flash Thinking,均以更高强度的推理计谋来提高纯属后闭幕。

巴克莱研报骄气,AI推理辩论需求在快速提高,瞻望将来其将占通用AI合辩论需求的70%以上,推理辩论的需求甚而不错突出纯属辩论需求,达到后者的4.5倍。

面对行业趋势,这家开发于2016年的巨型晶圆级芯片公司,展示了AI推理芯片畛域创新的巨大后劲。Cerebras凭借其超快的推理速率、优异的性价比和独有的硬件联想,将赋予开发者构建下一代AI应用的智商,这些应用将触及复杂、多时局的及时处理任务。

从其财务数据来看,Cerebras呈现出快速增长的态势。2024年上半年,公司罢了销售额1.364亿好意思元,比较2023年同期的870万好意思元增长突出15倍。净亏空也从7780万好意思元收窄至6660万好意思元。2023年全年,Cerebras净亏空1.272亿好意思元,营收7870万好意思元。公司瞻望2024年全年销售额将达到2.5亿好意思元,较2022年的8300万好意思元增长201%。

这种高速增长无疑印证了Cerebras的中枢竞争力,同期增强了其寻求上市的诱骗力。

从更宏不雅的角度来看,Cerebras的IPO反应了AI芯片市集的巨大后劲和横暴竞争。面前,英伟达在这一畛域占据约90%的市集份额,但跟着AI工夫的普及和应用场景的拓展,市集对高性能AI芯片的需求正在快速增长。除了Cerebras,包括AMD、英特尔、微软和谷歌在内的科技巨头也齐在积极布局AI芯片畛域。此外,亚马逊、谷歌和微软等云作事提供商也开动自主开发AI芯片,以减少对第三方供应商的依赖。

呐喊大进背后,Cerebras仍挑战重重

然则,尽管Cerebras一齐呐喊大进,但其业务和工夫也存在一些值得温和的风险要素,这也在一定程度上也反应着整个AI大芯片工夫架构厂商存在的共性挑战与隐忧。

存算一体工夫:尽管存算一体工夫展现出巨大后劲,但其市集化进度仍靠近挑战。GPU决策在资本和生态郑重度上仍具有一定上风。因此,存算一体芯片不仅要通过工夫升级裁汰资本,还需通过试验应用培植市集,强化用户对超快推理的价值成见。

散热挑战:当芯片的面积加多,有更多的电流流过晶体管,半导体电阻当然会产生更多的热量。如若热量过高,还会分解芯片过火名义的小部件。英伟达的Blackwell GPU数据中心中,齐需要巨型的冷却系统。而Cerebras的巨无霸芯片,更是需要一套宽绰的散热系统。有利的、宽绰的散热系统也意味着,部署芯片需要迥殊的配套资本。

客户生态:英伟达的软件和硬件堆栈在行业中占据主导地位,并被企业普通采选。在生态系统的郑重度、模子支抓的普通性以及市集成见度方面,英伟达仍然占据上风。比较于Cerebra,英伟达领有更大的用户群体和更丰富的开发者器具和支抓。Futurum Group分析师指出,诚然Cerebras的晶圆级系统粗豪以比英伟达更低的资本提供高性能,但关节问题是企业是否欢悦调整其工程经过以适应Cerebras的系统。

客户蚁集度高/供应链中断风险:招股讲明书骄气,总部位于阿联酋的AI公司Group 42在2023年孝敬了Cerebras 83%的收入。这种过度依赖单一客户的情况可能会给公司带来潜在风险,拓宽客户基础、裁汰对单一客户的依赖,将是Cerebras必须面对的挑战。其次,Cerebras的芯片由台积电坐褥,公司辅导投资者扎眼可能的供应链中断风险。

盈利挑战:尽管Cerebras在工夫上处于最初,但其财务状态却仍是挑战。数据骄气,从2022年到2023年,Cerebras累计收入1亿好意思元,但净亏空则高达3亿好意思元。2024年上半年,尽管收入同比增长1480%,达到了1.364亿好意思元,但净亏空依旧达到6661万好意思元。这标明,尽管收入增长迅猛,Cerebras仍靠近盈利滚动的严峻考验。

市集竞争:跟着东说念主工智能硬件市集的赓续发展,Cerebras 还将靠近来自专科云提供商、微软、AWS 和谷歌等超大范畴提供商以及 Groq 等专用推理提供商的竞争。性能、资本和易实施性之间的平衡可能会影响企业采选新推理工夫的决策。

在现在快速演变的工夫生态系统中,多工夫协同升级已成为鼓动新兴工夫发展的中枢能源。要罢了算力的抓续增长,GPU、互联、存储等工夫必须协作发展。诚然GPU工夫已赢得了显耀跳动,但莫得更高效的互联工夫和更快的存储工夫因循,算力的后劲将无法实足开释。

关于英伟达等科技巨头而言,怎么连接鼓动GPU与其他关节工夫的协同进化,处治存储、互联的瓶颈,将是将来几年中的主要挑战。

另一边,行为一家开发仅8年的初创公司,Cerebras粗豪在短时辰内发展到挑战行业巨头的地步,充分讲明了AI工夫的巨大后劲和市集的快速变革。如今AI芯片市集的洗牌,不仅是工夫的比拼,更是理念和将来愿景的造反。

把柄半导体“牧本周期”——芯片类型有规则地在通用和定制之间不推辞替——在某个特定时期内,通用结构最受宽宥,但到达一定阶段后,称心特定需求的专用结构会奋发图强。

刻下,英伟达所代表的通用结构期间正处于巅峰。而AI窜改为Cerebras等大芯片厂商提供了成为行业引导者的契机,至于该工夫道路是否能成为行业主流,还需要静待市集的检修与淬真金不怕火。

半导体极品公众号推选

专注半导体畛域更多原创内容

温和群众半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支抓,如若有任何异议,宽宥干系半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第4022期内容,宽宥温和。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”共享给小伙伴哦kaiyun官方网站

服务热线
官方网站:www.edu-amss.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:10953074394
邮箱:fa8e4947@outlook.com
地址:新闻动态科技园29号
关注公众号

Powered by 开云(中国)Kaiyun官方网站 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun官方网站 登录入口-kaiyun官方网站照旧无法称心GPU之间通讯的需求-开云(中国)Kaiyun官方网站 登录入口

回到顶部