斗鱼体育中国官网入口 可重构数据流三十年:下一代打算平台之争


智东西
作家 | 程茜
剪辑 | 漠影
历经484天,民众AI产业翘首以盼的DeepSeek-V4妥贴发布、全面开源,其同步甩出的一份硬核期间答复,为算力期间的演进写下全新注脚。
它以系统级创新,将KV Cache限度推广至百万级高下文;系统性压缩机制的引入,既缩小存储与打算的宏大支拨,也将打算活水线的深度与复杂度推向新高度,这每一处期间突破,都是对算力发展极限的叩问。
再将时期拨回2025年末,还有一笔龙套旧例的交往横空出世:英伟达以200亿好意思元天价拿下AI推理芯片独角兽Groq LPU推理期间的非独家授权,并将中枢团队纳入麾下。
DeepSeek-V4的期间演进,为数据流架构开释极限性能提供了适配场景;Groq 被英伟达收编后也相似押注的是数据流架构所在,这一产业新变量已然置身民众AI产业中枢舞台,成为撬动算力翻新波澜的紧迫力量。
算力翻新的大水奔涌上前,巨头的每一次布局,都潜藏着行业迭代的风向。回望打算机期间的演进,每一次划期间的期间翻新,本色上都是一场对算力平台的豪赌,期间门路的遴选经常决定了异日数十年的产业款式。
在PC与互联网的期间,英特尔(Intel)凭借x86架构的十足性能总揽了算力疆域,并在此基础上构筑了难以撼动的软件生态帝国。然则,跟着HPC与AI波澜的到来,期间范式悄然切换。英伟达(NVIDIA)以CUDA生态配合TensorCore架构,较x86架构杀青了十倍的性能跃迁,建设了其新一代算力霸主的地位,助其登顶民众市值之巅,完成了从图形处理器到AI引擎桂冠的加冕。
因此,英伟达创始东说念主、CEO黄仁勋比任何东说念主都明晰,算力平台的更替从不温情脉脉。往时英特尔在x86生态的善良乡中千里睡,未能意象并行打算的波澜;如今英伟达坐拥CUDA帝国,朴直面一个更恣虐的现实——当Transformer架构的算力需求每两年暴涨750倍,当单卡算力靠拢物理极限,谁会成为新一代的算力平台?
十倍级的代际跃迁经常出生于架构的颠覆而非工艺的更正。在GTC 2026大会上,英伟达妥贴推出Groq 3 LPX机架级推理平台,黄仁勋称,Groq 3 LPX平台与Vera Rubin NVL72结合使用的夹杂架构,可杀青GPU强劲算力与LPU极致带宽的圆善互补。这赶紧激刊行业关注。
纵不雅产业界,除了英伟达这个GPU霸主,正在给我方找一条“非GPU”的退路,此前英特尔被传以16亿好意思元价钱收购SambaNova,后转向深度协作。巨头们的心焦已写在脸上。
而在国内,大额融资、订单的橄榄枝纷纷抛向鲲云科技等企业。
这些看似漫步的热门,其实指向归拢个期间原点——可重构数据流架构。
锲而不舍,新期间的演进、锻真金不怕火、落地也非一旦一夕之功。期间的着手不在GPU架构性能瓶颈逐渐明确确当下、亦不在GPU挑战CPU民众算力霸主的期间;它的着手在更早之前,在英伟达还未训诫之时,在阿谁制程工艺快速迭代、CPU仍然总揽算力平台的期间,从几个学者的敬爱敬爱到学术社区的建立,从一代代实验室期间的传承到产业化的星火燎原,于今已过了三十多年。
让咱们把时钟拨回35年前,从牛津大学的一间会议室提及。
一、帝国理工学院的一间实验室,可重构数据流架构火种出生(1991-2000)
1991年,牛津大学的一间会议室内,陆永青博士规画了一场打算机体系架构的研讨会,一种新的架构想路运转被盘考:改动硬件来适配软件应用。
传统架构依赖辅导集体系进行打算经管,辅导间通过长入的存储地址空间进行配合,形成数据读写与打算的串行联系,影响打算效力擢升。
若是在架构遐想中将所有辅导集移除,依靠深度活水线与数据流动顺次放胆打算,如下图所示,表面上不存在数据读写带来的打算清闲,不错阐发物理极限性能。与此同期,在运行时重构打算电路,则不错经管打算通用性。

陆永青与其导师Ian Page找到了新的旅途,其推出的Occam高层编译步骤成为可重构数据流架构历史上初度给出的系统性工程化决议,在此次牛津大学研讨会上发表,成为自后Handel-C编译器的基础:用C谈话作念硬件并应用现场可编程期间,去兼顾极致性能与架构通用性。
此次研讨会,自后成为欧洲最大的可重构打算顶会FPL(现场可编程逻辑),连同陆永青创立的亚洲顶会FPT、其看成创刊主编创立的ACM TRETS,在而后的数十年间,成为这个新期间门路的主阵脚。
不同于英特尔、英伟达所主导的固定硬件架构,改动软件适配不同应用,新出生的期间专注于完全相悖的所在:改动硬件适配不同应用。类比到汽车制造行业,就十分于工场大约改动活水线设置,从而针对不同车型打造有益的活水线,并通过传送带替代东说念主工搬运来经管数据搬运的时期铺张,这种架构想路频繁能带来10倍以致百倍的性能擢升。

1991年FPL海报(图源:FPL会议官网)
9月6日,会议终结,从此首创了一个全新的打算架构,等于如今可重构数据流架构的雏形,奠定了该期间异日的中枢发展所在。看成创始东说念主的陆永青也成为推动这一规模发展的要道前驱东说念主物。
1995年,他从牛津大学转职帝国理工学院,训诫定制打算实验室。看成可重构数据流期间的源流实验室,Groq、SambaNova、鲲云科技这些国表里驰名创企的训诫、演进,都与这家实验室有着千丝万缕的计议。
期间的终极命题在于更好的落地应用。定制打算实验室出生初期对准的等于可重构数据流架构的两大中枢挑战:
• 数据流,面向特定应用场景杀青靠拢物理极限的打算性能;
• 可重构,在万般化场景的定制化架构间杀青纯深切换与通用适配。
自后Occam编译期间被分拆,训诫了Celoxica,其Handel-C用具链部分被欧洲EDA巨头Mentor Graphics收购,而这家巨头等于如今大名鼎鼎的西门子EDA。
Celoxica的出生,初度将可重构数据流架构从表面构想淬真金不怕火为可供产业使用的算力决议。陆永青与德国粹者Markus Weinhardt所奠定的活水线矢量化步骤,也借此完成了从学术创猜度工业基座的蜿蜒,为行将到来的期间波澜埋下了决定性伏笔。
二、大泰西两岸火种交织,三代学者戮力于啃下产业化贫苦(2000-2016)
与此同期,大泰西此岸的斯坦福大学,亦燃烧了可重构数据流架构的磋商火种。
同为各自期间门路的奠基学者,陆永青与Flynn为多年一又友。Flynn素质诚然一直驻扎于辅导集架构磋商,但他在Bell Labs责任的学生Oskar Mencer却对硬件数据流架构情有独钟,由他主导鞭策的StReAm,恰是面向自相宜打算遐想的典型数据流架构。
在奥地利FPL会议上,陆永青与Mencer领悟,大泰西两岸的磋商星火妥贴交织,其后Mencer加入帝国理工任教职东说念主员,他们协力推动数据流电路的极致优化,通过将活水线中所有软件移出,让硬件活水线获取靠拢物理极限的性能,杀青每个打算单位每个时钟周期都进行灵验打算。

陆永青(左一)、Oskar Mencer(左二)获帝国理工学院迥殊磋商奖(图源:帝国理工学院官网)
跟着磋商继续深入,可重构数据流架构与产业界的结合日益深厚,金融、医疗、石油勘测都成为这一期间旅途阐发作用的场景。2003年,雪弗龙石油的油田勘测责任受算力瓶颈制约,Mencer打造了高性能加快打算平台,杀青了油田钻井效力的百倍擢升。
这之后,Mencer主导训诫的Maxeler Technologies将上述研发恶果产业化,自后他渐渐专注于Maxeler的经管,逐渐淡出定制打算实验室。
Maxeler的数据流打算系统客户可谓大名鼎鼎,包含金融规模的JP Morgan、Citibank,动力规模的雪弗龙、ENI,还有英国Daresbury、德国Jülich等国度级超算中心。Maxeler与这些客户的协作阐述,可重构数据流架构依然成为企业要道业务的刚需算力载体。
Mencer之后,海表里学者前仆后继。
陆永青素质创办的帝国理工定制打算实验室成为北好意思、欧洲、亚洲学术盘考与疏通的交织点。Michael Flynn之后多位辅导集期间体系学者到定制打算实验室疏通访学,其中就包括斯坦福大学的Kunle Olukotun素质。多年后,Groq收购了Mencer创办的Maxeler Technologies,而Groq恰是其时Olukotun创立的SambaNova在好意思国最大的竞争敌手,亦是这种民众期间疏通下的势必。
随后,协助陆永青经管实验室的,相似是一位香港学者:本硕博均毕业于香港汉文大学的蔡权雄。他在定制打算实验室主导了CUBE与Axel集群两大记号性神气,为可重构打算的限度化考证打下了紧迫工程基础。
其中,CUBE将64颗FPGA在一个超大型印刷电路板上用Torus互团结构构成更大打算节点,谷歌TPU团队用2D Torus将TPU互联也领受了访佛想路。
Axel集群则是用32台异构打算节点,每个打算节点包含FPGA加快卡、GPU加快卡、高性能CPU,节点间用InfiniBand和Gigabit Ethernet互联,成为撑抓实验室多年科研责任的核默算力平台。

CUBE神气论文主页
啃下这两块硬骨头后,对工程杀青充满情切的蔡权雄投身工业界,挑战“芯片”这一大工程,后续加入英国芯片企业Imagination Technologies负责 SoC芯片研发。
毕业于复旦大学的新一代的实验室负责东说念主牛昕宇成为推动可重构数据流向ASIC演进的要道东说念主物。
凭借高度可编程性,FPGA曾历久看成定制打算实验室研发与产业化的主力平台。其多粒度可重构特质可圆善适配各样可重构数据流架构,杀青极高的算力应用率,但比特级重构依赖多量SRAM,在芯单方面积、功耗与重构蔓延上付出数倍乃至十倍代价。
这让可重构数据流架构的上风被现存考证平台本人的巨大支拨对消,性能增益被严重抹平,尤其在与英伟达新一代旗舰芯片的正面交锋中,二者峰值算力差距悬殊,在实验应用层面难以展现其性能上风。
从训诫鲲云科技后的期间与产物所在来看,其时牛昕宇依然坚毅到必须要找到宽裕深的应用场景作念ASIC芯片,才略透澈开释这一架构的全部潜能。
而其时常代抛给他们的命题是:究竟哪个战场,才领有宽裕磅礴的算力需求,足以撑抓起这么一颗全新架构ASIC芯片的出生?

陆永青(左)、牛昕宇(右)(图片来自相聚)
时值2011年前后,这个问题在实验室里面无东说念主能解,放眼民众业界亦无定论。可编程逻辑经管决议供应商Tabula曾以通讯规模为突破口,融资逾两亿好意思元大举鞭策,最终未能买通产业化通路。
濒临前路迷雾,实验室在仿真打算、生物打算、金融打算与机器学习场景探索的磋商恶果连续发表,果真遮掩了其时所有具备后劲的高性能打算场景。在实践中,斗鱼体育中国官网入口牛昕宇与陆永青给出了最求实的谜底:既然所在未明,便广撒网、逐场试真金不怕火。
站在2026年回望,谜底已了然于目,果真承载起磅礴算力需求的,恰是彼时方才萌芽的全新算法波澜:深度学习。然则在十五年前,探索者们只可靠一次次试错与返航,渐渐凑合出完整的期间邦畿。从实验室同期发表的恶果中不难窥见,其磋商要点渐渐拘谨:从各样通用应用,聚焦到卷积与矩阵运算,最终锚定深度学习加快。
在这条莫得前路可参照的历久概念创新说念路上,陆永青以600余篇高水平论文,构筑起可重构打算规模坚实的表面与期间根基,成为国际上少有的三院院士(IEEE Fellow、英国打算机学会会士与英国皇家工程院院士),在这一规模领有无可替代的学术地位,其磋商恶果深刻影响了赛说念内一系列要道所在的发展。
从陆永青奠基首创、燃烧可重构打算的学术火种,到蔡权雄、牛昕宇等东说念主戮力于传承、抓续添薪,三代东说念主卓著二十载深耕不辍,让可重构数据流架构与深度学习的交织之路,从迂缓理念走向清醒图景探索。

三、下一代算力平台之争:从群雄并起到三分寰宇(2017年于今)
2017年,AlphaGo的火热与谷歌TPU的出世,为可重构数据流架构的AI芯片产业化铺平了临了的说念路。帝国理工定制打算实验室中枢团队:实验室创始东说念主与两代实验室负责东说念主归国创立鲲云科技,妥贴启动了中国的产业化征程。
与此同期,大洋此岸的硅谷,一场相似聚焦可重构数据流期间的算力角逐同步启幕。SambaNova与Groq接踵训诫,成为搅拌民众AI芯片款式的腾达力量。
Groq由深度参与谷歌第一代TPU研发的Jonathan Ross携带中枢研发阵营创办。为打造数据流期间壁垒,2022年3月,Groq收购了定制打算实验室在鲲云之前的产业化企业Maxeler,将其中枢期间纳入麾下,在后续产物迭代中深度交融数据流有关期间,构建起本人的期间竞争力。

而与Groq并肩站上赛说念的SambaNova,由斯坦福大学两位素质Kunle Olukotun、Christopher Ré,以及甲骨文前高管Rodrigo Liang鸠集创立。
看成中枢期间灵魂东说念主物,Kunle Olukotun素质早年深耕多核CPU打算规模,后将磋商要点转向可重构打算,与帝国理工学院定制打算实验室建立协作。不错看到,在创立SambaNova前后,Olukotun素质于2018年出席了鲲云科技在深圳掌握的民众东说念主工智能应用创新峰会,同场的MIT的Arvind素质,曾从事早期动态数据流架构的磋商责任。这是一次期间产业化的早期碰撞。

Kunle Olukotun素质(左三),Arvind素质(左七)(图片来自相聚)
期间波澜下,民众算力赛说念期间演进渐渐走向深水区。彼时少有东说念主关注的可重构数据流期间疏通日深,而同期崛起的企业门路渐渐分野,最终在可重构数据流打算的邦畿上,镌刻出三大中枢期间所在:数据流架构、可重构架构,以及兼具二者上风、交融创新的可重构数据流架构,开启了三足鼎峙的期间博弈期间。

可重构数据流架构赛说念三条期间门路(智东西制表)
数据流门路以谷歌TPU及Groq为代表,从谷歌TPU的脉动阵列,到Groq LPU,遥远围绕深度学习构建极致硬件活水线,一皆向着物感性能的天花板突进。
2016年,谷歌发布第一代TPU,以片内固定打算阵列为骨架,凭借二维数据流实行模式,杀青详情味、高概述的强悍算力输出。时于当天,TPU的产业地位已如日中天:AI独角兽Anthropic高达210亿好意思元的大都订单、Meta数十亿好意思元的采购条约纷纷投向谷歌,苹果、SpaceX等科技巨头亦成为其潜在紧迫客户,数据流架构的策略价值尽显无遗。
Groq的出生,是谷歌第一代TPU中枢团队对“无辅导集”理念的极致贯彻。创始东说念主Jonathan Ross深谙脉动阵列之痛,为Groq LPU遴选了一条最激进的旅途:透澈毁灭冯·诺依曼架构的辅导调理,将硬件打磨为一条刚性的超等活水线。2024年2月,Groq凭借运行Llama 2 70B时十倍于同期GPU的生成速率与极低蔓延,一战成名,让寰宇看到了架构的性能传说和在大模子推理期间的总揽力。
可重构阵营,SambaNova凭借硬件动态重构才略,可在电路运行时纯真改动结构,通用性远超传统数据流架构。在其白皮书遐想中,打算单位互联领受可重构架构,中枢打算基于SIMD核,终究难以解脱辅导集不竭,无法波及无辅导集数据流活水线的极致性能。
鲲云科技则是可重构数据流阵营的代表企业,其架构本色集可重构与数据流上风:数据流以硬件活水线体式提供极限性能,可重构以动态可重构休养硬件电路提供通用性。鲲云科技发布的初代产物CAISA3.0(民众首款可重构数据流量产芯片),第三方测试数据清晰,相较于同期英伟达产物,CAISA3.0杀青了高达11.6倍的芯片应用率擢升与134.93倍的蔓延缩小,以量级上风展现了可重构数据流架构的后劲。第二代芯片CAISA430量产和进一步落地,其在深度学习和大模子推理等模子支抓上延续了同等的性能代际上风。

综上,一众前锋企业入局可重构数据流规模,开启产业化征程。点点星火就此汇注,东西方顶尖期间力量形成呼应,终成席卷下一代打算架构的燎原之势。
快乐飞艇pk10官网入口四、可重构数据流性能传说之后,限度化营业化解围
正如开篇所言,大路至简,一代算力平台的崛起,终究要追想产物层面的两大中枢拷问:其一,能否杀青性能与蔓延的十倍跃迁?其二,能否构筑可积聚、可演进的算力生态,撑抓限度化营业落地?
Groq、鲲云科技等公开的基准测试数据已足以考证可重构数据流架构对第一个中枢问题的回话:它如实带来了数目级的性能颠覆。
而跟着DeepSeek-V4妥贴发布,数据流架构的自然上风进一步得到阐述。这类架构的性能天花板,正好依托于更深、更复杂的打算活水线:活水线层级越长、数据链路依赖越繁复,数据流架构在辅导级并行调理、细粒度数据局部性挖掘、异步实行荫藏访存蔓延上的先天上风,就越能被阐发出来,性能增益也愈发显耀。
然则,性能的突破仅仅入场券,生态的壁垒才是护城河。在被收购前,Groq通过Groq Cloud提供Token作事,其架构的通用性与生态的可积聚性,外界难以侦察全貌。反不雅国内,鲲云科技CAISA系列芯片已遮掩2000余家生态客户,杀青行业随地吐花。国内企业用营业进展回话第二个中枢问题:可重构架构或可重构数据流架构,因为具备可重构才略,其算力平台具有积聚生态的才略。
另一面,则是科技巨头对异日邦畿的精确收编。巨头们垂青的不再是短期的产物迭代,而是那些在长达十几年的一身探索中千里淀下来的顶尖东说念主才与底层期间专利。其中最具代表性的是Groq和SambaNova。
旧年年底,英伟达掏出200亿好意思元天价,与Groq顽强非独家授权条约,收编所有这个词团队。Groq的期间已被整合进英伟达最新的Rubin平台,本年GTC大会上英伟达发布NVIDIA Groq 3 LPU,基于Groq 3的LPX机架瞻望将在本年下半年上市。

NVIDIA Groq 3 LPX机架系统(图源:英伟达官网)
同庚10月,英特尔被传以16亿好意思元(折合东说念主民币111亿元)收购SambaNova。本年2月尘埃落定,转向协作,整合英特尔至强处理器、GPU、相聚与存储以及SambaNova系统,见谅推理机遇。
英伟达与英特尔接踵向这两家新锐抛出橄榄枝,记号着行业双巨头在现存布局除外,再落一枚至关紧迫的鉴识化策略重子,直指抓续爆发式增长的AI推理商场中枢土产货。
而这,恰是可重构数据流架构真高洁展宏图的主场。
两类企业旅途互异,却在期间波澜下同归殊途:一方以限度化落地让期间红利普惠产业,一方以巨头生态交融让前沿创新深度扎根。二者相向而行,共同将可重构数据流打算架构推向全新的历史高度。
在这场云蒸霞蔚的期间变革中,陆永青院士创立的定制打算实验室从学术探索走向工程实践,再过程鲲云科技等企业推向产业限度化落地。这一皆演进,中国粹者和芯片企业走出了一条自主可控、民众引颈的鉴识化解围之路,为中国鄙人一代智能打算架构竞争中霸占了谨慎的策略先机。
结语:三十载潮涌,中国芯的异日
不同于“中国英伟达”式的追逐叙事,可重构数据流这类专注于底层创新的架构,在早期也曾验漫长的千里寂与不被领路。国内首批AI芯片企业果真同期而立,在英伟达笼罩行业的八年暗影里信守深耕,直至2025年前后才迎来成本化加快。一皆走来,它们遥远直面创新者的终极拷问:若是门路不足巨头,凭何争锋?若是门路足以颠覆款式,为何巨头未尝布局?
八年后,黄仁勋在GTC大会上亲身发布Groq 3 LPU,给出了谜底。
更具期间真谛的是,当民众产业界再行疑望可重构数据流架构时,中国团队已在这一规模深耕三十余年——从帝国理工的源流实验室到中国的产业化落地,期间创新的源流与产业化主阵脚,正在发生历史性的位移。

这一位移并非无意。追想中国芯片产业三十年,从”商场换期间”的合伙模式,到”追随式创新”的追逐叙事,底层架构的”从0到1″遥远是最难的命题。可重构数据流架构的解围旅途提供了另一种可能:当学术源流、工程考证、产业化形成完整链条,且中枢团队遥远主导期间演进时,中国初度在打算架构的”无东说念主区”领有了与硅谷同步创新、以致局部起先的才略。其所敷陈的也不再是“中国英伟达”或“中国Groq”故事,而是在民众范围内进行源流创新的“中国源流故事”。
八年前,当这一赛说念尚处蛮荒、巨头尚未入局时,深圳的产业生态为这场”源流创新”提供了要道泥土——完整的电子产业链缩小了流片门槛,丰富的应用场景加快了期间考证,而勇于在”无东说念主区”下注的成本与政策环境,则让长周期创新成为可能。
从”外洋期间输入”到”原土创新输出”,下一代打算架构的主阵脚滚动,本色上是一场对于”创腾达态”的历久概念到手。
接下来斗鱼体育中国官网入口,让咱们静瞻念其变。