Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

研究发现:下一个十五年,云与AI融合的未来

[复制链接]

14万

主题

0

回帖

44万

积分

超级版主

Rank: 8Rank: 8

积分
440308
发表于 2024-10-24 09:35:30 | 显示全部楼层 |阅读模式
图片来源:
从2022年阿里云写下飞天首行代码,迄今已过去十五年,经历了互联企业飞和传统企业深入数字化转型的两次云计算浪潮之后,眼下我们已经进入第次浪潮:云与AI融合的新阶段。如同潮涌,AI的出现并不是颠覆前两次的产业逻辑,而是前期在云上的技术积累会在AI基础设施阶段加速释放平台价值。
下一个十五年,不难预期:云将是AI的后盾与燃料库。
这一点在络的发展历程中也有迹可循。2000年前后,国内互联刚兴起不久,是由运营商提供络基础设施,人们的需求只是发发邮件、买买东西;当云计算与大数据到来,络进入SDN时代,支撑络游戏、直播、算法推荐的兴起;现在我们正经历AI智算时代,智能驾驶、LLM训练推理等,对络的要求与过去更是截然不同。
如何能够匹配AI时代下超大规模算力需求,让性能极点发挥阿里云已经有了答案。
为匹配AI时代的络要求,阿里云去年研发出大规模集群架构HPN70,支持万卡集群式计算。据今年云栖大会比较新公布,HPN70让模型端到端训练性能提升10%以上,目前它行前后端络分离技术,前端400G络带宽提供高速存储访问和节点通信;后端32TGPU互联络,可满足大规模AI计算需求。
际上,阿里云早在2022年就在研究首代万卡集群HPN60,当时主要满足自动驾驶客户对视觉模型训练的需求,彼时大模型还没有如此普及。此外,阿里云2022年10月在业内比较早提出MS模型即服务理念,并引领了理念潮流。这些均表明,阿里云在AI底层和中间层AI(简称“AII”)方面一直保持着前瞻性思考与布局。
在云与AI密不可分的时代,超前布局让阿里云速赢得了大量新的企业客户,像智能驾驶、具身智能机器人等与云厂商有共创能力的创新者。AII竞争也将掀起新一轮行业变革。
加法与减法的对碰智能的迁跃在新能源汽车上表现尤为明显,其对智能基础设施的需求也更强烈。
在9月19日杭州云栖大会上,驾驶号称“全球首款AI汽车”P7+参会的小鹏汽车董事长何小鹏预测,端到端大模型对自动驾驶领域的价值在于,未来可以让每一个人在每一个城市都像老司机那样开车。
小鹏汽车董事长何小鹏
在常规理念中,代码富集意味着功能强大,但通过端到端(E--E)的神经络代码建立了感知―决策―执行一体化,把这步骤集合在同一个大模型中去做,彻底改变了过去的串联式架构。际效果是:端到端“绕开”了地图数据,可根据摄像头、传感器时采集的图像数据,直接生成车辆的加速、转向、刹车信号,让汽车反应更顺滑。
在此背景下,代码将进一步缩减。以特斯拉FSD1251版本为例,原本30多万行的C++代码砍到只剩下3000行。但与此同时,马斯克从英伟达手里又团购了35万张显卡,以支持更的数据处理。算力做加法,这也是让前端能逐渐变得更加简洁的基础前提。
过去两年,小鹏汽车也一直在加码算力,其与阿里云共建的智算中心的算力储备扩张超4倍至251E,以前需要一周完成的自动驾驶大模型训练,如今通过智算中心可以缩短到用一小时完成。为加速端到端大模型、提升自动驾驶的上限,何小鹏表示将继续深化与阿里云的AI算力合作,预计每年投入35亿元用于研发,其中7亿元划拨给算力训练,并加速端到端大模型的落地。
小鹏汽车从2022年在阿里云开户,2022年车联研发上云,到2022年与阿里云在乌兰察布建成自动驾驶智算中心,再到自主研发的“全域大语言模型”X-GPT与阿里云通义千问的融合,全面智能化升级车载助理;此外,小鹏汽车还积极拥抱阿里云通义万相,并在研发领域引入通义灵码,现代码评审效率的大幅提升……这家车企现已AAI,在制造、车联、自动驾驶、智能座舱、数字营销多个领域与阿里云资源深度绑定。
另一家车企吉利也在智驾的路上飞奔,其与阿里云已合作9年之久,通过采用混合云架构,线下专有云部署1000台服务器+20P存储、线上7万核公共云ECS+28P存储。在智能驾驶场景,吉利使用了飞天专有云、标杆算力平台PAI灵骏+OSS+大数据+数据库;智能座舱则通过阿里云的EGS+DGPU加速引擎,将吉利自研大模型推理上云,加速效果提升40%,并调用通义大模型API接口。同时它借助通义万相VL功能,支持智能座舱舱外识物,利用通义千问P,支持客户情感闲聊。
图片来源:
据行业内测算,传统燃油车有大约3万个零部件、整车芯片大约有500颗;而新能源AI汽车的零件只有不到2万个,芯片量却达5500颗左右。一加一减之间,汽车的交互方式与生产逻辑已被改变,对专有芯片、大规模算力集群和云原生数据库的依赖进一步增强。
据比较新消息,英伟达广泛覆盖汽车领域的NDRIVEO系统级芯片,已现与阿里云通义千问多模态大模型Q2-VL的深度适配,并应用于斑马智行的智能座舱场景中。大模型接入汽车座舱,拓展人机交互边界,已成趋势。
“万卡时代”的全栈创新大模型虽火,但并不算成熟。市面上的大模型几乎每天都会因各种错误造成训练中断,而训练时效对业务创新具有决定性意义,训练太慢、总是中断,创新效率就难以提升。人们往往添加更多的GPU来增强训练时效。像M训练L模型时用的是16万卡算力集群,大概每隔两个小时整个训练任务就要重新开始,回到上一个C。
从128张卡到1024张卡,从千卡到万卡,再到十万卡,“万卡堆叠”在理论上看似简单,单个GPU算力乘以GPU规模即构成整体算力。然而在际运行中,当卡的规模急剧扩大时,很难再保证这种理论上的线性比,会产生算力“衰减”,这些都是运营难点。
这时候,络在这个集群中发挥着重要的作用,因为络在“梯度同步”过程中需要时间,且需大量数据交换,这个时间长短直接决定了GPU在计算过程中的等待时间,导致传统络集群不再适用于AI计算。
对此,上面提到的阿里云HPN70高性能络架构提出了一个创新性,它采用单层千卡、两层万卡、存算分离的架构,专门为AI计算所,支持十万卡集群。两层络不仅减少了时延,还简化了络连接的数量和拓扑,从而找到了比较解。
阿里云过往长期积累的规模势也正支撑着新一轮技术势――此次云栖大会上比较新发布的Q25C72B性能超越L31405B,同时模型算力成本再次下降,通义千问款主力模型比较高降幅85%。AI基础设施必然会更强大,不仅要走得好,也要走得起,由此才能推动更多创新,在这一方向上阿里云也在加速。
在阿里云CTO周靖人看来,AI技术变革触达了计算机体系的方方面面,需要对全栈进行全方位的创新。不仅是络,还包括服务器、存储、数据处理、模型训练和推理平台的技术架构体系,都需要围绕AI做全面升级,“阿里云正在围绕AI时代,树立一个AI基础设施的新标准。”
阿里云CTO周靖人
阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在云栖大会享,过去一年阿里云投资新建了大量的AI算力,但还是远远不能满足客户的旺盛需求。这更坚定了阿里云未来的投资力度。
具体看,在服务器端,阿里云比较新上线的磐久AI服务器支持单机16卡GPU、共享显存15TB,并提供基于AI算法的GPU故障预测,准确率达92%。AI时代将从CPU核心过渡到以GPU为主的计算例,需要支持全球各地的异构芯片,面对比CPU时代更多的架构创新,磐久服务器就是专为AI深度化,在芯片的速适配、散热上做了化处理。
在存储上,阿里云CPFS文件存储在经历过去一年发展已变成一项全托管服务,免去客户运维工作。它目前扩容到了每秒高达20TB的带宽,在上采用了存储的梯度架构,可把热度比较高的数据放在延迟比较低的存储上。其中CPFS与统一存储数据湖OSS之间的数据传输速度达到每秒100GB。这些都是为AI智算。
以上包括磐久AI服务器、HPN络、CPFS存储,再加上容器服务ACS,一起构成了阿里云AI算力平台灵骏,在AII层面打造出一个更适合GPU计算和AI模型训练的基础设施。阿里云与复旦大学共建的云上智算平台CFFF、与小鹏汽车在乌兰察布共建的自动驾驶智算中心,都属于灵骏的产业端应用。
目前,以AI开发和应用落地的全栈能力可以通过PAI和阿里云百炼这两个平台对外落地。在云栖大会上,两者均有新的服务升级发布:PAI模型训练全面提升了稳定性,千卡规模集群故障分钟级自动发现,覆盖故障达986%;百炼20专属版本在云栖大会上发布,专门针对政企客户做了使用化。
正是由于以上种种创新使得通用大模型及基础算力迎来多轮降价,降低了企业AI开发成本,对于各行业AI渗透率的提升至关重要。
回顾早期云计算,因托管层级的不同被分为IS、PS、SS层。现在这个架构因AI向上延伸至MS开源,向下延伸到芯片层、异构算力。AI不仅拓展了云的边界,也激励云再做一次物理级别的全栈升级变革。如今,真正到了检验云厂商创新能力的时候。
下一个十五年,“AI+云”的基础设施之上,新的浪潮奔涌而来。

众所周知,ai agent是什么的出现值得很多人的关注,激起了整个市场的波澜。立即探索AI Agent应用案例,推动企业流程自动化与智能化转型。https://www.betteryeah.com/agentstore

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|企业-展美呗贤果有限公司

GMT+8, 2024-11-7 03:37 , Processed in 0.051457 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表