手机浏览器扫描二维码访问
最近商汤大装置和记忆张量联手搞出了个大动静——落地了业界首个国产GPGPU PD分离商用推理集群,最亮眼的成绩是:在大模型推理这个关键赛道上,综合推理性价比直接干到了同代NVIDIA A100的150%。
这话乍一听有点抽象,说白了就是:用国产的芯片和软件,跑大模型推理业务,花同样的钱能跑出1.5倍的效果,或者说跑出同样的效果,只需要花三分之二的钱。更关键的是,这不是靠堆硬件、拼参数的“笨办法”,而是靠体系级的软硬件协同创新,给国产算力闯出了一条“弯道超车”的路子,不是跟在别人屁股后面模仿。
下面咱们用大白话把这件事的来龙去脉、核心门道和行业意义掰扯清楚,让大家明白这波操作到底牛在哪。
一、先搞懂:大模型推理为啥这么难?PD分离又是啥?
要理解这个合作的价值,得先明白大模型推理的核心痛点。咱们平时用ChatGPT、文心一言这类大模型,看似只是发个指令等回复,背后的计算过程其实分两大步,这两步的需求天差地别,也是卡住很多算力的“瓶颈”。
第一步叫Prefill(预处理)。当你输入一个问题,比如“帮我写一篇关于古蜀文明的短文”,大模型要先把这段文字转换成机器能看懂的向量,然后一次性计算出大量的中间结果,也就是KV缓存。这个过程的特点是计算量大、可以批量处理,就像工厂里的流水线批量生产零件,需要算力集中发力,但对延迟要求不高——稍微等个几十毫秒,用户根本感觉不到。
第二步叫Decode(解码)。大模型拿到KV缓存后,要逐字逐句生成回复,也就是“逐token生成”。比如先出“古蜀文明”,再出“是中国西南地区一支极具特色的古代文明”,每生成一个词,都要用到前面的KV缓存。这个过程的特点是计算量小,但对延迟要求极高——要是生成一句话卡个一两秒,用户体验直接拉胯,而且这个过程没法批量,只能“串行干活”。
这两步本来是在同一批硬件上完成的,问题就出在这:Prefill阶段需要“暴力计算”,会占满硬件的算力和显存;等轮到Decode阶段,硬件又闲着大半,算力利用率直接暴跌。尤其是国产GPGPU,本身在显存容量、生态适配方面和国际顶尖产品有差距,这么一折腾,劣势更明显——跑同样的任务,成本高、速度慢,根本没法商业化。
那PD分离是啥?说白了就是“分工合作”——把Prefill和Decode这两个阶段,拆到不同的硬件集群上分别处理。负责Prefill的集群专门干“批量重活”,把KV缓存算好;负责Decode的集群专门干“精细快活”,用现成的KV缓存快速生成回复。这样一来,硬件不用在两种模式间来回切换,利用率能提一大截。
但这里要划重点:单纯的硬件PD分离,解决不了根本问题。很多厂商之前也试过,结果发现只是把“一个瓶颈”变成了“两个瓶颈”——Prefill集群算完的KV缓存,要传到Decode集群,传输过程会产生延迟;而且KV缓存本身占显存,就算分开处理,显存不够用的问题还是没解决,性价比提升非常有限。
二、核心突破:不是改硬件,是重构整个推理范式
商汤和记忆张量的聪明之处在于,他们没有局限在“硬件层面拆分工序”,而是把PD分离技术,和记忆张量的核心产品MemOS的激活记忆体系深度绑在了一起,相当于从“流水线分工”升级到了“全产业链协同”,直接重构了大模型推理的底层逻辑。
咱们来拆解这个“协同创新”的关键操作,其实就两件核心事,件件都戳中痛点:
1. MemOS的激活记忆体系:让KV缓存“活起来”,省下大量显存
前面说过,KV缓存是大模型推理的“刚需”,但它特别占显存——一个千亿参数的大模型,一次推理产生的KV缓存,就能吃掉好几GB的显存。传统模式下,这些缓存用过一次就扔,下次再推理,又要重新计算,既费算力又费显存。
而MemOS的激活记忆体系,说白了就是给KV缓存搞了个“智能管理系统”。它能做到两件事:
- 缓存复用:把高频出现的KV缓存(比如用户经常问的“大模型是什么”这类通用问题的缓存)存起来,下次再有用户问类似问题,直接调用现成的缓存,不用重新计算。这就像餐厅里的预制菜,不用每次都从零开始炒菜,节省大量时间和燃气。
- 动态压缩:对不常用的KV缓存,进行无损压缩,把显存占用率降下来。比如原本占10GB的缓存,压缩后只占5GB,省下的显存就能用来跑更多的推理任务,相当于一台机器当成两台用。
绝世太极情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,绝世太极-流星雨星光-小说旗免费提供绝世太极最新清爽干净的文字章节在线阅读和TXT下载。...
当伍文定被几百年前的高僧灌顶了以后,他应该做什么呢? 他可以叱咤球坛,篮球足球样样行;可是他只是去场上遛了个圈。 他可以笑傲商海,财源滚滚而来;可是他宁愿把钱都送人。 他可以拳打天下,无人能敌;可是他从不动手伤人,累趴下最好…… 他觉得做再多事情,也不过是回归到生活中来,所以还是过好自己最简单的生活…… 陶雅玲觉得自己老公毕业就得乖乖娶自己所以不着急; 孙琴觉得看上的学长和自己是天造地设所以也不着急; 米玛觉得神通大和尚摆明了是自己一生的伴侣所以更不着急; 于是就被有心人钻了空子…… PS本书不装13,不风云突变,不沙发过短,不王八之气,喜欢清汤小面的来看看...
俞舟说感觉自己像是一直在海上漂泊,正如自己的名字,俞舟俞舟,宛如一叶孤舟,没有目的地,只有永远地往前。谭怡璇纠正她,不是一叶孤舟,是怡叶孤舟。如果你愿意的话,可以把我的名字作为最终停靠的彼岸。...
比较欢乐正剧武侠,和刺杀对象的走狗谈校园恋爱 十项全能五讲四美攻x舍身念书的文盲大侠受 通报批评 本校乡试班学生祁听鸿同学在校 期间打架斗殴、私自翻墙外出、取外卖、 考试作弊、学习态度散漫、谈恋爱。 本校乡试班学生句羊同学在校期间 谈恋爱。 以上两名同学的行为已经违反了学校 管理制度,造成恶劣影响。现经研究决定,予以通报批评处分,以观后效。 顺天府怀柔县县学 永乐十八(庚子)年九月 同系列武侠正剧《氐州第一》,吐蕃来的桀骜不驯坏狗狗攻x陷入人生低谷的大美人受 古耽无限流《莲蓬》,五陵纨绔子弟攻x去考武举的体育生受 同系列武侠《天下梅花》,师徒年上,一肚子坏水和黄色废料攻x被逗来逗去但是死心塌地的忠犬小狗受...
重要的信息放前面。 1,网页版文案特别棒,看完了记得给我鼓掌。 2,傻白甜,强攻弱受,冰山攻X迟钝受 3,身体和精神都是1V1,男配有99个,全是战斗力低穿地心的炮灰。 4,这其实是一篇披着反玛丽苏外衣的玛丽苏文…… 性格耿直的主角,是一家女性文学网站的编辑。 由于耿直,他得罪过很多想要签约的玛丽苏小说作者。 ——“对不起,您的文笔浮夸稚嫩,尚未达到签约标准。”——“对不起,您的作品情节缺乏逻辑,尚未达到签约标准。” 被拒绝的玛丽苏小说作者们的怨念集中起来,将主角带到了玛丽苏小说的世界。 这并不是最惨的,最惨的是,这些作者们夸张到可怕的描写,居然被小说世界忠实地还原了…… 主角每天早晨要以百米冲刺的速度夺命狂奔,在面积高达十万平方米的巨大别墅中寻找厕所。 主角不敢流泪,甚至不敢用力打哈欠,因为书中设定他的眼泪都是钻石,一不小心哭出来眼睛会瞎。 主角开心时头顶飘落蔷薇花,不开心时头顶飘落樱花,主角毅然把自己剃秃了,但是设定霸道,十秒钟后头发又自己长出来 主角老爸每次给主角的公交卡充值都是一千万起,主角说爸爸不然你给我买辆法拉利,爸爸慈祥地拒绝了因为作者不是这么写的。 最惨的是主角从小和世界第一大的财团老大的儿子订婚,那个智障是十八国混血,比主角大一岁,声称自己一个月大时就疯狂地爱上了当时还是个受精卵的主角,主角每次看见他都想把他屎打出来,但还要硬着头皮配合剧情含情脉脉地瘫软在他怀里……...
(无接盘!无接盘!那些刚刚看个开头就说接盘的,恳请往后再看看呢!)好消息是穿越成了自己刚刚完美通关的游戏里面的角色,坏消息是居然穿成了路人甲!布莱克·珀西瓦尔,作为一个不起眼的男爵家的长子。同时也是一个不起眼的小混混,一直走在作死的道路上。先是被男主搞得家族没落,最后直接甚至被女反派亲手给送进来焚化炉。布莱克看着被......