当前位置:云商网 > > 资讯 > >

万亿参数KimiK2开源,月之暗面研发工程师知乎亲述幕后故事

月之暗面发布万亿参数开源模型 Kimi K2,多位研发工程师在知乎“亲自答”

“参与过Kimi K2的接生,自己的孩子怎么看都顺眼”。7月11日晚,国内大模型独角兽月之暗面正式发布并开源了其最新一代MoE架构基础模型Kimi K2,总参数量达到1万亿,这一消息迅速引发了AI领域的广泛关注,Kimi内部则将K2研发群戏称为“接生群”。多位参与“接生”的Kimi研发人员随后在知乎展开“亲自答”,从多个角度深入讲述了其背后研发历程。

作为月之暗面 Infra侧推理方面研发人员,知乎答主刘少伟谈及了K2模型结构的设计宗旨。他称K2模型是在DeepSeek V3结构的框架之下,如何选择合适的参数,使得模型在训练、推理成本与v3相当的前提下,获得明显更低的loss。“综合以上四个相比v3的改动,我们能够得到一个在相同EP数量下,虽然总参数增大到1.5倍,但除去通信部分,理论的prefill和decode耗时都更小的推理方案”。

月之暗面研究员、知乎答主Flood Sung则表示,Kimi K2最值得关注的信息,除了MuonClip带来的漂亮得起飞的loss曲线,还有就是Agent能力。他透露,为了实现更好的通用Agent能力,构建了一个大规模的agent合成数据pipeline:简单的说是一个完全自动化的agent数据生产工厂,通过全流程的模拟来过滤出好的Agent轨迹数据。Flood Sung称,“这个生产线非常符合老子的思想:‘一生二,二生三,三生万物’。”

另一位月之暗面研发人员、知乎答主Justin Wong谈到Kimi K2为何会选择开源时称,开源意味着能够借助社区力量完善技术生态,“在我们开源不到24小时就看到有社区做出K2的MLX实现、4bit量化等等,这些凭我们这点人力真的做不出来”。月之暗面研究员、知乎答主Dylan则表示,K2实际上就是一个刚出生的baby,虽然略显“灵性”,但和很多已久的frontier model相比,还是有很多、很明显的缺点,“作为post-train(后训练)相关的同学,还是略感惭愧,希望后面的版本迭代里面能够持续释放K2 base model的潜力”。

开发者在AI成果发布的同时,越来越多选择来知乎发布背后的详尽思考。6月,月之暗面也曾发布一款Agent产品,Kimi-researcher两位主要研发人员也在知乎亲自答,解读产品背后的技术思考和亮点。更早之前,月之暗面开源MoBA框架研发人员鹿恩哲、苏剑林分别在知乎上讲述了研发思路,引发了业界对“稀疏注意力”框架的讨论。

2025年以来,伴随AI技术新浪潮的蔓延,知乎引领了一系列全网重要的AI趋势发布。3月,DeepSeek在知乎开设官方账号,并独 家发布《DeepSeek-V3/R1 推理系统概览》技术文章;智元机器人联合创始人彭志辉在知乎以视频形式发布了人形机器人灵犀X2;10年“老答主”王兴兴在知乎与网友大量互动,分享宇树机器人最新研发动态……

在顶流创业者们的一次次分享中,知乎见证了中国创新科技势力的一次次突破,也凸显了知乎作为AI领域核心交流阵地的独特价值——以其浓厚的技术讨论氛围,搭建起开发者与行业、创新成果与大众认知之间的桥梁,让前沿技术不再是晦涩难懂的孤岛,持续推动着AI行业在“思维链开源”交流下向前发展跃迁。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。