原文中文,约1100字,阅读约需3分钟。发表于:2024-11-28t07:51:29z。 2024年6月,kimi与清华大学联合发布了以kvcache为核心的大模型推理架构mooncake,旨在提升推理性能、降低成本并促进高性能推理框架的生态建设。该项目已开源,阿里云参与了关键组件的开发,未来将与更多机构合作推动模型推理系统的创新。