WWDC 2026 虽然已在 6 月 13 日落幕,但其带来的技术冲击仍在发酵。 Apple官方于「Apple智能与 Xcode 揭秘:特别讲座」中的压轴demo,LM Studio与Apple合作,在4台Mac Studio上成功本地运行1兆(1 Trillion)完整参数的Kimi K2.6模型,并通过LM Link实现MacBook Neo与iPhone的安全远程存取。
4 台顶规 Mac Studio 组成的 AI 丛集
这场长达 90 分钟的特别讲座于 WWDC 期间在乔布斯剧院(Steve Jobs Theater)现场录制,内容涵盖 Xcode 27 的 AI 辅助开发、Apple Foundation Models 框架、Core AI 框架以及升级后的 MLX 框架。 其中最引人注意的是使用四台 512GB RAM 的 Mac Studio(M3 Ultra)串成丛集运行原始规模无量化的超大模型,这在以往是必须花费数百万以上才能办到的,我们节录该段内容翻译为中文提供给大家参考。
视频末尾的压轴环节,Apple工程师实际演示在4台512GB RAM的Mac Studio(M3 Ultra)组成的丛集上,通过LM Studio本地运行1万亿参数的Kimi K2.6模型。
RDMA-over-Thunderbolt:丛集运算的关键技术
能将 4 台 Mac Studio 串联为 AI 运算丛集的关键,是 Apple 在 macOS Tahoe 26.2 中导入的 RDMA-over-Thunderbolt(远程直接内存访问通过 Thunderbolt 接口)技术。 这项技术允许多台Mac之间以微秒级延迟直接读写记忆体,大幅降低跨节点通讯的开销,使分布式推理成为可能。
这意味着开发者不再需要昂贵的数据中心级GPU服务器,只需串联数台Mac Studio,就能在本地部署以往只能通过云端API存取的超大规模模型。 对比 NVIDIA H200 或 AMD MI350 等企业级 GPU 丛集动辄数百万台币的建置成本,以 Mac Studio 为节点的丛集方案提供了更灵活的入门选择,虽然单节点绝对算力不及专用 GPU 服务器,但统一内存架构消除了传统 GPU 的 VRAM 瓶颈,让超大模型的加载与推理成为可能。
Kimi K2.6:1万亿参数的开源混合推理模型
这次 demo 所用的 Kimi K2.6,是由 AI 团队月之暗面(Moonshot AI)于 2026 年 4 月 20 日发布的开源模型。 作为 Kimi K2 系列的升级版本,K2.6 采用混合专家(MoE)架构与混合推理(Hybrid Thinking)设计,在代码生成、长程任务执行以及 Agent 协作方面均显著提升
Kimi K2.6 支持最高 256K token 的上下文长度,在完整精度下约需 610GB 储存空间,即使经过 2-bit 量化动态压缩也仍需 350GB 以上。 这也是为何需要 4 台高端Mac Studio 才能顺利运行的原因:每台 Mac Studio M3 Ultra 最高搭载 512GB 统一内存,4 台合计可达 2TB 以上,正好满足这类超大模型的部署需求。
LM Link:让你的模型随身带着走
除了本地丛集运算,LM Studio还同步展示了 LM Link 功能,通过端到端加密连线,用户可以从 MacBook Neo 甚至 iPhone 安全地远程访问 Mac Studio 上的大型模型。 这项功能已随 LM Studio 的 iPhone App 上线,让开发者在移动中也能使用个人模型,无需将敏感数据上传到云端。 这也是 LM Studio 今年稍早收购 Locally App 后,将其技术整合为 LM Link 的成果。
产业观察:本地 AI 的「私有前沿级运算」时代
LM Studio 官方在贴文中将这次展示定位为「你的私有前沿级 AI 的雏形」(A glimpse of your own private, frontier-scale AI)。 这句话点出了 AI 产业正在经历的重大转折:一直以来,前沿级模型(Frontier Model)的运算能力被锁在云端数据中心,用户必须将数据传送到外部服务器才能获得最佳结果。
Apple选择与 LM Studio 这样专注本地推理的第三方工具合作,而非仅仅展示自家模型,传达了明确的战略信号:Apple 认为 AI 的未来不只有云端 API,也包括强大的本地计算基础设施。 结合 WWDC 26 推出的 Apple Foundation Models 框架与 Core AI 框架,开发者将能更灵活地在本地与云端之间选择运算路径。
对于金融、医疗、法律等高度监管行业的企业用户而言,能够在本地部署1万亿参数级模型、同时通过加密连线从手机远程存取,意味着可以在完全不将数据离开自有设备的情况下享受前沿AI能力。 无需将敏感客户资料或商业机密上传到第三方云端 API,即可让团队全员使用顶尖 AI 助手。 这正是 LM Studio 与苹果 联手展示的核心价值,也是苹果一直以来强调的「隐私即权利」理念在 AI 时代的自然延伸。
总结
WWDC 26 的这场 4 台 Mac Studio 丛集运行 1 万亿参数模型展示,再到 LM Link 的移动端远程访问,串联起了一条完整的本地 AI 生态链。 这是苹果对开发者展示技术实力,也是在为一个「无需云端也能跑前沿模型」的未来铺路。
随着 RDMA-over-Thunderbolt 技术成熟、Mac Studio 统一内存持续扩增,我们或许很快就会看到更多开发者与企业选择以「串联 Mac」取代「租用 GPU 云端」,真正实现私有、安全、高效的前沿 AI 部署。 LM Studio 与 Apple 在 WWDC 26 的这次合作,或许正是这个趋势的起点,一个由开发者桌面上的 Mac 所驱动的 AI 运算新时代。

