面壁智能李大海:高效大模型路径探索
科技创新浪潮奔涌,产业变革方兴未艾。眼下技术迭代持续加速、产业边界深度重构,高成长企业正以澎湃动能重塑全球产业格局。由清科创业、投资界、四川三江招商集团共同主办的“2025高成长企业CEO大会”于6月18-20日举办?。
本届大会特别走进中国科技城——绵阳,依托绵阳作为国家战略科技力量重要承载地的独特优势,以“智汇科技城·创变新未来”为主题,旨在汇聚前沿科技项目,构建资本+产业落地的创新生态闭环。
会上,面壁智能联合创始人amp;CEO李大海发表题为《高效大模型路径探索》的主旨发言。

以下为演讲实录,
经投资界编辑:
非常高兴能够来到绵阳参加今天的活动,绵阳拥有非常深厚的科技底蕴,此行也学到很多东西。
借鉴芯片行业的“计算密度”概念,我们提出了大模型领域“能力密度”的新指标,用以衡量单位参数下模型所具备的知识和能力。分析发现,大模型的知识密度是每100天再提升一倍。相对于摩尔定律的18个月提升一倍,大模型100天迭代速度快了5倍。由此发现大模型的知识密度提升的速度是芯片计算密度的提升速度的5倍,这是一个非常快的变化速度。
面壁智能为何能做出更高效的大模型?这源自我们的核心壁垒,就是在端侧。现在大模型其实主要就是分云侧跟端侧,在云侧,当我们的模型的知识密度更高的时候,我们能够取得更低的成本优势,但是在当前成本优势在云侧并不是一个最重要的因素,因为现在大家更多的是看各种测试榜单,你是不是能够做出一个更聪明、效果更好的大模型,这是大家最关注的问题。很多大厂在竞争的时候,他有非常充分的预算。它可以通过补贴的方式去把成本的劣势给它填补掉,这样竞争的优势就是不明显的。
但是在终端是不一样的,我们在终端上其实面临非常多的限制,比如算力、功耗散热、以及内存的带宽等,在这些限制下,大家是在同一个起跑线上,我的知识密度越高,我就能够在同样的设备上做出更聪明的模型,所以知识密度在端侧有非常大的价值。
面壁智能自2023年底起开始聚焦端侧大模型,主要分成基座大模型,多模态大模型和全模态大模型。今年1月,正式发布全球首个具备实时“看、听、说”能力的端侧全模态模型。
今年 6 月,在北京智源大会上,我们发布了面壁小钢炮4.0的模型MiniCPM 4.0,代号“前进4”。这是我们公司的企业文化,特别喜欢去使用《三体》里面的各种各样的元素去对产品和各种活动进行命名。上个月阿里千问发了千问3的一系列模型,我们通过长上下文稀疏创新技术,做到了长文本推理速度要比他们快非常多,能够最快实现200倍的速度提升。
其实在2023、2024年,云侧大模型在月之暗面的带领下已经卷了一波长上下文。今天我们在端侧也要开始对长上下文进行一个建设,因为端侧基座模型有了好的长文本能力,才能够有更多的空间和能力去让大家去构建更加智能、个性化的上层应用。我们不仅速度快,效果也是非常好的,我们有个0.5B模型是同一尺寸下效果最好的模型,远好于像谷歌 Gemma 3 1B 模型。背后涉及的技术在这里不展开,重点给大家讲讲我们持续发端侧基座模型背后的原因。
现在大家都关注Agent,好的Agent 要有好的模型支撑,才能实现更好的能力。MiniCPM 4.0能够比较流畅使用15种主流应用,将这些应用跟我们端侧能力结合在一起,能有非常好的体验。另外我们也做了一个类似Deep Research的产品——SurveyGo,把8B的模型放到PC上,能够很好通过网上收到的资源去深入的分析,同时跟用户本地的电脑上的私有文档进行结合分析,从而得到一个真正符合用户个性化、可信、全面的Deep Research级别的报告。
端侧模型拥有很高产业价值和广阔应用空间。端侧模型与各类终端的结合不仅可以确保信息安全,保护用户隐私,还可以提高服务可靠性,即使断网也能保证服务运行,并且在未来高需求趋势下,能以很低的成本提供智能服务。未来,面壁智能将持续打造同等参数下性能更高、成本更低的高效大模型,推动「端侧大脑」在千行百业规模化应用。
在智能汽车领域,面壁智能将端侧模型部署于智能座舱,使其成为汽车的大脑协同,实现与环境协同,为驾驶者带来更智能、更人性化的出行体验。例如,通过舱外摄像头识别施工路段后,系统可主动提示关闭车窗、启用内循环,降低扬尘影响。这类应用场景充分体现了端侧模型在提升车辆交互与陪伴能力方面的独特价值。
未来,面壁智能将继续推动面壁小钢炮系列模型的能力演进,联合合作伙伴共同推动产业落地,为各类智能设备注入智能基因,让技术更好服务于用户生活。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。