独家对话腾讯混元刘煜宏：做大模型可以有「深圳速度」，但不能跳步|沙滩足球百科

转载：https://news.zol.com.cn/881/8815617.html

2024-07-03 18:19:02·[??中关村在线原创??]·作者：科技快讯

「越有决心情绪越稳，已悄然接入腾讯 700 个产品」。

作者 | 张鹏

整理 | 今夜科技谈

加速，狂奔，硝烟四起，是过去一年大模型创业浪潮展现出的一番景象。有资源、有能力的腾讯，却显得「过于冷静」了。

2024 年 5 月 30 日，腾讯推出基于混元大模型的 App——元宝，它的产品设计很简洁，打开的第一屏，是一个搜索框，核心是先瞄准生产力场景，重塑信息的组织、交付。

这样的产品理念从何而来？一个做底层技术出身的团队，做大模型是首先是为了改造内部业务的工作流和产品。所以对于做什么，不做什么，腾讯混元大模型团队有清晰的认知。生产率工具容错率低，更考验技术能力，进一步迭代模型能力。

对外鲜有高调发声，「水下」内部却将大模型摆在战略位置。推出元宝 App 之前，腾讯混元大模型作为技术底座的角色，已经支持了腾讯内部接近 700 个「客户」，并沉淀出一套平台工具和合作模式。这让腾讯对后来将模型算法、数据、工程能力等技术能力「外化」有了信心，一切也顺其自然。

腾讯元宝发布之后，腾讯混元大模型负责人刘煜宏收到一些反馈，让他感到惊喜，「一些好的公众号内容已经被『遗忘』，但元宝挖掘出来，重新做了信息组织」。「没有上帝视角」，用户需求越滚越大是产品最好的验证。

「一年后国内的模型能力将拉齐」的预判在今天被验证，再次证明了图快走捷径做大模型没有意义。对于 OpenAI 的示范效应，刘煜宏说，即便后来者看到一条确定性高的路径，也得走一遍。试过，才能跑得越来越快，缩短每一次追赶的时间。被问到之后的计划，刘煜宏说，多模态甚至全模态的理解和生成都是「必答题」，当下也会让模型在「多一些思考」、增强推理能力上下功夫。

大模型注定是一场长跑，「AGI 目前更像信仰」，但将腾讯混元大模型能力在内部 700 个业务上用得好，是刘煜宏认为对于 AGI 的务实追求。有远见但务实，也是混元团队在大模型上的世界观对齐。

在近两个小时的直播里，关于腾讯的大模型思考，混元的做与不做，元宝将与腾讯生态如何产生联动等话题，刘煜宏为我们做了坦诚的梳理和解答。

以下是这次直播对话的实录，经极客公园整理后发布：

01做大模型可以有「深圳速度」，但不能跳步

张鹏：去年 9 月腾讯混元大模型正式对外亮相，前段时间也发布了元宝这样一个比较AI?Native 的产品。但外界总体感觉，腾讯比较沉稳，没有疯狂抢先手、也没有一下放出很多产品，情绪一直比较稳定？

沉稳的背后，腾讯在大模型上是怎样的策略？

刘煜宏：其实是「外松内紧」。外界看到不着急，感知混元推出来比较晚，但坦白来讲，这是一个非常卷的赛道，我们内部的节奏是非常紧张的。

腾讯从战略上一直将大模型和生成式人工智能，视为百年不遇的、类似工业革命一样的机遇。

对外产品上，去年 9 月推出了「腾讯混元助手」小程序，今年 5 月 30 日推出了元宝 App，（也推出智能体开发平台——元器），但这些背后的底层能力其实我们做了很久，像广告大模型在 21 年就开始做了。元宝 App 发布一个月不到的时间里，更新了五六版，每一个小的迭代都解决了一部分问题。

去年我们没怎么对外发布产品，其实是内部率先用起来（大模型），比如腾讯会议、文档，微信读书的 AI 助手，包括它们在内很多内部产品已经在用了，除了 API 的方式接入，还有一些业务会做精调。到目前为止，腾讯内部有接近 700 个业务接入混元，基本上腾讯所有的业务都用。

腾讯内部近 700 个业务接入混元大模型｜图片来源：腾讯

张鹏：OpenAI一声炮响让大家看到这个新的趋势，去年腾讯内部对于大模型是如何判定的？当时做决策的真实情况是什么样的？

刘煜宏：GPT-3.5 出来前后开始做混元这个项目。一些底层相关技术做得更早，刚才提到广告大模型在 21 年就开始做了，搜索相关的「推广搜」场景也做了很久，运行大模型的底座从一几年开始就在建设。

对外的产品节奏看起来体感很慢，因为一开始便深知这是一个长期的项目。原来还说百年一遇，现在发现是几百年一遇的项目。不是短期一窝蜂就能搞定，像做原子弹，只有一步一步积累，把底子打牢。

举个例子，做底层涉及到网络问题，没有网络、算力，怎么训练？钱能跟上吗？预算怎么投怎么收？等等，都得考虑。我们比较清醒，对底层困难预估得足。

一年半前我们判断，一年后国内的几家大厂在大模型能力都差不多。目前也认证了这个预判。我们虽然压力大但有比较多的试验机会。

张鹏：在大模型上，业界大家都比较着急，也有创业者认为这个时候快速跟上是第一目标，甚至可以基于开源模型做 post-train，因为开源模型「看」过的那些数据，没必要重新再「看」一遍。

刘煜宏：我们从来没想过这条路，一开始就决定冷启动，从 0 到 1 完全自研，是一条非常艰难的路。

腾讯做产品有个原则，得自己验证一遍，连颜色、像素、排布的选择都是试验出来的，页面设计成瀑布流留存率就有多高？对男性用户如何？等等这些都是 ABtest 出来的。

OpenAI 过去几年走过的路，模型从 1.0 版本到 4.0 版本他是怎么走的？就算过程中你按他披露出来的一些技术路线走，该做的实验一定不能少。比如也有很多超参数、数据配比要调，甚至中英文数据比例怎样才是效果最好都要做大量实验，花了很多时间在这里。

张鹏：打个比方说，下决心要给新时代生个孩子，不是说赶紧抱一个过来，是要生一个亲生的感觉。

刘煜宏：对，我们从一开始就坚定了全自研路线，追求自研、可控度、安全。从 0 到 1 自主探索，包括训练、推理的框架平台，模型预训练、精调、强化、怎么对齐，数据，投入了大量资源。

坦白来讲，大家都在看OpenAI的路线，但不是你按 GPT-4.0 的套路走，就能行得通。

张鹏：要从 0 到 1 走一遍、但要更快速地走一遍，而不是找个捷径只为了追上某个点。那么设定的这个起点是哪？

刘煜宏：如果说大模型，可能从 Transformer 甚至更早。

我们会设定一些目标，比如一开始对标 GPT-3.5，预计什么节点能达到 3.5 的什么水平，什么时候能在工程上追上。坦诚讲，目前很多能力提升还真的是靠数据和工程。

目标是有的，但不能跳步。不能看到 GPT-4o 出来了，发现多模态融合做得好，就不考虑 GPT-3.5 了。我们评测 GPT-4o 确实比 GPT-4V、GPT-4 Turbo 那些版本的能力都强。但直接按 GPT-4o 路线走，估计大概率会失败。

目前来看大模型怎么选择路线，还是一个实验科学，你得堆资源，人力，数据训练，当看到就这么一条路，那么选它有很大概率会成功，把他们探索的加速走一遍，而不是直接到终点等着说就按这个路线走。

张鹏：大模型技术变化非常快，一边挖地基、一边盖楼的感觉，这楼现在一下都盖到比方说 5、6 层了，统一多模态什么的全出来了。压力会不会更大？还是说，打地基和不断盖楼的过程中，更有信心了？

刘煜宏：跑了一遍，当然更有信心。你看到盖到 5、6 楼，不代表前面 1、2、3、4……楼就不需要，只不过你可以盖得更快，深圳速度一天一层楼类似这样，所以一定是要把从零到一的过程重新走一遍。

张鹏：你们的做法还是很严谨的。煜宏你在腾讯多少年了？

刘煜宏：我 05 年加入的。

张鹏：20 年了，那你一定对腾讯的风格非常了解。去年很多大厂积极地抢身位，腾讯好似不争不抢，但在内部挺较劲的。这个是腾讯骨子里带的做事风格？

刘煜宏：我在腾讯一直做技术。坦白讲，做技术、产品是可以借鉴的，但也有个词叫「空中楼阁」，没有地基你就上不去。这可能也是腾讯的风格。

别人用三年从版本 1.0 迭代到 5.0，你用半年走一遍，如果说产品和技术有参考，那么最大的参考意义在这过程中。走一遍你会遇到同样的东西，这时候会理解，「哦，为什么是这样」，走一遍后也才知道，也许因为用户群、生态等不同，另外一条路可能是更好的选择。

02从需求中「长」出来的元宝 App

张鹏：你刚讲很多腾讯内部的产品在用混元大模型了，能不能举几个混元给原有产品带来新的 Feature（功能/特性）的例子？

刘煜宏：最新的例子，微信读书里的 AI 读书；微信输入法 AI 帮助扩写；腾讯会议里的 AI 助手，能给晚加入会议的观众总结之前别人讲了什么，把一次很长会议的会议纪要给摘出来。还有腾讯文档里的续写；企业微信里的翻译帮助与海外同事交流。现在腾讯旗下的协作 SaaS 全都接入了腾讯混元大模型。

再早一点的例子，智能客服在内部最为普遍。其实在用大模型之前，智能客服就做得挺成熟的，但大模型还能再提升 20%，这种程度的效率提升。

其实做了（大模型）产品之后，也帮助了自己很多，比如用 code copilot 写代码（涵盖前后端开发，C，C++，Java，Go，Python 多开发语言）的采纳率有 30%，相当于 100 行代码有 30 行是AI写的，而且被采纳。设计师设计 logo 时也用 AI 文生图来帮忙，每天千万级收入的广告业务的一些素材，就是用 AI 助手来做的。大模型对于降本增效起到很大助力。

张鹏：你刚提到，腾讯内部接近 700多个产品在用混元大模型，算是混元的「内部客户」已经有 700 家了，那你怎么服务得过来？同时还得兼顾不断前进的技术。

刘煜宏：内部调用量大概将近 3 亿次了。去年我们发布（节奏）慢，一部分原因也是我们投了很多资源先服务好内部的「客户」。腾讯做事情，对外开放前一定要先在内部打磨好，自己的狗粮自己先消化。

同时，腾讯确实有最齐全的业务场景，办公协作、游戏、社交、推广搜等等。在这些丰富的场景中，也能练兵，也能练模型。精调、以及其他给产品的反馈，反过来又反哺到主模型里。比如，会议总结、function call 等。

对于内部产品接入混元，我们提供三种模型来支持。

第一种叫全托管，给没有那么强研发资源的团队，他们提业务需求后，我们想办法把模型精调好，他拿走直接用；

第二种叫半托管，有些业务有自己的研发，也能做算法优化，我们一起共建，一人一半，他们搞不定我们再上。最近两年「开源协同」在腾讯内部很流行。

还有一种，我们把模型开放后就不管了，剩下的业务如果有需要，自己加数据、自己调。

我们去年也是花了大半年，慢慢把几个模式跑通。我们提供一站式精调服务，叫「混元一站式」，允许他们做各种创作、优化，内部根据需求调用资源，模型、算法、插件。

张鹏：三种模式占比如何？

刘煜宏：7 成左右拉 API 就可以了，啥都不用管。另外 3 成多少要精调，这其中拿走模型完全自己精调的会比较少，因为有门槛，我们一起参与的进展会更快。

张鹏：70% 的业务直接调用混元API，30% 要精调，哪些产品、业务要重点支持？这个选择权到底在谁，或者看业务部门谁更有影响力吗？

刘煜宏：这时候我们会基于两点考虑，一是复杂度，投入多少资源能帮你解决问题；二是同等难度和投入的情况下，先考虑战略重点。

资源配置上，其实主要看客观需求。目前 70% 是 API 模式就能搞定，用的是大模型的通用能力。那就看什么场景用大模型的通用能力就可以解决，比如像娱乐场景这样容错度高的场景，没有强解决问题的能力也行。但要做金融、医疗、法律等严肃场景，不能有幻觉，通用 API 不一定搞得定，要专门精调，为严肃场景做大量优化。

所以，第一是看用户选择。第二，这个数据在不同阶段也会变。最开始我们支持腾讯会议、腾讯文档时，扩写、润色、总结能力都是需要定制的。一旦做好了，这个能力就能变成通用 API 能力，开放出来给以后接入的业务用，这时候就不再需要定制了。比如给腾讯会议做好了，腾讯文档、腾讯邮箱也有类似的需求。

张鹏：把模型做好，这几种模式跑顺，服务好 700 家「内部客户」，是挺花时间的，所以你们去年不着急对外说，是在忙着解决服务内部的问题。

刘煜宏：最开始做混元，没想要做 ToC 产品，是要把基础模型打磨好，服务内部需求，这是我们原来的逻辑。

当我们在内部很多产品、不同场景里验证后，发现这个能力可以拿出来给大家用，所以去年 9 月份推出了「腾讯混元助手」小程序，因为觉得在微信生态里也可以用。但后来发现这样做也有不足，比如使用时被聊天打断，没法持续地对话，它就没法成为一个好用的 AI 工具。于是推出了 App。

整个过程里，我们不断地思考、调整方向。从做一个底层模型、一个基础功能、平台服务内部业务，到后来发现，如果不探索原生AI大模型应用，不知道怎么跟业务更好合作，所以又前进了一步，从小程序，到 Web 产品，App 产品。

张鹏：市面上也有很多比较热的大模型产品，主打陪伴类等等，你们「元宝」做得比较简单，界面就一个框，当时是怎么思考的？

元宝 App 第一屏界面｜图片来源：腾讯

刘煜宏：选择现在这样的界面，还是想回归「用户到底需要一个什么样的AI产品」？

现在大模型的使用人群，学历较高、职场人士占多，所以偏工作和学习的场景更重要，娱乐属性也有，但重要性相对低。相应地，我们的 slogan 也调整成，「轻松工作，多点生活」。不是不做娱乐，也留了一些智能体在上面。我们也有开放的平台——元器，上面能做很多智能体，角色扮演、陪伴等等。

先选择把生产力场景的用户痛点用 AI 搞定，信息搜索、写文档、想创意、知识获取、阅读等需求。比如搜索场景，我们先做好信息搜索、大模型「阅读」顺畅，又改善了信息源的陈列，提供了又简洁又分层次的信息源，提高生成内容的可信度，规避大模型的幻觉。

后面围绕着搜索、阅读、写作、画画和创作等场景做好，这些被视为大模型的基础能力。

我们做产品经常说，做加法容易，做减法难。这是为什么我们一开始就用很少的东西，用一个 AI 搜索做，另外还有一个发现页面，上面有些智能体，目前并不多。这也代表腾讯一个做产品的理念，小而精，做减法。先瞄准能提升大家效率的、最有用的场景，把它做透。我们希望提升信息组织、以及信息被找到的效率。

张鹏：为什么不做娱乐产品？是产品取向选择，做提升生产力更重要？还是从技术上来看，认为做娱乐对于技术提升不重要？

刘煜宏：不是说娱乐不重要，大家还是需要情感陪伴的。当下先选择工作和学习场景，第一个有选择的原因。第二个，当我需要陪伴的时候，AI 能给到什么样的帮助？角色扮演的产品有很多，但模型能力做不到那么好。打发时间，暂时只能做到这点。

张鹏：人们对「杀时间」的事包容度高，模型能力没那么好也能没准让用户愿意掏钱。

刘煜宏：对。这是选择问题。我觉得选择娱乐场景这个目标，对目前大模型的这个阶段的发展不是很好。基于对自己的认识和选择，先把技术能做的做好。我们先把底层模型、基础的产品体验、元宝体系做好了，在此之上开放一些东西，就像微信，小程序，公众号，都是生态。那娱乐的事情就交给生态产品，QQ、游戏、视频、音乐，他们做娱乐场景比我们更擅长。

张鹏：腾讯本身就是一个庞大的产品生态，元宝未来会跟腾讯的产品体系打通吗，比如微信？这方面有什么计划？

刘煜宏：我们跟微信团队一直有互动。比如元宝里用得好的东西想要分享到微信，或者在微信里传个文件，能不能用元宝打开？这些互动，我们有探讨怎么做会更好。但因为微信用户非常庞大，任何一点小改动，都可能影响上亿人的体验，所以也非常谨慎。

5 月 30 号元宝发布之后，外部解读元宝和腾讯生态产品的打通，有点出乎意料。我们确实会考虑与腾讯生态如何互动，但毕竟元宝还是一个很小的产品，还在尝试阶段；另外，用户需求真的是慢慢发展起来，才会变成所谓的战略，我们并没有上帝视角，还是基于用户的需求来考虑。

比如面对用户搜索的需求，我们要做一个什么样的信息检索，搜哪里？那我们有搜一搜、新闻、视频、音乐、企鹅号，包括公众号是一个很好的内容源，这是一个顺理成章、跟着用户需求慢慢出来的事情。

我们也看到很多创作者来说，元宝 App 里加入公众号的内容源是一件非常好的事情，一些好的内容都被遗忘了，元宝还能把它挖出来，让它重新火一把。

但我们有一些更长期的目标，我们考虑的是，混元怎么支撑内部业务、做到何种程度。

张鹏：看来腾讯对自己要求很高，就像你说的，如果没有吃过自己的狗粮，没有真正用起来，不太愿意让别人为我付代价。但同时，这会不会降低了对外开放、快速迭代探索的可能性，让更多力量一起「共创」本身不就是一种「技术红利」吗？

刘煜宏：确实，让更多人进来，用户、开发者、企业进来，一定会产生更多可能。混元一方面是通过内部比较全面的生态体系来打磨、创新。经历了内部的一轮洗礼，外部的需求会更游刃有余。而且，任何一个东西，你拉长看，现在的进展可能会显得微不足道的，假如外面是个大海洋，先在湖里面练好游泳再出去会做得更好。

同时我们也有混元 API 供外界用，其中混元 lite 的模型是直接可以免费使用，还有元器开发平台，上面已经有很多开发者做智能体，然后分发到元宝、QQ、小程序等渠道上面去用。

比如腾讯云的同事会基于做好的底层基础模型，做行业大模型，针对企业做服务。这部分增长非常迅猛，免费模型的调用量、付费版都增长了很多，我们也要投很多资源来支持、优化。

03 AGI?是信仰，眼下的目标是让模型多一些思考

张鹏：你怎么看 Character.ai，一个以前不存在的产品形态在未来的发展空间，以及对于技术的要求会是怎样的？

刘煜宏：类似角色扮演的需求，我们在 ToB 的场景里也遇到了，比如类似智能客服的接待助手。会告诉它「你是谁」，但发现聊了几十轮之后，它可能就忘了自己是谁。

Character.ai 很火，我们做了很多用研，但最后选择没做类似产品，因为混元还是希望做一个技术平台，我们会往它所需要的底层能力去做，长文本、长窗口的能力、记忆能力等。

这些角色产品的探索可能更适合腾讯的产品团队，他们来做会有更多想象空间。另外，从腾讯的角度看，也还是希望做底座能力和产品，把空间开放给市场上更多创业公司。

张鹏：所以你目前看得不是产品，而是产品背后需要的能力和长期有没有意义。我可以理解为，混元的目标是做好技术底座，为腾讯丰富的产品条件和用户场景，做好AI?Native 的准备？

刘煜宏：一定程度说可以这样说。但混元团队也没走过大模型这条路，也要探索原生的应用和创新。

就像刚提到的元器，我们做好底座，创作、工作流平台，业务部门和用户拿来做智能体，实现各种各样的想法，这是我们的定位。

我们做探索的同时，把底座的技术能力打造好，这是有门槛和难度的。

张鹏：有人说对国内的大模型来说，GPT-4o 是「必答题」，Sora 是「选答题」，哪些在你们看来是技术趋势上的必答题和选答题？

刘煜宏：GPT-4o 和 Sora 背后代表的多模态甚至全模态，对我们来说都是必答题，但一般没做出来之前，也不会对外说。

做与不做，可能只是一个特定资源条件下的选择问题。腾讯为什么必做？因为腾讯业务场景齐全，社交、游戏、内容，每个模态跟我们场景都有契合点，不做的话，可能某个方面未来会缺。

一个东西将语音、文本、图像、视频都能搞定，全模态进，全模态出，需要一些时间和资源。也许每个阶段会有不同重点。

张鹏：从混元的角度，你会怎么定义 AGI？

刘煜宏：目前 AGI 作为信仰比较合适。业界没有一个对 AGI 量化的定义，连定性都未必定的出来。可能从业务的角度，可以定义一个可以操作执行的 AGI 目标。

但我最近在思考，让模型稍微多一些思考，这件事挺重要的，因为可能生成的质量会比过去高很多，我们接下来可能会花更多时间在这里。

ChatGPT 最早你问他一个问题，他马上吐字回答问题，有点像「快思考」或者说没有思考的直觉反应，但它可能怎么也想不出来一个空城计。

让模型做AI搜索，或者其他让它多加几层思考、强迫他多做思考的动作，有助于进一步提高模型的推理能力。

7 月 1 日，「腾讯元宝」AI 搜索能力升级，上线深度搜索模式，可从深度和广度两方面，提供更结构化、更丰富的回答，并可同步生成内容大纲、思维导图及相关人物事件梳理。｜来源：腾讯

张鹏：有没有对需要达到的能力范畴的定义？

刘煜宏：过去几年里有句话比较流行，有多少人工就有多少智能。以前智能是靠人堆起来的，人类对齐有很多数据要标注，甚至 OpenAI 也靠高质量的标注。坦白来讲，目前要做到绝对的AGI 没有那么乐观。

务实一点看，针对腾讯内部那么多的业务，如果大模型能把他们的需求都搞定，那可以说它具备了比较好的智能，这可能是通向 AGI 的最佳实践，工具或技术从来都是满足人的需求。

目前面对腾讯内部接近 700 个业务的需求满足情况，如果让我打分，一部分场景合格，但是大部分坦率来讲只是暂时够用，要用得好，还有很多努力要做。在这个过程中探索 AGI，也可以算我们的一个实践路径。

当然我们也有比较前沿的科学探索，腾讯 AI Lab 在做等等，要花点耐心，把应用和研究结合起来，一起做。

张鹏：想象一下混元在三年以后会什么样？

刘煜宏：这个年代哪能定三年目标，因为技术曲线仍然陡峭，边走边看。

要说做产品，很像写小说，有的时候不是一开始就想好结局。比如 Sora 出来之前，做文生视频的肯定不会走那条路。GPT-4o 之前，大家觉得 4V 很牛了，变化太快了。

我们投了很多资源，做好长期战斗的准备。让我想，三年如何讲做成功了，可能无非是 AI in all。

张鹏：不是一下投进去，而是所有的东西都被AI逐渐渗透进去。

刘煜宏：大模型要改造流程和产品。我希望不用到三年，腾讯产品和技术平台都用大模型做了改造，让大模型帮大家做降本增效的事情，这是我对未来的所想。