国产手机抢苹果Siri?小米大模型团队负责人首次透露小米AI

日期:2023-10-13 13:39:46 / 人气:321

《腾讯科技的AI未来点北》聚焦于端侧大模型,希望从模型侧、终端侧、硬件侧呈现端侧大模型的行业发展趋势。本文为第一期。文/腾讯科技郭晓静视频策划/腾讯科技吴斌今年2月,一款搭载高通第二代骁龙8芯片的安卓手机,可以直接运行参数超过10亿的稳定扩散。5月,Google发布了大型语言模型PaLM2,其中包含四个大小不同的大型模型。参数最小的壁虎,即使不联网也能在手机上运行,运行速度足够快。同时,高通提出了混合AI的概念——AI处理应该同时分布在云端和终端,以实现AI的大规模扩展,发挥其最大潜力。机型和硬件的突破,让业界看到了手机终端装载大机型的可能性。手机和深度学习的结合已经不是什么新鲜事了。2008年左右,智能手机刚刚兴起的时候,深度学习已经应用到图像处理、AI语音助手等功能中。但是现在的手机模式和当时端到端的机器学习有着本质的不同。整合到手机系统中的大模型,可以打破应用之间的壁垒,对于打造自己的垂直整合和软硬结合生态具有重要意义。在行业整体增速放缓的情况下,手机大机型成为厂商提升核心竞争力、打造差异化用户体验的重要方向。据IDC预测,到2026年,中国市场近50%的终端设备将拥有AI引擎技术。目前很多手机厂商已经开始布局:荣耀Magic V2在今年7月向端侧推出AI大机型;华为将智能助手“小I”接入盘古模型。ChatGPT今年的爆炸被称为又一个“iPhone时刻”,但iPhone并没有明确公布大机型的相关信息。外媒只是从一些消息来源和招聘信息猜测,苹果已经建立了自己的大语言模型框架“Ajax”,并将其应用于地图、siri等功能,以提高人工智能。苹果还创建了一个基于Ajax的聊天机器人服务,一些工程师称之为“苹果GPT”。此时距离苹果正式宣布AI相关产品动作已经过去了12年。2011年,苹果推出Siri,可以算是人工智能的初级产品。手机终端大模式的争夺战越来越激烈。基于此,腾讯科技《AI未来点北》聚焦于端侧大模型,希望从模型侧、终端侧、硬件侧呈现端侧大模型的行业发展趋势。本期重点关注小米公司,该公司于8月宣布进入手机模式。雷军在小米年度演讲中说:“小米自研的13亿参数大模型已经在本地手机上运行,在某些场景下可以和60亿参数模型在云端运行的结果相提并论。”在官方宣布手机本地首发后,小米技术委员会AI实验室大模型团队负责人栾建向腾讯科技分享了小米在手机大模型研发过程中的关键思路,这也是他接任小米AI实验室大模型团队负责人后首次与外界进行深度对话:①小米是如何定义自己“推出”了手机大模型的?213亿参数的大模型可以在手机上“贯穿”。软件和硬件的配合有什么基本要求?(3)13亿参数的大模型如何在某些场景下媲美60亿参数的云模型?小米更看重哪些应用场景?(4)大手机模式对未来智能手机意味着什么可能性?












广播





然后






打开循环回放









0










00点
/
00点





















清晰度/清晰度






速度






语言






多个音轨









隔空播放






画中画







网页全屏







全屏幕












可以刷新一下。













视频信息1.15.22



















播放信息
复制

上传日志


调试信息

[X]



视频id
视频
-

播放流
Flowid
-

全局唯一标识符
全局唯一标识符
-

回放内核
核心
-

视频CDN

-

显示信息
复活
-

帧数

-

缓冲健康

-

网络活动

-

视频分辨率

-

编码
多媒体数字信号编解码器
-

秘密
秘密
-








输入广告









广告被拦截插件误伤。
一个
以秒为单位播放

关闭拦截插件,恢复正常。








暂时不支持打开。请用微信扫码浏览。











微信扫描查看更多精彩。












































微信扫码查看更多































无法关闭广告...继续争取广告权...
我知道!

反馈


















视频加载失败,请点击重试。
单击重试。
















扫描代码了解详细信息














扫描代码了解详细信息




广告









































视频加载失败,请点击重试。
单击重试。





广告






长按图片移动小窗口x以下为对话精华:腾讯科技:手机和深度学习结合已经不是什么新鲜事了。现在的手机和大模结合和以前有什么本质区别?栾建:手机和AI的结合其实早就有了,比如拍照时照片的调整——模糊背景,调整光线。现在把大型号加到手机上,应该说是一种升级。大模型提高了自然语言之间的交互,包括文字处理和多模态处理的能力。过去,人们常常调侃说,有多少“人工”,就有多少“智能”。其实主要是对自然语言的理解和概括能力不够强。手机可能“听得见”,但“听不懂”。加入大模型的主要目的是增强对自然语言的理解。腾讯科技:前不久的小米发布会上,雷总说手机的大模式已经贯穿。所谓的“贯穿”是怎么定义的?栾建:我们对润通的定义可能和很多人的理解不一样。在小米发布端侧大模型之前,网上也有一些视频演示,说是大模型已经在手机上跑过了。但是,我认为是否奏效有三个关键因素:一是记忆问题。大模式的第一个特点是“大”。手机上的内存可以运行模型吗?如果工作内存占用率过高,会影响其他应用的使用,表现为手机无法响应,整体性能降低,甚至死机。第二,计算能力能否支撑“生成速度”。如果生成一个单词需要几秒钟,用户体验会很糟糕。因为人的阅读速度大概是一秒十几个汉字,“生成速度”肯定比这个快,用户不能等。第三,就是功耗问题。这也是很多在手机上运行大模型的在线Demo没有注意到的问题。计算芯片负载过大会导致手机发热,长时间使用会大大降低电池寿命。以上三个问题不解决,试玩只能是试玩,永远不会真正落地。腾讯科技:小米手机端侧模型公布的参数量为13亿。按照这个参数量,需要什么样的硬件要求才能达到更好的产品体验?栾建:我们当然希望最终所有或者大部分手机都能运行大机型,硬件要求越少越好。但是第一步,我们会在内存最大,计算能力最强的手机上做实验。即便如此,困难也不少。比如功耗方面,我们最看好NPU方案。根据之前小米在端侧落地AI模型的经验,使用NPU的功耗会比CPU和GPU小很多。但是很多NPU芯片都有内存使用上限,我们需要想办法绕过它。另外,语言模型输出序列的长度会动态变化,NPU往往需要固定序列的长度。量化模型,优化推理结构和算子,使每秒生成的令牌数尽可能多。经过这些处理后,还要保证计算的精度损失对生成结果的影响尽可能小,以及多次推断之间结果的稳定性等等。因此,将大模型放在端侧是一个复杂的过程,需要解决许多问题。腾讯科技:还有一个关于手机大型号的“调侃”:如果手机能支持大型号,你要英伟达的卡干嘛?你怎么看待这个问题?栾建:这个问题要分两件事。一个是培训。模型训练需要巨大的计算能力,而且会在云端进行,在千卡甚至万卡的集群上完成。而手机的应用,其实我们指的是推理。推理时,模型只能激活部分模块和部分神经元进行计算。在这种情况下,我们有机会使计算能力需求更小,消耗更少的工作内存。端到端大模式的好处一是可以更好的保护大家的隐私数据,二是可以让大家以更低的成本获得更多的功能。但绝对不是用手机就能解决所有问题。我们还是会坚持端云一体化的道路。只需要具备一些能力或者功能,也许端侧的模型就可以解决,所以不需要上升到云端。腾讯科技:所以具体来说,以一个场景为例。我想吃牛排。我希望萧艾能帮我找到最近的得分最高的牛排店。端云混合有什么用?栾建:是的,这涉及到一个更复杂的问题,关于实时信息。如果我们把餐厅的所有信息,包括评论和口碑,都发给模型去学习,大模型就有了一个静态的知识。事实上,它还可以帮助你进行推荐,比如告诉你截至本月的日期,这家牛排餐厅是最适合你的。但是如果我们想要实时更新这个信息系统,我们可能需要结合云的一些能力。我们其实希望对于用户来说,哪个用端,哪个用云,没有明显的感知,只要是特别流畅的服务。具体来说,一些简单的任务,比如写作和建议,可能会在最后完成。还有一些,比如涉及特别复杂的知识体系,还有一些特别实时的新闻和信息。这时候就需要调用云的能力,比如订火车票,订酒店。不可能提前了解所有这些数据,比如那个酒店现在有没有空房。这些信息必须不断实时更新。这时候就需要结合云的能力。腾讯科技:小米的手机模式是完全自研的吗?栾建:对,这里一定要强调为什么都要自己做研究。因为雷军先生其实提到了小米的科技理念,我们会坚持对人类文明长期有价值的技术领域进行长期持续的投入。我们觉得大模型技术是AI未来发展的一个重要方向,所以一定要做到底,积累这方面的经验,了解操作过程中的所有细节。你在纸上得到的东西是肤浅的。如果只是看论文理解概念,我们认为是不够的。未来要想继续深挖AI领域,取得更多突破,可能都要基于一个大的模型框架,所以坚持走自研的道路。腾讯科技:现在有强大的开源商业模式。是不是更便宜,效率更高?为什么不考虑开源解决方案呢?栾建:首先,我们需要有定制模型结构的能力。在各种设备终端上,使用不同的芯片,会对机型提出各种要求。这些要求可能非常详细,以至于一些操作人员不支持它们,或者一些结构效率低下。我们必须根据硬件的要求对模型结构进行一些调整。如果你想修改模型结构,你必须有从头开始训练的能力。因为开源模式的结构是固定的,没有办法调整,满足不了小米的需求。腾讯科技:雷总说小米不要做万能大机型,要坚持研发轻量化大机型。这是怎么考虑的?栾建:其实我们很早就开始尝试大模型技术了。我们在对话大模型上尝试过,所以有经验和积累,对技术本身也有自己的理解。当时我们预测,在年底之前,行业内会有很多公司可以重现一般的大型号能力,所以我们觉得小米应该还是会发挥自己的特色,更何况人多的地方。我们准备弥补这个行业中一些我们没有太重视,或者说还欠缺的方面。小米有什么特点?我们认为小米的特点是端侧设备多。如何利用好这些端侧设备,把大模型放入端侧设备?首先,这是一件很酷的事情。其次,我们还考虑到许多用户可能会担心将个人数据上传到云中。如果最后能解决很多问题,用户隐私就能得到很好的保护。同时,一般的大型模型参数数量多,部署成本高,用户的使用成本也将是未来的一大问题。在这种情况下,小米一直希望每个人都能体验到技术带来的美好生活,所以一定要想办法保护数据的安全,用尽可能低的成本使用这项技术。腾讯科技:但至于大模式,据说“暴力创造奇迹”。参数越大,泛化能力越好。如果把参数做的更小,会不会失去一些能力?栾建:这是个好问题。在这件事上我们会有不同的看法。我们认为大模型技术本身并不仅仅是参数数量多,我们更看重它,因为它带来了技术的新范式。大模型为什么会产生这样的能力,需要对其底层逻辑有更清晰的认识和理解。我们认为大模型的涌现能力可能并不完全依赖于大量的参数。在训练数据、训练策略、训练任务的选择上,影响其实可能更大。也就是说,如果仅仅用过去一个传统任务的数据来训练,即使把模型参数做得再大,也不一定达到我们现在看到的涌现能力。所以我把这个新范式总结为三个“大”:第一是说数据量大;第二是任务大;第三是模型的参数要大。数据量大,可以从中挖掘的常识和知识的丰富度和覆盖面就大。只有当参数数量较大时,模型才能存储足够的知识规模。任务很大,或者任务足够复杂,可能会迫使模型将各种子能力模块化,通过这些模块化子能力的组合,就有可能完成各种复杂的任务。只有这样,大模型才能真正概括出一些没有经过专门训练的新能力,涌现出来。所以基于这样的认识,模型需要多少参数还有很大的探索空间。当初很多人说要几千亿几万亿的参数才能出现。后来有论文说我们这个几百亿参数的模型好像出现了。然后前阵子好像也有论文说10亿模型也冒出来了。这个趋势非常符合我们最初的认识。腾讯科技:所以现在把参数做小了,13亿的参数和以前的小型号有本质区别?栾建:我觉得本质的区别是训练范式的变化,而不仅仅是模型大小的变化。因为即使是参数比较小的模型,如果经过大模型的训练,比如预训练,多种数据的采样,理论上还是有机会掌握和人一样的基本常识和知识体系的。在此基础上迭代,效果会比之前的小模型有明显提升。腾讯科技:所以13亿参数的手机型号也“浮出水面”了?栾建:对,我们在13亿参数的模型上观察到了“涌现”。不过这里也要强调一点,千万不要以为13亿参数的端到端模型就可以完全替代或者完全匹敌云端1000亿参数的大型模型,两者之间肯定是有差距的。因为参数规模实际上代表了一个大模型可以存储的知识量。那么有什么办法可以弥补这个差距呢?我们说在某些场景下,堪比云中更大模型的效果,但不是在所有场景下。所以基于对具体场景的深入了解,我们会重点关注用户使用频率最高,最有可能在某个设备上使用的场景。我们希望端到端的模型在这些场景下达到极致的效果。腾讯科技:13亿手机模型在某些场景下堪比60亿参数云模型。这里哪些场景更重要?小米内部有排序吗?栾建:关于应用场景,我觉得大家还在探索阶段。我们有一些想法,可能会在小米未来的产品发布会上展示。但从技术上来说,需要提前证明,一个13亿参数的模型,可以在任何你期望它表现良好的目标场景下进行定制。在这个目标场景和所需的知识领域,我们有能力做终极增强。腾讯科技:小米的端侧大模式也上榜了。对此你怎么看?目前国际上还没有公认的大规模模型评估标准。小米为什么要做?栾建:一个大的模型确实很难评价。刚才说大模型是新范式。其实一个范式除了解释底层逻辑,还需要一整套训练方法和评估方法。对于大模型,这套合理的评价方法还在探索中,没有公认的标准。那么如何验证我们的模型是否训练有素呢?我们还需要找到一些方法来测试它。虽然可能不是特别全面完整的方法,但也是目前我们能找到的比较好的方法,或者大家都认同的方法。最近越来越多的大机型参与了这些榜单的评测,尤其是小米发布会之后,榜单上的机型特别密集,大家都把榜单刷得越来越高。但同时也要清醒地认识到,目前的榜单大部分都是题型,而且都是以选择题为主,所以用它们来评价大模型的能力是有局限性的。如果利用这些学科的知识和这些学科收集的试题来增强大模型的学习,它的效果肯定会很好。但是做这样的训练会不会对大模型的其他方面有负面影响?我们也观察到一些大型开源模型在迭代后排名分数有了明显的提升,但是如果测试他们的生成能力,比如写作水平,我们发现他们其实是下降了。所以我们看榜单,只是从一个侧面验证了大基数机型是否能在某个领域做到极致,但并不代表一定能给用户带来最好的应用体验。也许以后我们不再强调榜单上的排名,而是关注小米的产品,关注如何把体验做好,让用户满意。腾讯科技:刚才提到小米有很多多模态数据。如何看待未来多模态与大模型结合的应用前景?栾建:目前业内已经有很多公司开始做多模态的大模型,也取得了一些效果,比如根据文字生成视频,或者用文字搜索图片,但我觉得这些应用还是叫多模态,可能更合适。所谓跨模态,就是输入是一种模态,输出是另一种模态。真正的多模态输入可以是多模态的,输出可以是多模态的。所以我认为多式联运的道路还处于探索的初级阶段。其实还有很多技术难点需要解决和突破。多模态研究的一个思路是,人类的大部分知识是以文字的形式存在的,因此需要建立在大语言模型的框架之上。这也是大模型首先在自然语言领域取得突破的原因之一,因为它存储的知识量最大。但是还是有很多常识和空间、视觉,或者听觉、味觉、触觉有关。所以下一步需要考虑把其他模式放进去,在同一个语义空间里和自然语言对齐,在自然语言搭建的框架里不断加入新的信息和内容,让大模型最终能够真正像人类一样认识和理解世界。除了视觉,刚才提到的小米的各种设备中其实还有各种其他的传感器,比如温度传感器,振动传感器,或者是对高度和加速度的感知等等。如何让它们也通过大模型进行加工?我觉得这是另一种模式,由纯时间序列数据组成。如果大模型能够完全理解它们,可能会带来一些更奇妙的变化,比如通过家庭场景中所有设备的配合来完成一些复杂的功能。腾讯科技:消费者或用户对手机厂商布局大端机型的动作会有强烈的感知吗?栾建:首先我觉得手机厂商肯定会探索这种可能性。如果我们不去探索,我们将来可能会在这个领域落后。其次,从用户的角度来看,无论是使用端侧还是云端,用户一开始可能都没有那么强的感知。但是未来他们一定会发现,在一些场景下,比如一些特殊的隐私问题,使用端侧会更安全。其实现在的一些新闻报道也已经让大家注意到了个人隐私的安全。在这种情况下,端侧必须对用户有用。但同时我觉得也要看手机厂商的软硬件整合能力,端到端大机型的能力越来越强。这个时候用户体验会越来越好,用户会觉得这是个有用的东西。"

作者:天富娱乐




现在致电 5243865 OR 查看更多联系方式 →

天富娱乐 版权所有