被AI大牛押注的智能体，国内发展得怎样了？

前段时间，前特斯拉总监、OpenAI大牛Karpathy的一句话，引起了业内的关注。

在7月初的一次开发者大会上，Karpathy声称：“我被自动驾驶分了心，AI智能体才是未来！”并表示将来会全力投入对智能体的研发工作中。

(资料图片)

其实，早在2016年，当Karpathy开始在OpenAI工作时，就已经锚定了智能体的方向，只是由于当时的研究方法还不成熟，所以Karpathy才转去做了自动驾驶。

那么，这所谓的“智能体”究竟是什么？为什么会让这位AI大牛长久地念念不忘？

如果用一句话来回答这个问题，我们可以说：

智能体的出现，不仅是AI发展的下一个方向，也是其真正走进人类生活的开始。

01 何谓智能体

到底什么是智能体？

如果我们将现在的生成式AI，比作一个人的话，那么它只具有了大脑（大语言模型），但却没有身体，因此只能躺在服务器上，做一些处理文字、生成图片的工作。

而智能体，就相当于是大模型的“身体”，有了它，大模型才能在更多的领域施展身手。

那智能体究竟能做什么？

最近，一个名叫Fable的初创公司，发布了一个节目统筹智能体（Showrunner），如同一声惊雷炸响，让人们再次见证了智能体的强大。

通过这样的智能体，Fable制作出了一集完全用AI拍摄的《南方公园》！

从编剧、动画、导演、语音、编辑……到剧集制作的全流程，都是由AI完成。

在整个制作环节中，通过自然语言，给不同的智能体分配了各自的目标，人类导演只需要给出一个高层次的构思提示（标题、概要、事件），这些AI智能体就会开始「自导自演」。

之后，人类几乎就不用进行任何干涉了！

在制作过程中，不同的AI智能体，担任了不同的角色，如演员、导演、剪辑等，它们彼此分工合作，互相配合，最终完成了整部影片的制作。

而同样的，类似的案例，也出现在前段时间清华团队的研究中。

7月19日，清华团队用ChatGPT打造了个零人工含量的“游戏公司”——ChatDev，只要你提出想法，从设计到测试的完整流程，都由AI帮忙搞定。

Fable与制作《南方公园》的思路类似，在游戏开发的环节中，ChatDev的十多个智能体也分别担任了这个“公司”中的策划、程序员、设计师等不同的岗位。

在项目开始时，人类可以对这些AI提出一个大概的想法或创意。

之后，各个智能体之间就会进行一系列讨论、制作、测试的环节，整个过程完全不需要人类的参与，全是自动进行的。

由此可见，有了智能体之后，大模型就能根据人类给出的规则和策略来做出决策，而不需要人类的干预或指令。

在这个过程中，智能体还会通过习得的经验或知识，来改善自己的性能和适应性，并根据目标函数或奖励函数来评估自己的行为。

而这样的能力，是以往的大模型（LLM）无论如何都不具备的。

因此，LLM即使再聪明，也是一个没有身体的“大脑”，而正是智能体的出现，让LLM有了行动的能力，有了自主完成复杂任务的能力。

而这样的能力，正是LLM下一阶段进行在应用层面进行落地的关键。

02 国内智能体进展

既然智能体这么重要，那国内在这方面发展得怎样了呢？

在今年的 2023 世界人工智能大会上，联汇科技发布了基于大模型自主智能体(Auto AI Agent )——OmBot 欧姆智能体，并针对典型场景需求，推出了首批应用。

要想打造一个真正的智能体，最关键的地方，就在于让AI不依赖人类来指导命令，能够根据任务目标，主动完成任务。

而要想实现这点，就必须让AI具备认知、记忆、思考、行动等几大核心能力，使之能够感知环境、自主决策，并且模仿人类大脑工作机制。

在这方面，联汇科技多年的研究成果——欧姆大模型3.0，成为了孕育OmBot 欧姆智能体的摇篮。

欧姆大模型3.0培养智能体的思路是：在智能体的诸多能力中，认知和思考能力是最关键的。

而要锻炼这样的能力，就要通过大量的开放识别、视觉问答等训练方式，来让智能体从被动的识别转为主动推理，并自主提出解决方案。

例如通过让智能体观看不同的图片、视频，并让其通过语义去理解和描述其中的目标。

而之所以要选择开放识别、视觉问答为主的训练方式，是因为在各个行业中，都存在着大量的特定场景和任务，需要对视频中的内容进行精准的识别、分析。

但这些场景和任务，往往是非常细分和多样化的，难以用通用的模型和方法来满足，于是就造成了各行各业对智能识别的大量长尾需求。

在对这些视觉信息进行分析的过程中，欧姆大模型会通过多轮对话推理的机制，将图像、视频、以及相关的问题或反馈等输入转换为特征向量，并存储在一个记忆单元中，

之后，大模型的解码器就会负责根据记忆单元中的特征向量生成最终的回复。

在对一张张图片，一段段视频的对话问答中，欧姆大模型会将视觉模型和语言模型进行细粒度的对齐，让其可以理解人类指令，并合理作答。

那么，这些经过了不同行业视觉数据历练的智能体，后来怎样了？能在实际场景中展现实力了吗？

目前，欧姆智能体的主要应用场景，大致分为三类：智慧店长、文档处理、视频剪辑。

如果说，智能体最重要的能力是其是否具备自主分析、决策的能力，那么我们不妨将欧姆智能体在这三大场景中的表现，与传统手段进行对比，看看其是否具有了真正意义上的智能体的特征。

03 解决“落地焦虑”

简单来说，智慧店长主要就是通过与摄像头视觉信息结合，利用欧姆大模型智能识别店内发生的一切。

在这方面，传统的摄像头只能提供视频监控的功能，无法对视频画面进行智能分析、处理、交互和反馈。

而具备了智能体后，智慧店长就能通过与摄像头视觉信息结合，识别店内发生的一切，并自主决策提示交互信息。

例如实时监测和分析客流量、客户特征等数据，遇到突发情况时，还看自动报警和处置店内的安全隐患。

在文档处理方面，按照联汇科技的说法，欧姆智能体最大的优势，是可以将专业知识有效集成到向量数据库，并存储记忆，形成专业机器人。

而一个具备了智能体的大模型，与传统的行业垂直类大模型相比，最独特的优势，是其持续学习和适应能力，而非依赖于静态的数据集。

在这方面，只能说欧姆智能体具备了其持续学习的基础。

因为向量数据库与传统数据库相比，采用灵活的数据结构，如多模态的数据支持，而将不同结构的知识进行整合，正是持续学习的基础。

但其是否真的具备这样的持续学习能力，也许还要进行长时间的观察。

而在视频剪辑方面，AIGC 小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片。

可以说，这是智能体能力体现得最直接的一个方面，通过语言理解能力，智能体在剪辑过程中，可以自动依据文案内容，对不同镜头添加更加细节的视频镜头描述，从而省去了人工制作视频中，繁琐的文字与镜头之间的匹配工作。

从上述几点来看，欧姆智能体确实具备了一定的智能体特征，然而，即便如此，在其商业化落地的过程中，仍然会面临不少挑战。

从目前欧姆智能体的落地方向上来看，其本质上走的还是一种“松耦合”的技术路线。

所谓的“松耦合”，简单来说，不同任务分解，通过不同智能体来完成，最后通过大模型来完成自动化调度和协作。

比如语言大模型来学习对话、视觉大模型来识别地图。

这类智能体，虽然从不像人一样有综合智能，但从成本和可行性上，却能更快落地。

然而，这样的“松耦合”路线，由于技术壁垒并不高，在竞争中很容易遭到同类型智能体的挤压，进而导致毛利率不断下降，以至于技术红利很快走到尽头。

到了那时，一种端到端的，一个大模型就能包办所有的“紧耦合”路线，就会成为行业共同的期盼。

但这样一种集合了多种智能，能适应各种任务的智能体，必定蕴含了更多技术含量颇高的“硬科技”，而国内团队是否能一一攻破这些难关，仍是个未知数。

关键词：

被AI大牛押注的智能体，国内发展得怎样了？

自然资源部将北京、河北地质...

最后一页

相关阅读

被AI大牛押注的智能体，国内发展得怎样了？

前段时间，前特斯拉总监、OpenAI大牛Karpathy的一句话，引起了业内的关

自然资源部将北京、河北地质灾害防御Ⅳ级响应提升为III级响应

中新网7月31日电据自然资源部网站消息，自然资源部已于2023年7月31日14

宿迁市疾病预防控制中心（关于宿迁市疾病预防控制中心介绍）

大家好,小万来为大家解答以上的问题。宿迁市疾病预防控制中心，关于宿

排列三2023202期莫运旺预测

唯彩看球分享2023202期排列三今天专家预测胆码，查看专家精选胆码、走

强降雨持续，这些健康和安全提示请牢记

暴雨来袭保护健康和安全北京市气象台2023年7月31日10时00分发布分区域

安杰思(688581.SH)：未来3到5年产品线公司将继续聚焦于消化领域

格隆汇7月31日丨有投资者向安杰思(688581 SH)提问：未来3到5年所有的产

上半年我国营业性客运量同比增长56.3%

交通运输部7月31日发布数据，今年1至6月我国完成营业性客运量43 2亿人

精品酒店建筑立面设计要避免枯燥和缺乏生机

这其实是很总要的一点，随着城市发展的越来越快，到处都是建筑，能看到

银行存款日记账电子版下载 银行存款日记账电子版

1、可以。2、两个日记账模板发给你。相信通过银行存款日记账电子版这篇

大运会遇上巴蜀韵味 真的很搭！

7月28日晚，在成都大运会开幕式上，短短20秒的时间里，来自成都市川剧

京港澳高速部分路段封闭！北京铁路：部分列车停运，多区段列车晚点

京港澳高速部分路段封闭！北京铁路：部分列车停运，多区段列车晚点,区

“故事爷爷”钱来茂：告诉孩子们“强国有我”的信念

钱来茂正在给学生们进行宣讲受访者供图□记者殷博华“钱爷爷，今天您要

首创证券录得5天3板

证券时报网讯，首创证券再度涨停，5个交易日内录得3个涨停，累计涨幅为

墨媒：那不勒斯边锋洛萨诺接近登陆美职联，洛杉矶FC开出四年合同

据墨西哥媒体Wdeportes报道，那不勒斯边锋洛萨诺即将加盟美职联洛杉矶F

下半年经济走势如何？扩大内需还有哪些举措？国家发改委解答

央视新闻客户端|作者岳群吴勇军近日召开的中央政治局会议对上半年经济

安徽：法检共同推进严格公正司法

本报讯(记者周瑞平)为推动主题教育走深走实，共同推进严格公正司法，近

普拉多多少公里做大保养最好（普拉多多久更换一次机油？）

普拉多(参数|询价)4万公里更换一次机油，普拉多是一款中大型SUV，长宽

中央气象台继续发布暴雨红色预警 北方多地遭遇持续强降雨

央视新闻客户端讯受今年第五号台风“杜苏芮”残余环流北上影响，北方多

防水且透明柔性有机发光二极管制成

由韩国科学技术院电气工程学院和国家纳米制造中心科学家领导的联合研究

⚽女足世界杯战报：波普绝平 巴内加斯补时再绝杀！哥伦比亚2-1击败德国

北京时间7月30日，2023女足世界杯H组第二轮，德国女足对阵哥伦比亚女足。

2022年上半年全国新能源汽车保有量达1001万辆 汽车驾驶人4.54亿人！

湖北十堰市三个重大林业项目可行性研究报告获发改委批复

湖北天门生物医药产业在创新绿色发展新赛道上加速迭代

大理古城接待游客量大幅增长，客房入住率迅速飙升

海南商业航天发射场项目在文昌动工 开启发展新篇章

银行存款日记账电子版下载银行存款日记账电子版

大运会遇上巴蜀韵味真的很搭！

中央气象台继续发布暴雨红色预警北方多地遭遇持续强降雨

⚽女足世界杯战报：波普绝平巴内加斯补时再绝杀！哥伦比亚2-1击败德国

2022年上半年全国新能源汽车保有量达1001万辆汽车驾驶人4.54亿人！

海南商业航天发射场项目在文昌动工开启发展新篇章