前段时间,前特斯拉经理、大牛的一句话,引发了业内的关注。
在7月初的一次开发者会议上,宣称:“我被手动驾驶分了心,AI智能体才是未来!”并表示将来会竭力投入对智能体的研制工作中。
虽然,早在2016年,当开始在工作时,就早已锚定了智能体的方向,只是因为当时的研究方式还不成熟,所以才转去做了手动驾驶。
这么,这所谓的“智能体”究竟是哪些?为何会让那位AI大牛长久地念念不忘?
假如用一句话来回答这个问题,我们可以说:
智能体的出现,除了是AI发展的下一个方向,也是其真正走入人类生活的开始。
1何谓智能体
究竟哪些是智能体?
假如我们将现今的生成式AI,称作一个人的话,这么它只具有了脑部(大语言模型),但却没有身体,因而只能躺在服务器上,做一些处理文字、生成图片的工作。
而智能体,就相当于是大模型的“身体”,有了它,大模型能够在更多的领域施展身手。
那智能体到底能做哪些?
近来,一个名叫Fable的初创公司,发布了一个节目统筹智能体(),就像一声炸雷炸响,让人们再度见证了智能体的强悍。
通过这样的智能体,Fable制做出了一集完全用AI拍摄的《南方景区》!
从导演、动画、导演、语音、编辑……到剧集制做的全流程,都是由AI完成。
在整个制做环节中,通过自然语言,给不同的智能体分配了各自的目标,人类编剧只须要给出一个高层次的构思提示(标题、概要、事件),这种AI智能体才会开始「自导自演」。
以后,人类几乎就不用进行任何干涉了!
在制做过程中,不同的AI智能体,兼任了不同的角色,如艺人、导演、剪辑等,它们彼此分工合作,相互配合,最终完成了整部电影的制做。
而同样的,类似的案例,也出现在前段时间北大团队的研究中。
7月19日,北大团队用塑造了个零人工浓度的“游戏公司”——,只要你提出看法,从设计到测试的完整流程,都由AI帮忙搞定。
Fable与制做《南方景区》的思路类似,在游戏开发的环节中,的十多个智能体也分别兼任了这个“公司”中的企划、程序员、设计师等不同的岗位。
在项目开始时,人类可以对那些AI提出一个大约的看法或创意。
然后,各个智能体之间都会进行一系列讨论、制作、测试的环节,整个过程完全不须要人类的参与,全是手动进行的。
由此可见,有了智能体以后,大模型能够按照人类给出的规则和策略来作出决策,而不须要人类的干预或指令。
在这个过程中,智能体就会通过习得的经验或知识,来改善自己的性能和适应性,并依照目标函数或奖励函数来评估自己的行为。
而这样的能力,是往年的大模型(LLM)无论怎样都不具备的。
因而,LLM虽然再聪明,也是一个没有身体的“大脑”智能AI,而正是智能体的出现,让LLM有了行动的能力,有了自主完成复杂任务的能力。
而这样的能力,正是LLM下一阶段进行在应用层面进行落地的关键。
2国外智能体进展
既然智能体如此重要,那国外在这方面发展得怎么了呢?
在去年的2023世界人工智能会议上,联汇科技发布了基于大模型自主智能体(AutoAIAgent)——OmBot欧姆智能体,并针对典型场景需求,推出了首批应用。
要想构建一个真正的智能体,最关键的地方,就在于让AI不依赖人类来指导命令,才能依据任务目标,主动完成任务。
而要想实现这点,就必须让AI具备认知、记忆、思考、行动等几大核心能力,使之就能感知环境、自主决策,而且模仿人类脑部工作机制。
在这方面,联汇科技多年的研究成果——欧姆大模型3.0,成为了蕴育OmBot欧姆智能体的摇篮。
欧姆大模型3.0培养智能体的思路是:在智能体的众多能力中,认知和思索能力是最关键的。
而要锻练这样的能力,就要通过大量的开放辨识、视觉问答等训练方法,来让智能体从被动的辨识转为主动推理智能AI,并自主提出解决方案。
比如通过让智能体观看不同的图片、视频,并让其通过语义去理解和描述其中的目标。
而之所以要选择开放辨识、视觉问答为主的训练方法,是由于在各个行业中,都存在着大量的特定场景和任务,须要对视频中的内容进行精准的辨识、分析。
但这种场景和任务,常常是十分细分和多元化的,无法用通用的模型和技巧来满足,于是就导致了各行各业对智能辨识的大量长尾需求。
在对这种视觉信息进行剖析的过程中,欧姆大模型会通过多轮对话推理的机制,将图象、视频、以及相关的问题或反馈等输入转换为特点向量,并储存在一个记忆单元中,
然后,大模型的解码器都会负责按照记忆单元中的特点向量生成最终的回复。
在对一张张图片,一段段视频的对话问答中,欧姆大模型会将视觉模型和语言模型进行细细度的对齐,让其可以理解人类指令,并合理作答。
这么,这种经过了不同行业视觉数据磨炼的智能体,后来如何了?能在实际场景中诠释实力了吗?
目前,欧姆智能体的主要应用场景,大致分为三类:智慧店长、文档处理、视频剪辑。
假如说,智能体最重要的能力是其是否具备自主剖析、决策的能力,这么我们不妨将欧姆智能体在这三大场景中的表现,与传统手段进行对比,瞧瞧其是否具有了真正意义上的智能体的特点。
3解决“落地恐惧”
简单来说,智慧店长主要就是通过与摄像头视觉信息结合,借助欧姆大模型智能辨识店内发生的一切。
在这方面,传统的摄像头只能提供视频监控的功能,未能对视频画面进行智能剖析、处理、交互和反馈。
而具备了智能体后,智慧店长能够通过与摄像头视觉信息结合,辨识店内发生的一切,并自主决策提示交互信息。
比如实时检测和剖析客流量、客户特点等数据,遇见突发情况时,还看手动报案和处置店内的安全隐患。
在文档处理方面,根据联汇科技的说法,欧姆智能体最大的优势,是可以将专业知识有效集成到向量数据库,并储存记忆,产生专业机器人。
而一个具备了智能体的大模型,与传统的行业垂直类大模型相比,最奇特的优势,是其持续学习和适应能力,而非依赖于静态的数据集。
在这方面,只能说欧姆智能体具备了其持续学习的基础。
由于向量数据库与传统数据库相比,采用灵活的数据结构,如多模态的数据支持,而将不同结构的知识进行整合,正是持续学习的基础。
但其是否真的具备这样的持续学习能力,恐怕还要进局长时间的观察。
而在视频剪辑方面,AIGC小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过AIGC实现媒体视频素材的一键成片。
可以说,这是智能体能力彰显得最直接的一个方面,通过语言理解能力,智能体在剪辑过程中,可以手动根据文案内容,对不同镜头添加愈发细节的视频镜头描述,因而省去了人工制做视频中,冗长的文字与镜头之间的匹配工作。
从上述几点来看,欧姆智能体确实具备了一定的智能体特点,但是,尽管这么,在其商业化落地的过程中,依然会面临不少挑战。
从目前欧姆智能体的落地方向上来看,其本质上走的还是一种“松耦合”的技术路线。
所谓的“松耦合”,简单来说,不同任务分解,通过不同智能体来完成,最后通过大模型来完成手动化调度和协作。
例如语言大模型来学习对话、视觉大模型来辨识地图。
这类智能体,尽管从不像人一样有综合智能,但从成本和可行性上,却能更快落地。
但是,这样的“松耦合”路线,因为技术壁垒并不高,在竞争中很容易受到同类型智能体的挤压,因而造成毛利率不断下滑,以至于技术红利很快走到尽头。
到了那时,一种端到端的,一个大模型能够包办所有的“紧耦合”路线,都会成为行业共同的期许。
但这样一种集合了多种智能,能适应各类任务的智能体,必将蕴涵了更多技术浓度颇高的“硬科技”,而国外团队是否能一一击溃那些难关,仍是个未知数。
本文源自阿尔法工场
免责声明:部分文章信息来源于网络以及网友投稿,本站只负责对文章进行整理、排版、编辑,出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性,如本站文章和转稿涉及版权等问题,请作者在及时联系本站,我们会尽快为您处理。