首页 资讯 娱乐 新闻 旅游 汽车 电影

新闻

你的位置:万博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载 > 新闻 > 欧洲杯体育由于模子本事在已往较为有限-万博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

欧洲杯体育由于模子本事在已往较为有限-万博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

发布日期:2025-07-05 09:14    点击次数:88

欧洲杯体育由于模子本事在已往较为有限-万博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

电影《钢铁侠》中欧洲杯体育,托尼 · 斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他规定多样系统并自动完成任务,曾让无数不雅众惊叹不已。

当今,这么的超等智能助手,终于变成履行了!

跟着多模态假话语模子的爆发式进化,OS Agents横空出世,它们能无缝操控电脑和手机,为你自动措置繁琐任务。

从 Anthropic 的 Computer Use,到苹果的 Apple Intelligence,再到智谱 AI 的 AutoGLM,以及 Google DeepMind 的 Project Mariner,科技巨头们的贪念都指向了澌灭个宗旨:打造实在真义上的操作系统智能助手。

OS Agents 依然不单是是"助手",它们正在改写"东说念主机交互"的游戏章程。

最近,浙江大学联手OPPO、零一万物等十个机构共同梳理了一篇综述著作《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不仅详备解读了 OS Agents 的硬核技巧构造,还清点了它们的评估依次和畴昔挑战。

科技行业的下一个新风口,会是 OS Agents 吗?

OS Agents 生意学术同期迸发

像贾维斯这么的超等 AI 助手,一般被称为OS Agents,它们或者通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI),在诸如电脑或者手机等贪图建设上自动化的完成各样任务。

OS Agents 有强大的后劲改善全球数十亿用户的生计,思象一个寰宇:在线购物、预订差旅等正常行径都不错由这些智能体无缝完成,这将大幅提高手们的生计遵循和坐褥力。

已往,诸如 Siri [ 1 ] 、Cortana [ 2 ] 和 Google Assistant [ 3 ] 等 AI 助手,依然展示了这一后劲。关联词,由于模子本事在已往较为有限,导致这些产物只可完成有限的任务。

红运的是,跟着多模态假话语模子的不断发展,如 Gemini [ 4 ] 、GPT [ 5 ] 、Grok [ 6 ] 、Yi [ 7 ] 和 Claude [ 8 ] 系列模子(排行字据 2024 年 12 月 22 日更新的 Chatbot Arena LLM Leaderboard [ 9 ] ),这一限制迎来了新的可能性。

( M ) LLMs 展现出令东说念主慎重的本事,使得 OS Agents 或者更好地意会复杂任务并在贪图建设上奉行。

基础模子公司和手机厂商近期在这一限制动作同样,举例最近由 Anthropic 推出的 Computer Use [ 10 ] 、由苹果公司推出的 Apple Intelligence [ 11 ] 、由智谱 AI 推出的 AutoGLM [ 12 ] 和由 Google DeepMind 推出的 Project Mariner [ 13 ] 。

其中,Computer Use 哄骗 Claude [ 14 ] 与用户的贪图机顺利互动,不错结束无缝的任务自动化。

与此同期,学术界依然建议了多样依次来构建基于 ( M ) LLM 的 OS Agents。

举例,OS-Atlas [ 15 ] 建议一种 GUI 基础模子,通过跨多个平台概述 GUI 操作数据,大幅更正了模子对 GUI 的操作本事,提高 OOD 任务的发达。

而 OS-Copilot [ 16 ] 则是一种 OS Agents 框架,或者使智能体在少监督情况下结束平庸的贪图机任务自动化,并展示了其在多种应用中的泛化本事和自我更底本事。

△OS Agents 的部分代表性生意产物与学术研究

本文是对 OS Agents 进行的一次全面综述。

领先叙述 OS Agents 的基础,探讨了其要害身分,包括环境、不雅察空间和动作空间,并概述了意会、谋略和奉行操作等中枢本事。

接着,凝视了构建 OS Agents 的依次,重心柔软 OS Agents 限制特定的基础模子和智能体框架的斥地。

随后,著作详备转头了评估公约和基准测试,展示了 OS Agents 在多种任务中的评估款式。

临了,著作商量了刻下的挑战并指出畴昔研究的潜在所在,包括安全与隐痛、个性化与自我进化。

本文旨在梳理 OS Agents 研究的近况,为学术研究和工业斥地提供匡助。

为了进一步鼓吹该限制的转变,团队还选藏了一个开源的 GitHub 仓库,包含 250+ 连系 OS Agents 的论文以相等他干系资源,况兼仍在接续更新中。(都集在著作末尾~)

△OS Agents 基础:要害身分和中枢本事 OS Agents 基础要害身分 ( Key Component )

要结束 OS Agents 对贪图建设的通用规定,需要通过与操作系统提供的环境、输入和输出接口进行交互来完成宗旨。

为高亢这种交互需求,现存的 OS Agents 依赖三个要害身分:

环境(Environment):智能体操作的系统或平台,举例电脑、手机和浏览器。环境是智能体完成任务的舞台,援助粗略单的信息检索到复杂的多要领操作。

不雅察空间(Observation Space):智能体可获得的所有信息边界。这些信息诸如屏幕截图、文本描摹或 GUI 界面结构,是智能体意会环境和任务的基础。举例,网页的 HTML 代码或手机的屏幕截图。

动作空间(Action Space):智能体与环境交互的动作都集。它界说了可奉行的操作,如点击、输入文本、导航操作以至调用外部器具。这使得智能体或者自动化完成任务并优化责任流。

中枢本事 ( Capability )

在 OS Agents 的这些要害身分后,怎么与操作系统正确、有用的交互,这就需要教训 OS Agents 本人各方面的本事。

OS Agents 必须掌抓的中枢本事不错总结为如下三点:

意会(Understanding):OS Agents 领先需要意会复杂的操作环境。无论是 HTML 代码、屏幕截图,照旧屏幕界面中密集的图标和文本信息,智能体都需要通过意会本事索求要害内容,构建对任务和环境的全面解析。这种意会本事是处理信息检索等任务的前提。

谋略(Planning):在职务奉行中,OS Agents 的谋略本事至关着急。谋略本事条款 OS Agents 将复杂任务拆解为多个子任务,并制定操作序列来结束宗旨。同期,它们最佳还要或者据环境变化动态调治筹划,以顺应复杂的操作系统环境,举例动态网页和实时更新的用户屏幕界面。

操作(Grounding):OS Agents 最终需要将谋略转变为具体的、可奉行的操作,举例点击按钮、输入文本或调用 API。这种将谋略"落地"的本事使得它们或者在果然环境中高效完成任务,并结束从笔墨描摹到操作奉行的精确调治。

OS Agents 的构建基础模子 ( Foundation Model )

要构建或者高效奉行任务的 OS Agents ,其中枢在于斥地适配的基础模子。

这些模子不仅需要意会复杂的屏幕界面,还要在多模态场景下奉行任务。

底下是对基础模子的架构与历练政策的详备归纳与总结:

△OS Agents 基础模子:架构、预历练、监督微结伴强化学习

架构(Architecture):咱们将主要的模子架构分为四个类别:1、Existing LLMs:顺利剿袭开源的假话语模子架构,将结构化的屏幕界面信息以文本样式输入给 LLMs,从而使得模子不错感知环境;2、Existing MLLMs:顺利剿袭开源的多模态假话语模子架构,整合文本和视觉处理本事,提高对 GUI 的意会本事,减少文本化视觉信息而形成的特征蚀本;3、 Concatenated MLLMs:由 LLM 与视觉编码器桥接而成,机动性更高,不错字据任务需求遴荐不同的话语模子和视觉模子进行组合;4、Modified MLLMs:对现存 MLLM 架构进行优化调治,以解决特定场景的挑战,如:添加特等模块(高划分率视觉编码器或图像分割模块等),以更细致地感知和意会屏幕界面细节。

预历练(Pre-training):预历练为模子构建打下基础,通过海量数据提高对屏幕界面的意会本事。数据源包括众人数据集、合成数据集;预历练任务障翳屏幕定位(Screen Grounding)、屏幕意会(Screen Understanding)与光学字符识别(OCR)等。

监督微调(Supervised Fine-tuning):监督微调让模子更贴合 GUI 场景,是提高 OS Agents 谋略本事和奉行本事的着急技巧。举例,通过纪录任务奉行轨迹生成历练数据,或哄骗 HTML 渲染屏幕界面细节,提高模子对不同 GUI 的泛化本事。

强化学习(Reinforcement Learning):现阶段的强化学习结束了用 ( M ) LLMs 行为特征索求到 ( M ) LLM-as-Agent 的范式转变,匡助了 OS Agents 在动态环境中交互,字据奖励响应,不断优化决策。这种依次不仅提高了智能体的对都进程,还为视觉和多模态智能体提供了更强的泛化本事与任务适配性。

近期 OS Agents 基础模子的干系论文总结如下:

△OS Agents 基础模子近期研究责任总结智能体框架 ( Agent Framework )

OS Agents 除了需要苍劲的基础模子,还需要搭配上 Agent 框架来增强感知、谋略、缅思和行动本事。

这些模块协同责任,使 OS Agents 或者高效大意复杂的任务和环境。

以下是 OS Agents 框架中四大要害模块的总结归纳:

△OS Agents 框架:感知、谋略、缅思和行动

感知(Perception):感知行为 OS Agents 的"眼睛",通过输入的多模态数据(如屏幕截图、HTML 文档)不雅察环境。咱们将感知细分为:1、文本感知:将操作系统的气象转变为结构化文本描摹,如 DOM 树或 HTML 文献;2、屏幕界面感知:使用视觉编码器对屏幕界面截图进行意会,通过视觉定位(如按钮、菜单)和语义联接(如 HTML 标记)精确识别要害元素。

谋略(Planning):谋略行为 OS Agents 的"大脑",慎重制定任务的奉行政策,不错分为:1、全局谋略:一次生成好意思满筹划并奉行;2、迭代谋略:跟着环境变化动态调治筹划,使智能体或者顺应实时更新的屏幕界面和任务需求。

缅思(Memory):OS Agents 框架的"缅思"部分不错匡助存储任务数据、操作历史和环境气象。缅思分为三个类型:1、里面缅思(Internal Memory):存储操作历史、屏幕截图、气象数据和动态环境信息,援助任务奉行的潦倒文意会和轨迹优化。举例,借助截图解析屏幕界面布局或字据历史操作生成决策;2、外部缅思(External Memory):提供始终常识援助,举例通过调用外部器具(如 API)或常识库获得限制配景常识,辅助复杂任务的决策;3、特定缅思(Specific Memory):聚焦于特定任务的常识和用户需求,举例存储子任务主见依次、用户偏好或屏幕界面交互功能,提供高度针对性的操作援助。此外,咱们还总结了多种缅思优化政策。

行动(Action):咱们将 OS Agents 的行动边界界说为动作空间,这包含操作系统交互的款式,咱们将其细分为三个类别:1、输入操作:输入是 OS Agents 与数字屏幕界面交互的基础,主要包括鼠标操作、触控操作和键盘操作;2、导航操作:使 OS Agents 或者探索和移动于宗旨平台,获得奉行任务所需的信息;3、膨胀操作:冲破了传统屏幕界面交互的松手,为智能体提供更机动的任务奉行本事,举例:代码奉行与 API 调用。

近期连系 OS Agents 框架的论文总结如下:

△OS Agents 框架近期研究责任总结 OS Agents 的评估

在 OS Agents 的发展中,科学的评估起到了要害作用,匡助斥地者沟通智能体在多样场景中的性能。

底下的表格总结了近期连系OS Agents 评估基准的论文:

△OS Agents Benchmark 近期研究责任总结评估公约 ( Evaluation Protocol )

操作系统智能体评估的中枢可总结为两个要害问题:评估经由应怎么进行与需要对哪些方面进行评估。

底下本文将围绕这两个问题,叙述操作系统智能体的评估原则和方针。

评估原则(Evaluation Principle):OS Agents 的评估结合了多维度的技巧依次,提供对其本事与局限性的全面瞻念察,主要分为两种类型:1、客不雅评估(Objective Evaluation):通过标准化的数值方针,评估智能体在特定任务中的性能。举例,操作的准确性、任务的顺利率以及语义匹配的精确度。这么的评估依次能快速且标准化地沟通智能体的性能;2、主不雅评估(Subjective Evaluation):基于东说念主类用户的主不雅感受,评估智能体的输出质料,包括其干系性、当然性、连贯性和全体成果。越来越多的研究也哄骗 ( M ) LLM-as-Judge 来进行评估,从而提高遵循和一致性。

评估方针(Evaluation Metric):评估方针聚焦于 OS Agents 的意会、谋略和操作本事,沟通其在不同任务中的发达。主要包括以下两个方面:1、要领级方针:评估智能体在每一步操作中的准确性,如任务奉行中动作的语义匹配进程、操作准确性等;2、任务级方针:聚焦于所有这个词任务完成情况,包括任务的顺利率和完成任务的遵循。

评估基准 ( Evaluation Benchmark )

为了全面评估 OS Agents 的性能,研究者斥地了多种评估基准,涵盖不同平台、环境树立和任务类别。

这些基准测试为沟通智能体的跨平台顺应性、动态任务奉行本事提供了科学依据。

评估平台(Evaluation Platform):评估平台构建了集成的评估环境,不同平台具有专有的挑战和评估重心,咱们将其主要分为三类:移动平台(Mobile)、桌面平台(Desktop)与网页平台(Web)。

基准树立(Benchmark Setting):该部分将 OS Agents 的评估环境分为两大类:静态(Static)环境和交互式(Interactive)环境,并进一步将交互式环境细分为模拟(Simulated)环境和果然寰宇(Real-World)环境。静态环境适用于基础任务的离线评估,而交互式环境(尤其是果然寰宇环境)更能全面测试 OS Agents 在复杂动态场景中的本色本事。果然寰宇环境强调泛化本事和动态顺应性,是畴昔评估的着急所在。

任务(Task):为了全面评估 OS Agents 的本事,刻下的基准测试整合了多样专科化任务,涵盖从系统级任务(如安设和卸载应用表率)到正常应用任务(如发送电子邮件和在线购物)。主要不错分为以下三类:1、GUI 定位(GUI Grounding):评估 OS Agents 将指示调治为屏幕界面操作的本事,即如安在操作系统中与指定的可操作元素交互;2、信息处理(Information Processing):评估 OS Agents 高效处理和总结信息的本事,尤其在动态和复杂环境中,从大批数据中索求有用信息;3、智能体任务(Agentic Tasks):评估 OS Agents 的中枢本事,如谋略和奉行复杂任务的本事。这类任务为智能体提供宗旨或指示,条款其在莫得显式迷惑的情况下完成任务。

挑战与畴昔

本部分商量了 OS Agents 濒临的主要挑战及畴昔发展的所在,重心聚焦于安全与隐痛(Safety & Privacy)以及个性化与自我进化(Personalization & Self-Evolution)两个方面。

安全与隐痛

安全与隐痛是 OS Agents 斥地中必须意思的限制。

OS Agents 濒临多种裂缝款式,包括波折教唆注入裂缝、坏心弹出窗口和抵抗性指示生成,这些挟制可能导致系统奉行相当操作或泄露明锐信息。

尽管咫尺已有适用于 LLMs 的安全框架,但针对 OS Agents 的小心机制仍显不及。

刻下研究主要聚首于假想有益大意注入裂缝和后门裂缝等特殊挟制的小心决策,急待斥地全面的且可膨胀小心框架,以提高 OS Agents 的全体安全性和可靠性。

为评估 OS Agents 在不同场景下的鲁棒性,还引入了一些智能体安全基准测试,用于全面测试和更正系统的安全发达,举例 ST-WebAgentBench [ 17 ] 和 MobileSafetyBench [ 18 ] 。

个性化与自我进化

个性化 OS Agents 需要字据用户偏好不断调治行径和功能。

多模态假话语模子正冉冉援助意会用户历史纪录和动态顺应用户需求,OpenAI 的 Memory 功能 [ 19 ] 在这一方朝上依然取得了一定进展。

让智能体通过用户交互和任务奉行经由接续学习和优化,从而提高个性化进程和性能。

畴昔将缅思机制膨胀到更复杂的样式,如音频、视频、传感器数据等,从而提供更高档的预测本事和决策援助。

同期,援助用户数据开动的自我优化,增强用户体验。

总结

多模态假话语模子的发展为操作系统智能体(OS Agents)创造了新的机遇,使得结束先进 AI 助手的思法愈加接近履行。

本综述旨在概述 OS Agents 的基础,包括其要害构成部分和本事。

此外,著作还转头了构建 OS Agents 的多种依次,绝顶柔软限制特定的基础模子和智能体框架。

在评估公约和基准测试中,团队成员细致分析了各样评估方针,况兼将基准测试从环境、设定与任务进行分类。

瞻望畴昔,团队明确了需要接续研究和柔软的挑战,举例安全与隐痛、个性化与自我进化等。这些限制是进一步研究的重心。

本综述总结了该限制确刻下气象,并指出了畴昔责任的潜在所在,旨在为 OS Agents 的接续发展孝顺力量,并增强其在学术界和工业界的应用价值与本色真义。

如有相当,接待众人品评指正,作家也暗示,期待诸位同业一又友疏通商量!

论文都集:https://github.com/OS-Agent-Survey/OS-Agent-Survey

名目主页:https://os-agent-survey.github.io/

参考文献:

[ 1 ] Apple Inc. Siri - apple, 2024.   https://www.apple.com/siri/

[ 2 ] Microsoft Research. Cortana research - microsoft research, 2024.   https://www.microsoft.com/en-us/research/group/cortana-research/

[ 3 ] Google. Google assistant, 2024.   https://assistant.google.com/

[ 4 ] Google. Gemini - google.   https://gemini.google.com/

[ 5 ] OpenAI. Home - openai.   https://openai.com/

[ 6 ] xAI. x.ai.   https://x.ai/

[ 7 ] 01.AI. 01.ai.   https://www.lingyiwanwu.com/

[ 8 ] Anthropic. Anthropic.   https://www.anthropic.com/

[ 9 ] Chatbot arena: An open platform for evaluating llms by human preference, 2024.   https://arxiv.org/abs/2403.04132

[ 10 ] Anthropic. 3.5 models and computer use - anthropic, 2024a.   https://www.anthropic.com/news/3-5-models-and-computer-use

[ 11 ] Apple. Apple intelligence, 2024.   https://www.apple.com/apple-intelligence/

[ 12 ] Autoglm: Autonomous foundation agents for guis.   https://arxiv.org/abs/2411.00820

[ 13 ] Google DeepMind. Project mariner, 2024.   https://deepmind.google/technologies/project-mariner/

[ 14 ] Anthropic. Claude model - anthropic, 2024b.   https://www.anthropic.com/claude

[ 15 ] Os-atlas: A foundation action model for generalist gui agents.   https://arxiv.org/abs/2410.23218

[ 16 ] Os-copilot: Towards generalist computer agents with self-improvement.   https://arxiv.org/abs/2402.07456

[ 17 ] St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024.   http://arxiv.org/abs/2410.06703

[ 18 ] Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024.   https://arxiv.org/abs/2410.17520^Memory   and new controls for ChatGPT.   https://openai.com/index/memory-and-new-controls-for-chatgpt/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 名目主页都集,以及连系款式哦

咱们会(尽量)实时修起你

点这里� � 柔软我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~