1 月 23 日,智谱宣布自主操作电脑的多模态 Agent — GLM-PC 开放体验。
据了解,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。
本次 GLM-PC 升级推出「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。新版 GLM-PC 将借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合。
据悉,GLM-PC 的「左脑」部分负责代码生成与逻辑执行,具有规划、循环执行、长思考能力(动态反思、纠错与优化)等功能;而「右脑」部分负责图像与 GUI 认知,专注于深度感知与交互体验,支持 GUI 图像理解、用户行为认知、图像语义解析等功能。
「左右脑」还支持协作,使 GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。
目前,新版 GLM-PC 已上线其官网并支持下载体验,本次更新智谱还提供了对 Windows 系统的支持。此外,为促进预训练 GUI Agent 的研究,智谱于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。
CogAgent-9B-20241220:
论文:Hong et al. "Cogagent: A visual language model for gui agents." (CVPR 2024 Highlight 🏆)
博客:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
Huggingface:https://huggingface.co/THUDM/cogagent-9b-20241220
下载&体验:https://cogagent.aminer.cn
(文/开源中国)