
AppAgent是一个多模态智能体,由腾讯和德州大学达拉斯分校的研究团队合作开发。它是一种基于大型语言模型的多模态手机用户代理框架,可模拟人类在智能手机上的操作。
AppAgent可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行复杂的任务,与应用程序进行交互。它通过引入一种基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的操作方式是通过直接识别当前手机的界面和用户指令,直接操作手机界面,能像真实用户一样操作手机。
AppAgent的技术原理是什么?
AppAgent的技术原理是基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。
哪些应用程序可以与AppAgent进行交互?
AppAgent可以与多种应用程序进行交互,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具等. 为了展示我们的代理的实用性,我们在10个不同的应用程序中进行了50项任务的广泛测试。请注意,AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。因此,AppAgent可以与任何应用程序进行交互,只要它们在代理的知识库中。
开源地址:https://github.com/mnotgod96/AppAgent
论文地址: https://arxiv.org/abs/2312.13771
项目地址:https://appagent-official.github.io/
数据统计
相关导航

Ai好记是一款AI音视频转录与总结,旨在提升用户的学习和工作效率。提供AI播客总结、AI音视频翻译、AI音视频转图文、AI大纲与思维导图、AI音视频总结等功能,适用于学习、工作与创作者场景。

BrainyPDF
BrainyPDF是一个基于人工智能PDF文档工具,它允许用户与PDF文档进行交流,就像与ChatGPT聊天一样。您可以上传PDF、docx或txt文件,然后向它提问,它会根据文档内容给出答案。这对学生、研究人员和专业人士来说非常有用,因为它可以帮助他们快速理解和获取文档中的信息。

天工AI
天工AI是一款支持搜索、写作、文档分析、画画的全能型AI助手,借助AI技术检索信息、归纳总结、设计排版、智能编辑,一键发布为高质量彩页内容,收获点赞关注。

腾讯问卷
腾讯问卷是什么 腾讯问卷是...

ChatPPT
ChatPPT,是一款在线Chat指令式生成PPT产品。通过简单的对话式输入,即可轻松完成PPT文档在线生成、 […]

Otter.ai
Otter.ai是什么 Otter.ai 是...

通答AI
通答AI是一款企业级人工智能...

Powerpresent AI
AI创建精美的演示稿
暂无评论...