26 / 03 / 12

PageAgent:一行代码让网站变身 AI 原生应用

PageAgent ↗ 是阿里巴巴开源的一个网页端 AI 操作员——用一行代码嵌入你的网站,用户就能用自然语言直接「指挥」页面完成操作。它的口号很直白:「你网站里的 AI 操作员」。

PageAgent 功能特性

核心功能

  • 一行代码集成:不需要后端、不需要无头浏览器,一个 <script> 标签引入就能用。比起 Selenium、Playwright 等需要服务器端部署的方案,门槛低了一个数量级。

  • 纯客户端运行:所有操作都在浏览器内完成,页面 DOM 直接读取和操控,数据不经过第三方服务器。隐私敏感的场景也能放心用。

  • 自然语言驱动:用户输入「点击登录按钮」「帮我填好这个表单」这样的指令,PageAgent 自动解析页面结构、定位元素、执行操作。不需要写选择器或脚本。

  • 人机协同确认:内置操作确认界面,AI 每次执行关键动作前会弹出预览,用户可以批准或拒绝。不是全自动黑盒,而是「AI 建议 + 人类拍板」。

  • 兼容多种 LLM:支持 OpenAI、Claude、Qwen(通义千问)、DeepSeek、Gemini、Kimi、GLM,也支持通过 Ollama 接入本地模型。自带 API Key(BYOK)架构,用你自己的 key。

  • Chrome 扩展支持:除了嵌入网页,还提供 Chrome 扩展版本,可以跨标签页操作,适合多页面自动化流程。

  • Bookmarklet 模式:注册为书签栏小工具,在任意网页上一键激活,不需要改动网站代码。

  • 智能表单填写:多步骤的复杂表单,用一句话描述需求就能自动填好。对于 SaaS 产品的用户引导、数据录入场景特别实用。

收费情况:完全开源免费,MIT 协议。官方提供免费 Demo API 供测试(需同意服务条款),正式使用需要自备 LLM API Key。GitHub 上已有 7100+ Star。

我觉得 PageAgent 最有意思的地方在于它的定位——不是替代 Playwright 做自动化测试,而是让普通网站具备 AI 交互能力。想象一下:你做了一个后台管理系统,嵌入 PageAgent 后,运营同事不用学操作流程,直接说「帮我把上周的订单导出成 Excel」,AI 就自动点击筛选、设日期、导出。这种场景对 SaaS 产品的用户体验提升是实实在在的。

纯客户端的架构也是一个亮点。不需要部署额外服务、不需要处理浏览器 session 管理,一个 script 标签搞定。当然局限也有:它基于文本 DOM 解析而非截图识别,碰到 Canvas 渲染或高度动态的页面时可能不够准确。另外 Chrome 扩展目前还不支持 Firefox 等其他浏览器。整体来说,作为阿里开源的项目,完成度相当高,值得开发者试一试。