26 / 03 / 15

BrowserOS:开源的 AI Agent 浏览器,Y Combinator 投了

BrowserOS ↗ 是一款开源的 AI Agent 浏览器,基于 Chromium 内核,内置了 AI 智能体功能。你可以用自然语言告诉它要做什么,它就会像一个助手一样在浏览器里自动执行任务——抓取网页数据、填表单、发邮件、整理信息,都可以。项目由 Felafax 团队开发,拿了 Y Combinator 的投资,GitHub 上接近 1 万星。

核心功能

BrowserOS AI Agent 界面

  • 自然语言驱动的 AI Agent:在浏览器侧边栏输入一段话描述你想做的事,比如「把 TechCrunch 头条抓下来整理到我的表格里」,BrowserOS 会自动拆解任务、操作网页、完成整个流程。内置 53 个浏览器自动化工具,从点击、滚动、输入到截图、文件下载都支持。

  • 多模型支持:不绑定任何一家 AI。支持 OpenAI、Claude、Gemini、Kimi K2.5、Grok 等主流模型,也可以通过 Ollama 和 LM Studio 接入本地模型,还能通过 OpenRouter 访问 500 多个模型。你用哪家的 API Key 都行。

  • 40+ 应用集成:Gmail、Slack、Notion、Google Calendar、Docs、Sheets 等常用工具都有内置集成,Agent 可以直接跨应用操作,不需要你来回切换。

  • Chrome 扩展兼容:因为是 Chromium 内核,所有 Chrome 扩展都能直接用。从 Chrome 迁移过来几乎零成本——书签、密码、扩展都可以导入。

  • MCP Server 支持:支持 Model Context Protocol,可以作为 MCP Server 供 Claude Code、Gemini CLI、Codex 等工具调用,也能连接外部 MCP 服务。

  • 隐私优先:可以选择本地模型运行,数据不出设备。AI 的上下文权限、记忆功能都可以单独开关,控制粒度很细。

和其他 AI 浏览器有什么不同

现在市面上做 AI 浏览器的不少:ChatGPT 有 Atlas、Perplexity 有 Comet、Google 有 Dia。但这些要么是闭源的,要么深度绑定自家模型。

BrowserOS 的思路不太一样:完全开源,不锁定任何模型提供商。你可以用 OpenAI 的 GPT-4o,也可以换成 Claude,甚至跑本地的开源模型,不花一分钱 API 费用。对于关注数据隐私或者想自己掌控 AI 的人来说,这点比较有吸引力。

另外它不只是在浏览器里嵌一个 AI 聊天窗口,而是真正的 Agent——能理解上下文、拆解多步任务、自动操作页面。比如你说「帮我查一下最近三天 Hacker News 上关于 AI 的帖子,整理成一个表格」,它会自己打开页面、翻页、提取内容、生成表格。

我的使用感受

装上之后第一感觉是:它就是一个正常的浏览器。日常浏览、看视频、登录各种网站,体验和 Chrome 没什么区别。Chrome 扩展也能直接装,迁移成本确实很低。

AI Agent 功能试了几个场景:让它帮我把某个网页的内容摘要发到 Gmail,以及从一个列表页面批量提取数据。简单任务完成得不错,复杂一点的(比如需要登录、多步跳转的)偶尔会卡住,需要手动干预。不过考虑到这是开源项目,迭代速度很快,GitHub 上几乎每周都在发新版本。

收费情况:软件本身完全免费开源。AI 功能的费用取决于你用哪家模型——用 Gemini 有免费额度,Kimi K2.5 也有比较宽裕的免费用量,用本地模型则完全不花钱。只有用 OpenAI、Claude 这些需要按 API 调用付费。

支持 macOS、Windows 和 Linux 三个平台。如果你想要一个能跑 AI Agent 的浏览器,又不想被某家厂商锁定,BrowserOS 值得试试。