Browser Use

Browser Use是一款基于 Python 的开源浏览器自动化工具,连接 AI 大语言模型与浏览器控制,使 Agent 能够自主完成网页操作任务。项目在 GitHub 获得 84,000+ 星标,被众多世界 500 强企业信赖使用。平台提供开源自托管和云端托管两种部署方式,支持自然语言驱动的浏览器自动化。
点击访问 手机查看qrcode
分享到:

Browser Use 是什么?

Browser Use 是一个革命性的 AI 驱动浏览器自动化平台,其使命是"让 AI Agent 能够访问网站,轻松在线自动化任务"。该项目在 GitHub 上已获得 84,000+ 星标,是目前最热门的 AI 自动化项目之一。

平台的核心价值在于将大语言模型(LLM)与浏览器自动化无缝结合,用户只需用自然语言描述任务目标,AI 即可自动分析网页、执行操作、提取数据。Browser Use 支持多种 LLM 提供商(OpenAI、Google、Anthropic 等),并提供专为其优化的 Browser Use 2.0 模型,比通用模型快 6 倍、成本低 15 倍。

browseruse_web_home.webp

Browser Use 的核心功能或服务

  1. AI 驱动浏览器控制:使用大语言模型让 AI Agent 自动理解网页、点击元素、填写表单、导航页面。

  2. 多模型支持:支持 OpenAI、Google Gemini、Anthropic Claude 等主流 LLM,以及 Browser Use 自研的优化模型。

  3. 自然语言任务描述:用户用日常语言描述目标,如"在 Amazon 上找最便宜的 USB 数据线并加入购物车",AI 自动执行。

  4. 云端浏览器服务:Browser Use Cloud 提供隐身浏览器、代理轮换、验证码处理等企业级功能。

  5. 会话与状态管理:支持持久化登录状态、Cookie 管理,便于执行多步骤工作流程。

  6. 技能扩展系统:支持创建和安装自定义技能,增强 Agent 在特定场景下的能力。

  7. MCP 与集成支持:支持 Model Context Protocol 服务器,提供 OpenClaw、n8n、Playwright 等官方集成。

Browser Use 的适用场景

  1. 网页数据采集:自动化抓取电商价格、新闻资讯、竞品信息等结构化数据。

  2. 表单自动填写:批量填写注册表单、订单信息、问卷调查等重复性工作。

  3. 业务流程自动化:自动化执行跨系统的业务流程,如订单处理、数据同步。

  4. 测试与监控:自动化 Web 应用测试、网站可用性监控、页面变化检测。

  5. 个人助理任务:如自动订票、比价购物、信息订阅等日常任务自动化。

如何使用 Browser Use

开源版使用方式

  1. 环境安装
uv init && uv add browser-use && uv sync playwright install
  1. 基础代码示例
from browser_use import Agent, Browser, ChatBrowserUse import asyncio async def main(): browser = Browser() agent = Agent( task="查找 browser-use 仓库的星标数量", llm=ChatBrowserUse(), browser=browser, ) await agent.run() asyncio.run(main())
  1. CLI 快速操作
browser-use open https://example.com # 导航到 URL browser-use state # 查看可点击元素 browser-use click 5 # 按索引点击元素 browser-use screenshot page.png # 截图

云端版使用方式

  1. 访问官网:前往 https://browser-use.com/ 注册账号。

  2. 获取 API Key:在控制台创建 API 密钥用于调用云端服务。

  3. 配置模型:选择 Browser Use 2.0 或其他支持的模型。

  4. 发送任务:通过 API 或 SDK 发送自然语言任务描述,获取结构化结果。

Browser Use 的价格

开源版(免费)

  1. 核心库:完全免费,MIT 开源许可。

  2. 自行部署:需自行准备服务器、代理等基础设施。

  3. 社区支持:通过 GitHub Issues 和 Discord 社区获取帮助。

云端版(按量付费)

  1. AI 智能体任务

    • 任务初始化:$0.01/次
    • Browser Use 2.0 模型:$0.006/步
    • Gemini Flash Latest:$0.0075/步
    • Claude Sonnet 4.5/4.6:$0.05/步
  2. 浏览器会话

    • 按量付费:$0.06/小时
    • 企业用户:$0.03/小时(50% 折扣)
  3. 技能费用

    • 技能创建:$2.00/个(企业用户 $1.00)
    • 技能执行:$0.02/次调用(企业用户 $0.01)
  4. 代理服务

    • 按量付费:$10/GB
    • 企业用户:$4-5/GB

Browser Use 常见问题

  1. 开源版和云端版有什么区别?

开源版需自行部署和维护基础设施,适合深度定制场景;云端版提供托管服务,开箱即用,具备隐身、代理等企业级功能。

  1. 是否需要编程基础?

基础使用需要 Python 编程知识,但 CLI 工具支持简单的命令行操作。云端版提供更友好的无代码体验。

  1. 支持哪些浏览器?

基于 Playwright 框架,支持 Chromium、Firefox、WebKit 等主流浏览器引擎。

  1. 如何处理验证码和反爬?

云端版提供自动验证码处理、浏览器指纹伪装、住宅代理等反检测能力。

  1. 数据安全如何保障?

开源版数据完全自主可控;云端版提供企业级安全方案,支持零数据保留和 HIPAA 合规。

版权声明
© 本平台所有原创内容著作权均归属AI吧所有。未经允许不得以任何形式转载、复制等。

相关站点

Cursor logo

Cursor

Cursor是一款AI代码编辑器,旨在让开发者获得超凡的生产力。它不仅仅是一个代码编辑器,更是AI编程助手,能够通过自然语言指令编写或修改代码。Cursor使用定制化模型与前沿模型混合驱动,既聪明又快速,支持导入所有扩展、主题和快捷键绑定。
Gemini logo

Gemini

Gemini是由Google开发的先进多模态AI模型系列,不仅拥有强大的文本理解和生成能力,还能处理图像、视频、音频等多种数据类型。作为Google的旗舰AI产品,Gemini旨在提供更智能、更人性化的交互体验,超越传统的单模态AI模型。
Claude logo

Claude

Claude是由Anthropic公司开发的高级人工智能助手,以其强大的语言理解能力、安全性和符合人类价值观的设计而著称。Claude能够进行自然流畅的对话,理解复杂的语言表达,并在多个领域提供实用帮助。
Anthropic logo

Anthropic

Anthropic是专注AI领域的领先企业,核心产品Claude系列覆盖文本生成、代码编写、多模态解析等场景,支持企业级API集成与定制化服务。其技术以 高性能模型、安全隐私、开发者友好为特色,已服务金融、医疗、教育等行业。
ChatGPT logo

ChatGPT

ChatGPT是由OpenAI开发的先进人工智能聊天机器人,基于GPT系列大语言模型技术。它能够进行自然流畅的对话,理解和生成高质量文本,在多个领域提供实用帮助。最新版本GPT-4o支持多模态输入输出,具备更强的多媒体处理能力。
Dify logo

Dify

Dify是一个开源的生成式AI应用开发平台,融合了后端即服务(Backend as Service)和LLMOps的理念,旨在帮助开发者更简单、更快速地构建和运营AI原生应用。平台支持多种主流大语言模型,提供直观的提示编排界面、高质量的RAG引擎和灵活的AI代理框架。
豆包MarsCode logo

豆包MarsCode

MarsCode是字节跳动旗下豆包推出的免费AI编程助手(现已集成到Trae中),提供以智能代码补全为代表的AI功能。该工具支持主流的编程语言,包括Python、JavaScript、TypeScript、Java、Go等,并提供云端IDE版和VS Code、JetBrains等编辑器扩展。
Google AI Studio logo

Google AI Studio

Google AI Studio是谷歌推出的免费、基于Web的开发工具,旨在让开发者能够快速、轻松地使用谷歌最先进的生成式AI模型——Gemini系列模型——进行原型设计和实验。

微信红包封面

2026新年快乐open icon

2026新年快乐

2026新年快乐open icon

2026新年快乐

2026新年快乐open icon

2026新年快乐

2026新年快乐open icon

2026新年快乐

2026新年快乐open icon

2026新年快乐

2026新年快乐open icon

2026新年快乐