midscene_spp
v0.0.1
Published
<p align="center"> <img alt="Midscene.js" width="260" src="https://github.com/user-attachments/assets/f60de3c1-dd6f-4213-97a1-85bf7c6e79e4"> </p>
Downloads
1
Readme
English | 简体中文
Midscene.js 是一个 AI 操作助手,适用于 Web、Android、自动化和测试。只需用自然语言描述你想做什么,它就能帮你操作网页、验证内容,并提取数据。无论你是想快速体验还是深度开发,都可以轻松上手。
案例
| 指令 | 视频 | | :---: | :---: | | 发布一条 Twitter | | | 用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs | | | 控制地图 App 在 Android 上导航到目的地 | | | 使用 midscene mcp 的方法,浏览页面( https://www.saucedemo.com/ ),进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例 | |
📢 2025 年 4 月:新增支持 Android 自动化
你可以在 Android 设备上使用视觉语言 AI 模型来控制设备,并利用 Midscene.js 的强大功能。只需连接 adb 即可实现这一功能。了解更多详情,请阅读 博客:支持 Android 自动化。
📢 新增支持开源模型 - UI-TARS 和 Qwen2.5-VL(千问)
除了默认的 GPT-4o 模型之外,我们还为 Midscene.js 添加了两个全新推荐的开源模型:UI-TARS 和 Qwen2.5-VL。(没错,全都是开源模型!)它们是专门用于图像识别和 UI 自动化的模型,在 UI 自动化场景中表现尤为出色。了解更多详情,请阅读 选择模型。
💡 特性
- 自然语言互动 👆:只需描述你的目标和步骤,Midscene 会为你规划和操作用户界面。
- UI 自动化 🤖
- Web 自动化 🖥️:通过 Chrome 插件,你可以立即开始体验,无需编写代码。
- Android 自动化 📱:使用 Android Playground 快速体验,或使用 javascript SDK 与 adb 集成。
- MCP 集成 🔗:允许其他 MCP Client 直接使用 Midscene 的能力。了解更多详情,请阅读 MCP 集成。
- 用可视化报告来调试 🎞️:通过我们的测试报告和 Playground,你可以轻松理解、回放和调试整个过程。
- 支持缓存 🔄:首次通过 AI 执行后任务会被缓存,后续执行相同任务时可显著提升执行效率。
- 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
- 理解UI、JSON格式回答 🔍:你可以提出关于数据格式的要求,然后得到 JSON 格式的预期回应。
- 直观断言 🤔:用自然语言表达你的断言,AI 会理解并处理。
✨ 选择 AI 模型
你可以使用多模态 LLM 模型,如 gpt-4o,或者视觉语言模型,如 Qwen2.5-VL,gemini-2.5-pro 和 UI-TARS。其中 UI-TARS 是一个专为 UI 自动化设计的大模型。
更多信息请查看 选择 AI 模型。
👀 与其他工具比较
业界的 UI 自动化工具层出不穷,每个 Demo 都看起来很科幻。Midscene.js 有什么特别之处?
调试体验:你很快就会发现,调试和维护自动化脚本才是真正的痛点。无论模型多么强大,你仍然需要调试过程以确保其保持长期稳定。Midscene.js 提供了可视化报告、内置的 Playground 和 Chrome 插件,以调试整个运行过程。这是大多数开发者真正需要的特性,我们也在持续努力改进调试体验。
开源、免费、部署灵活:Midscene.js 是一个开源项目。它与云服务和模型提供商解耦,你可以选择公共或私有部署。总会有一个适合你的计划。
与 Javascript 集成:你可以永远相信 Javascript 😎
📄 资源
- 官网首页: https://midscenejs.com
- Web 浏览器自动化
- Android 自动化
- API 文档
- 选择 AI 模型
- 配置模型和服务商(e.g. 使用千问模型)
🤝 社区
📝 Credits
我们衷心感谢以下项目:
- Rsbuild 用于构建工具。
- UI-TARS 用于开源代理模型 UI-TARS。
- Qwen2.5-VL 用于开源视觉语言模型 Qwen2.5-VL。
- scrcpy 和 yume-chan 使我们能够通过浏览器控制 Android 设备。
- appium-adb 用于 ADB 的 JavaScript 桥接。
- YADB 用于 YADB 工具,提高了文本输入的性能。
- Puppeteer 用于浏览器自动化与控制。
- Playwright 用于浏览器自动化与控制和测试。
📝 致谢
我们感谢以下项目:
- Rsbuild 用于构建工具。
- UI-TARS 用于开源的 AI 模型 UI-TARS。
- Qwen2.5-VL 用于开源的视觉语言模型 Qwen2.5-VL。
- scrcpy 和 yume-chan 允许我们使用浏览器控制 Android 设备。
- appium-adb 用于 javascript 桥接 adb。
- YADB 用于提高文本输入的兼容性。
引用
如果您在研究或项目中使用了 Midscene.js,请引用:
@software{Midscene.js,
author = {Xiao Zhou, Tao Yu, YiBing Lin},
title = {Midscene.js: Your AI Operator for Web, Android, Automation & Testing.},
year = {2025},
publisher = {GitHub},
url = {https://github.com/web-infra-dev/midscene}
}📝 授权许可
Midscene.js 遵循 MIT 许可协议。
