系统架构
PhysiClaw 分四层:智能体(大脑)、MCP 服务器(翻译官)、 传感器与执行器(摄像头与 GRBL 机械臂),以及手机(保持原样)。
┌───────────────────────────────────────┐│ AI 智能体(大脑) ││ Claude Desktop / 任意 MCP 客户端 ││ 看屏幕 → 做决策 → 调用工具 │└──────────────────┬────────────────────┘ │ MCP 协议 ▼┌───────────────────────────────────────┐│ PhysiClaw MCP 服务器(Python) ││ screenshot_top · screenshot_side ││ move · tap · swipe · park │└──────────┬──────────────────┬──────────┘ │ │ USB 摄像头 USB 串口(GRBL) │ │ ▼ ▼ ┌──────────────┐ ┌────────────────┐ │ 顶部摄像头 │ │ GRBL 控制板 │ │ 侧向摄像头 │ │ X/Y 龙门 · Z 轴│ └──────────────┘ └──────┬─────────┘ │ 触碰 ▼ ┌─────────────┐ │ 手机 │ │ (已解锁) │ └─────────────┘任意 Model Context Protocol 客户端。它以图像形式接收截图,选择高层动作—— 方向与距离、点按、滑动——从不直接给出像素坐标。
MCP 服务器
Section titled “MCP 服务器”一个小型 Python 进程,把硬件暴露为工具。它掌握标定数学 (像素 → 电机步数)、摄像头采集,以及与控制板的串口通信。
传感器与执行器
Section titled “传感器与执行器”- 顶部摄像头垂直俯视,读取屏幕。
- 侧向摄像头约 45° 观察,在触碰前检查笔尖。
- GRBL 控制板驱动 X/Y 龙门和负责下探触控笔的 Z 轴。
完全不动——无 App、无配置文件、无开发者模式。它只会看到一根手指。
| 链路 | 传输 | 载荷 |
|---|---|---|
| 智能体 ↔ 服务器 | MCP(stdio) | 工具调用 + 图像结果 |
| 服务器 ↔ 摄像头 | USB UVC | JPEG 帧 |
| 服务器 ↔ 控制板 | USB 串口 | G-code(GRBL 方言) |
继续阅读控制循环,了解这些链路在每次动作中如何循环。