跳转到内容
简体中文

系统架构

PhysiClaw 分四层:智能体(大脑)、MCP 服务器(翻译官)、 传感器与执行器(摄像头与 GRBL 机械臂),以及手机(保持原样)。

┌───────────────────────────────────────┐
│ AI 智能体(大脑) │
│ Claude Desktop / 任意 MCP 客户端 │
│ 看屏幕 → 做决策 → 调用工具 │
└──────────────────┬────────────────────┘
│ MCP 协议
┌───────────────────────────────────────┐
│ PhysiClaw MCP 服务器(Python) │
│ screenshot_top · screenshot_side │
│ move · tap · swipe · park │
└──────────┬──────────────────┬──────────┘
│ │
USB 摄像头 USB 串口(GRBL)
│ │
▼ ▼
┌──────────────┐ ┌────────────────┐
│ 顶部摄像头 │ │ GRBL 控制板 │
│ 侧向摄像头 │ │ X/Y 龙门 · Z 轴│
└──────────────┘ └──────┬─────────┘
│ 触碰
┌─────────────┐
│ 手机 │
│ (已解锁) │
└─────────────┘

任意 Model Context Protocol 客户端。它以图像形式接收截图,选择高层动作—— 方向与距离、点按、滑动——从不直接给出像素坐标。

一个小型 Python 进程,把硬件暴露为工具。它掌握标定数学 (像素 → 电机步数)、摄像头采集,以及与控制板的串口通信。

  • 顶部摄像头垂直俯视,读取屏幕。
  • 侧向摄像头约 45° 观察,在触碰前检查笔尖。
  • GRBL 控制板驱动 X/Y 龙门和负责下探触控笔的 Z 轴。

完全不动——无 App、无配置文件、无开发者模式。它只会看到一根手指。

链路传输载荷
智能体 ↔ 服务器MCP(stdio)工具调用 + 图像结果
服务器 ↔ 摄像头USB UVCJPEG 帧
服务器 ↔ 控制板USB 串口G-code(GRBL 方言)

继续阅读控制循环,了解这些链路在每次动作中如何循环。