跳转到内容

安装软件

PhysiClaw 的软件就是一个叫 physiclaw 的命令行工具,跑起来只需四条命令:安装、检查环境、 拉取本地视觉模型、启动服务。目前官方支持的平台是 macOS;其他系统真正的区别只有串口名称,而那个 名字向导会替你找出来。

一条脚本装好一切——uv、Python 3.12 和 physiclaw CLI——全部隔离在 ~/.local/bin 下, 绝不碰你系统里的 Python:

bash
curl -fsSL https://raw.githubusercontent.com/physiclaw/PhysiClaw/main/install.sh | bash

装完后,physiclaw 就在你的 PATH 里了。确认一下:

bash
physiclaw --version

如果 shell 找不到这条命令,开一个新的终端(让更新后的 PATH 生效)再试一次。

physiclaw doctor 是一次只读的健康检查——它绝不改动任何东西。它会打印 Python 版本、你的配置 路径、视觉模型是否就位、它能看到哪些硬件,以及一份编号的「接下来该做什么」清单。

bash
physiclaw doctor

刚装好时,它会标出两样缺失的东西——视觉模型,以及一个正在运行的服务。这很正常;接下来两步会把这两样 都补齐。任何时候觉得哪里不对劲,都可以再跑一次 doctor;它是一眼看清整套系统状态最快的方式。

PhysiClaw 用一个小巧的图标检测模型来读屏,这个模型跑在你自己的机器上。只需拉取一次:

bash
physiclaw setup local-vision-model

这会下载约 100 MB 并把它转换成快速推理格式。转换过程会在一个用完即弃的环境里临时借用一些大块头依赖, 成功后立刻删掉,所以你的安装始终保持精简——只有转好的成品模型会留下来。

为什么用本地模型,而不是云端 API?

隐私

你手机屏幕的每一帧都在你自己的机器上处理。消息、银行、账户的截图,永远不会离开你的桌面。

离线又快

每次「看」都不必走一趟网络。检测器在本地运行,所以即便网络时好时坏,一次 peek 仍能稳定在 ~4 秒上下。

bash
physiclaw server

这会在端口 8048 上启动 MCP 服务,并在浏览器里打开设置向导。让这个 shell 一直开着——正是这个 进程占着串口和摄像头,并和你的手机通信。首次启动时,它会打印出(除别的之外):

PhysiClaw MCP server on http://localhost:8048/mcp
QR code (scan with phone): http://localhost:8048/api/bridge/qr

它打开的那个浏览器窗口,就是硬件设置向导。你可以在那里完成设置,也可以在第二个终端里做——两者效果完全 一样,校准 会带你一步步走完。

PhysiClaw 说的是 MCP(Model Context Protocol)——AI agent 调用外部工具的标准方式。任何 MCP 客户端(Claude Desktop、IDE,或你自己的脚本)都连到同一个端点:

http://localhost:8048/mcp

校准完成后,客户端就能看到 PhysiClaw 的各种工具——peektapswipe 等等——并开始操作手机。 第一个任务 会接好一个客户端,从头到尾跑通一遍。

PhysiClaw 会自动检测机械臂的 USB 串口,所以你很少需要知道它的名字。当某个排障步骤确实要你提供时, 不同系统格式各异:

/dev/tty.usbserial-XXXX(或 /dev/tty.usbmodemXXXX)。用 ls /dev/tty.usb* 列出候选项。