跳转到内容

为什么需要一个身体?

PhysiClaw 是一台用触控笔点手机的桌面机器人。在动手搭一台之前,值得先问一个再明显不过的问题:为什么非得要一台机器? 一台相机、一条 CoreXY 机械臂、一支接了地的触控笔——就为了按几下按钮,这堆硬件未免太多了。难道软件做不到吗?

做不到。这一页就是要讲清楚 PhysiClaw 为什么非得是个实体——不讲怎么搭,只讲一个身体为什么非存在不可。

如果你是从 OpenClaw 一路走来的,你已经给过一个助理软件内部的双手:它在一块自己所驻留、且早已登录的屏幕上操作各种应用。所以你会很自然地觉得,这整个问题就是个软件问题——伸进应用里去,调它们的服务,把数据拿出来。

你拿不出来。而你拿不出来的原因,正是这一切的关键。

每一个值得自动化的服务——Amazon、淘宝、Uber Eats、美团、你的银行、你的外卖应用——都躲在一堵墙后面。墙里的数据,是它们最值钱的资产,也守得最紧。它们没有任何理由为你的助理开一扇门,却有一万个理由把门关死。一个能让外部助理在它们的服务里自由游走的开放 API,正是它们最不可能推出的东西——而你最想要的那些应用里,很多压根就没有公开 API。

所以,再聪明的软件花招也翻不过去。任何想从正门伸手进去的助理,都会跟所有人一样,撞上同一堵墙——而这堵墙由三层砌成,每一条纯软件的路线,最终都会撞上其中之一:

  • API 与 OAuth 需要逐个应用做集成,还要拿到对方的同意——而价值最高的那些应用两样都不给。
  • 无障碍与自动化钩子 可以被检测、被封锁,并且在应用下一次改版时就失效。
  • 越狱或 root 既脆弱又不安全,每次系统更新都成了一个移动靶。

在可预见的未来,没有谁会把那些主宰你日常生活的服务,免费、开放地交到你的助理手上。

既然穿不过这堵墙,那就绕过去——从那扇他们唯一锁不上的门走。

那扇门,就是屏幕。就是人用手指去点的那个界面。他们可以关掉自己的 API,却没法把应用本身也对自家用户关上。那些人们每天都在触碰的按钮、菜单、界面,必须一直开着——把它们关了,他们的生意也就没了。

所以,PhysiClaw 走的正是这扇门。它像人一样操作手机:用相机当眼睛,用电磁铁驱动的触控笔当手指,用屏幕本身当 API。凡是人能用手做到的,它也用手去做——通过一模一样的界面,以一模一样的方式。

一支触控笔的笔尖触碰玻璃,不属于上面任何一堵墙。没有东西可集成,没有东西可检测,没有东西可越狱。在手机看来,笔尖与一根指尖毫无区别——这正是触控笔要接地的原因,这样触碰才会真正被识别。因为它看起来就像一根手指,所以任何应用都能用:iOS 也好,Android 也好,无需逐个应用做设置,手机上也不用装任何东西。

这就是 OpenClaw,被推到了玻璃之上

Section titled “这就是 OpenClaw,被推到了玻璃之上”

如果你用过 OpenClaw,那你早已认同其中的核心理念:让助理去用人类的界面,而不是走一道特殊的后门。PhysiClaw 就是同一个理念,再往外推了一步。

  • OpenClaw 给了助理软件内部的双手——一块它早已驻留、也早已登录的屏幕。
  • PhysiClaw 给了它物理世界里的双手——一支真实的触控笔,操作一部它从未登录过、从未安装过任何东西、也从未拥有过账号的真实手机。

正是这个身体,让助理彻底摆脱了”必须住在目标设备里”的前提。它不再需要身处手机之中,才能使用手机。

我们不会假装这是免费的。

软件几毫秒就能完成的任务,PhysiClaw 要花上几分钟。每一个动作都是一个完整的 看 → 决策 → 移动 → 检查 循环(参见 工作原理):看一眼屏幕,驱动触控笔,点击,然后再看一眼确认它真的生效了。没有捷径——这份慢,是结构性的。

而搭建过程也是实打实的。不是一个下午就能搞定,也不是一套到货即装好的套件。这是一个跨越数天、纯手工搭建的 CoreXY 项目:真金白银(零件约 145 美元),实打实地花时间切割、攻丝、布线,还要实打实地调校同步带、导轨和电磁铁。这些你都会亲身经历。

这就是代价。而下面是它换来的东西。

谁也无法收回的访问权。

那堵墙完全是用软件砌成的——权限、令牌、服务条款。这一切都可以在任何时刻被更改、被限速、被切断。而一只手不行。你没法阻止一只手去触碰屏幕。

所以 PhysiClaw 走得慢,作为回报,它哪儿都去得了。它用速度,换来了耐久与触达。这台机器,就是这笔交易的物理化身——那些工时、那支接了地的触控笔、那条标定过的机械臂,为的正是这个。

这正是 PhysiClaw 长成现在这副样子的原因——每一个部件,都是有意被放在墙的人类这一侧的:

  • 俯拍相机 是眼睛——它读取屏幕,不需要任何形式的软件访问权。
  • 电磁铁 + 电容触控笔 是那根手机分辨不出与人手区别的手指(已接地,所以触碰才会真正被识别)。
  • CoreXY 机械臂 + 标定好的 pct_to_grbl 仿射变换 把”点一下这个框”变成一次真正落在真实玻璃上、毫米级精准的触碰。

这里没有任何一处是穿墙而过的。每个部件存在的意义,都是为了让整套操作停留在墙的外侧——那里,门一直开着。

既然你已经明白这个身体为什么非存在不可,下一页就讲它究竟是怎么操作手机的:那个把一个目标变成屏幕上真实点击的 看 → 决策 → 移动 → 检查 循环。