最后,论文用了一个思路:把光标当成一个「视觉对象」来处理。具体做法是用 SVG 在每一帧的光标位置渲染一个小箭头,生成对应的 mask 和参考帧,让模型学习「光标在画面上长什么样、在哪里」。
原因很简单。我的 OpenClaw 跑在一台笔记本上。笔记本一旦关机或者合上机盖,OpenClaw 的网关进程就会休眠,飞书上给它发消息也不会有任何回应,相当于直接下线了。这就是用笔记本而非 Mac mini ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果