最后,论文用了一个思路:把光标当成一个「视觉对象」来处理。具体做法是用 SVG 在每一帧的光标位置渲染一个小箭头,生成对应的 mask 和参考帧,让模型学习「光标在画面上长什么样、在哪里」。