当前主流的 Lip-to-Speech (L2S) 模型仅通过嘴唇动作预测语音,生成的声音往往机械、缺乏情感(平铺直叙)。 本项目旨在实现一个“情感感知”的跨模态生成系统: 输入一段“无声的面部视频”,系统需同时提取 “唇部运动特征(决定说了什么内容)” 和 ...