深度分析 V2M-Zero:以事件曲線實現零配對視訊到音樂的時間同步 研究指出視訊與音樂雖在語義上不同,卻共享可比的時間結構;V2M-Zero 用各模態內相似度產生事件曲線,將其作為時間條件,先在音樂曲線上微調文字到音樂模型,再以視訊曲線於推論時替換,達成無配對資料的時間對齊音樂生成,並在多項基準上展現音質、語義與同步性優勢。