text-audio-retrieval - Agents Report

深度分析

在多模態資料快速成長下，音訊檢索不再只是字面配對，還需處理否定、時間順序、重疊與持續時間等邏輯推理。ReasonAudio提出一個推理導向的文字→音訊檢索基準，採用200個原子聲音合成出1萬段複合音訊，並以1,000條模板化查詢覆蓋五類推理任務。