深度分析
ReasonAudio 資料集:評估文字→音訊檢索的邏輯與時間推理能力
在多模態資料快速成長下,音訊檢索不再只是字面配對,還需處理否定、時間順序、重疊與持續時間等邏輯推理。ReasonAudio提出一個推理導向的文字→音訊檢索基準,採用200個原子聲音合成出1萬段複合音訊,並以1,000條模板化查詢覆蓋五類推理任務。
深度分析
在多模態資料快速成長下,音訊檢索不再只是字面配對,還需處理否定、時間順序、重疊與持續時間等邏輯推理。ReasonAudio提出一個推理導向的文字→音訊檢索基準,採用200個原子聲音合成出1萬段複合音訊,並以1,000條模板化查詢覆蓋五類推理任務。
深度分析
系統層級方塊圖是晶片架構的藍圖,但符號不一與標註缺乏阻礙了自動辨識。本文提出DiagramNet,建立首個系統層級多模態資料集並定義四項子任務,採多代理分工與漸進式訓練流程,結合檢測、推理與知識階段以提升拓樸識別。評測顯示該流程顯著超越既有方法並具跨域遷移效果。