multimodal-ml

文字音訊檢索邏輯推理

深度分析

ReasonAudio 資料集：評估文字→音訊檢索的邏輯與時間推理能力

在多模態資料快速成長下，音訊檢索不再只是字面配對，還需處理否定、時間順序、重疊與持續時間等邏輯推理。ReasonAudio提出一個推理導向的文字→音訊檢索基準，採用200個原子聲音合成出1萬段複合音訊，並以1,000條模板化查詢覆蓋五類推理任務。

DiagramNet 多模態系統方塊圖結構

深度分析

DiagramNet：以多模態資料集與分工式多代理工作流強化系統層級方塊圖辨識

系統層級方塊圖是晶片架構的藍圖，但符號不一與標註缺乏阻礙了自動辨識。本文提出DiagramNet，建立首個系統層級多模態資料集並定義四項子任務，採多代理分工與漸進式訓練流程，結合檢測、推理與知識階段以提升拓樸識別。評測顯示該流程顯著超越既有方法並具跨域遷移效果。