深度分析
結合音訊、歌詞嵌入與大型語言模型的多模態音樂推薦框架
本研究針對音樂串流的序列推薦問題,打造結合音訊、歌詞嵌入與LLM生成語意標註的多模態框架,並加入聆聽完成率作為行為信號。實驗在LastFM-1K資料集顯示,融合內容特徵後Recall提升至95%、NDCG提升至79%,同時指出簡單融合未必帶來加成,跨模態對齊仍具挑戰。
深度分析
本研究針對音樂串流的序列推薦問題,打造結合音訊、歌詞嵌入與LLM生成語意標註的多模態框架,並加入聆聽完成率作為行為信號。實驗在LastFM-1K資料集顯示,融合內容特徵後Recall提升至95%、NDCG提升至79%,同時指出簡單融合未必帶來加成,跨模態對齊仍具挑戰。
深度分析
研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入,並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績,模型對點雲注意力偏低且在細緻關係推理上表現有限,指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。
深度分析
多模態數學推理受關注,但模型常誤讀圖示或對齊失誤,導致推理不一致。研究提出結構化感知、顯式對齊與可驗證推理的統合框架,改善中間步驟評估。此方向或重塑 AI 數學教育與應用格局。
InstrAct
隨著教學影片日益增多,細粒度動作辨識仍具挑戰。InstrAct 以資料過濾、硬負樣本與 Action Perceiver 抽取運動特徵,並加入 DTW 對齊與遮蔽動作建模輔助目標。實驗證明其在語意推理、程序邏輯與細粒度檢索上優於現有模型,提升影片動作理解。
跨模態對齊
研究聚焦於獨立預訓練的視覺與語言編碼器跨模態對齊,使用功能映射框架分析譜幾何。發現兩模型譜相似但特徵基底未對齊,對角占優度低且正交誤差高。此譜複雜度‑方向差距揭示跨模態對齊的結構限制。