生成式AI
Moshi 基礎模型揭露生成式 AI 研發全流程的環境足跡與減碳建議
隨著多模態大型語言模型快速迭代,環境衝擊成為關注焦點。本研究以 Kyutai 開發的 Moshi 基礎模型為例,細分 GPU 計算時間、實驗失敗與除錯階段,並以全生命週期評估量測能源、水資源與碳排放。結果顯示,完整研發過程的環境成本遠高於僅計算最終訓練的碳足跡,提供降低計算與永續研發的具體建議。
生成式AI
隨著多模態大型語言模型快速迭代,環境衝擊成為關注焦點。本研究以 Kyutai 開發的 Moshi 基礎模型為例,細分 GPU 計算時間、實驗失敗與除錯階段,並以全生命週期評估量測能源、水資源與碳排放。結果顯示,完整研發過程的環境成本遠高於僅計算最終訓練的碳足跡,提供降低計算與永續研發的具體建議。
CSPO
表格影像轉 LaTeX 時常因獎勵模糊化失真。CSPO 為結構、樣式、內容分別給予獎勵,僅回傳至相關 token,降低干擾。實驗證明其在三大指標上均優於傳統 RL,提升生成可靠性。
Category-Wise Contrastive Decoding
胸部 X 光解讀因解剖結構重疊與病變表徵微弱而具挑戰性。研究者提出類別對比式解碼(CWCD),利用類別特化視覺提示對正常與遮蔽影像進行對比生成報告。實驗證明 CWCD 在臨床與語言指標上均優於既有模型,提升結構化醫學報告品質。
多模態大型語言模型
產業分類傳統依賴人工成本高,MONETA 以網站、維基、Wikidata 與 OpenStreetMap、衛星影像結合多模態資源,建立 1,000 家歐洲企業的基準。使用多模態大型語言模型在無訓練情況下達 62.10%~74.10% 準確,加入多輪設計與說明可提升最高 22.80%。此成果將促進產業分類自動化與資料庫更新效率。
多模態大型語言模型
隨著多模態大型語言模型在自然影像領域表現突出,高光譜遙測的理解仍缺乏系統測試。研究者推出 HM-Bench,提供 19,337 答案對,涵蓋 13 類任務,並以 PCA 影像與文字報告雙模態評估。測試發現模型在光譜空間推理上表現不佳,視覺輸入效果較佳,突顯光譜證據的重要性。
多模態大型語言模型
隨著海上視覺應用需求增加,缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準,採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境,涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足,突顯海事 AI 的挑戰與未來方向。