深度分析
Granite 4.0 3B Vision:企業文件視覺語言模型的技術突破與應用
IBM 於 2026 年發布 Granite 4.0 3B Vision,針對企業文件的視覺語言理解進行優化。模型利用 ChartNet 圖表資料集與 DeepStack 多層特徵注入,實現高精度的表格抽取、圖表轉換與鍵值對辨識。測試結果顯示,在 Chart2Summary、PubTables‑V2 等基準上均領先同類模型,預計將加速企業文件自動化流程。
深度分析
IBM 於 2026 年發布 Granite 4.0 3B Vision,針對企業文件的視覺語言理解進行優化。模型利用 ChartNet 圖表資料集與 DeepStack 多層特徵注入,實現高精度的表格抽取、圖表轉換與鍵值對辨識。測試結果顯示,在 Chart2Summary、PubTables‑V2 等基準上均領先同類模型,預計將加速企業文件自動化流程。
DietDelta
研究團隊推出 DietDelta 框架,透過比對餐前與餐後照片,利用視覺語言模型精準估計食物攝入量。該方法捨棄了複雜的深度感測與分割掩碼,改用自然語言提示定位食物並計算重量差異,顯著提升了飲食評估的準確度,為個人化精準營養管理帶來新突破。