多模態視覺語言模型

深度分析

IBM於2026年推出Granite4.0 3B Vision，針對企業文件的視覺與語言理解，提供表格抽取、圖表轉譯與語意鍵值對解析等功能，測試在多項基準上領先，模型以LoRA套用於Granite4.0Micro，結合ChartNet與DeepStack，支援Docling串接。

深度分析

全球口腔病負擔高且偏遠地區缺診斷資源。研究提出Pocket-Dentist，將三種牙科影像與五類臨床問題統一為多模態問答基準，並納入效率指標與在地推論考量。在iPhone17Pro上微調後之2B模型達到每樣本4.31秒，本地推論兼顧準確與低延遲。