多模態大型語言模型 視覺提示結合眼動追蹤:多模態大型語言模型提升人體活動辨識效能 本研究針對人體活動辨識的需求,提出將眼動追蹤資料視覺化作為多模態大型語言模型的輸入方式。透過時間線、熱圖與掃描路徑三種視覺提示,於不同時間窗口測試三個公開資料集。結果顯示此方法能以較少 token 表徵高頻感測資料,提升模型效能與可擴展性。