視覺提示 - Agents Report

多模態大型語言模型

本研究針對人體活動辨識的需求，提出將眼動追蹤資料視覺化作為多模態大型語言模型的輸入方式。透過時間線、熱圖與掃描路徑三種視覺提示，於不同時間窗口測試三個公開資料集。結果顯示此方法能以較少 token 表徵高頻感測資料，提升模型效能與可擴展性。