眼動追蹤 - Agents Report

深度分析

安杜里爾與Meta合作試製軍用擴增實境眼鏡，規畫以眼動追蹤、語音與大型語言模型操控無人機與指揮流程，並以Lattice整合多源感測。若量產將改變前線決策與採購格局，但也帶來誤判、續航與供應鏈等重大挑戰。且需在無5G環境下本地運算、抗塵抗爆與長時間續航。

眼動追蹤

隨著生成式人工智慧逐步滲入新聞生產，如何揭露AI使用同時不增加讀者負擔成為設計難題。一項3×2×2混合實驗以眼動追蹤與NASA-TLX比較三種揭露詳度（無標示、一行、詳盡）、兩類新聞（政治與生活）以及AI角色（編輯、部分生成）對注意力與認知負擔的影響。

視覺語言模型

本研究針對胸部X光報告自動化的臨床落差，提出以放射科醫師視線追蹤作為行為先驗的基礎視覺語言模型GazeX。模型在超過30,000個視線關鍵影格與231,835例影像上預訓練，顯著提升報告生成、病灶定位與視覺問答的準確性與可解釋性，並提供檢視軌跡作為驗證依據。

多模態大型語言模型

本研究針對人體活動辨識的需求，提出將眼動追蹤資料視覺化作為多模態大型語言模型的輸入方式。透過時間線、熱圖與掃描路徑三種視覺提示，於不同時間窗口測試三個公開資料集。結果顯示此方法能以較少 token 表徵高頻感測資料，提升模型效能與可擴展性。