深度分析
安杜里爾與Meta研發軍用擴增實境眼鏡:Lattice整合大型語言模型、眼動與語音操控無人機
安杜里爾與Meta合作試製軍用擴增實境眼鏡,規畫以眼動追蹤、語音與大型語言模型操控無人機與指揮流程,並以Lattice整合多源感測。若量產將改變前線決策與採購格局,但也帶來誤判、續航與供應鏈等重大挑戰。且需在無5G環境下本地運算、抗塵抗爆與長時間續航。
深度分析
安杜里爾與Meta合作試製軍用擴增實境眼鏡,規畫以眼動追蹤、語音與大型語言模型操控無人機與指揮流程,並以Lattice整合多源感測。若量產將改變前線決策與採購格局,但也帶來誤判、續航與供應鏈等重大挑戰。且需在無5G環境下本地運算、抗塵抗爆與長時間續航。
眼動追蹤
隨著生成式人工智慧逐步滲入新聞生產,如何揭露AI使用同時不增加讀者負擔成為設計難題。一項3×2×2混合實驗以眼動追蹤與NASA-TLX比較三種揭露詳度(無標示、一行、詳盡)、兩類新聞(政治與生活)以及AI角色(編輯、部分生成)對注意力與認知負擔的影響。
視覺語言模型
本研究針對胸部X光報告自動化的臨床落差,提出以放射科醫師視線追蹤作為行為先驗的基礎視覺語言模型GazeX。模型在超過30,000個視線關鍵影格與231,835例影像上預訓練,顯著提升報告生成、病灶定位與視覺問答的準確性與可解釋性,並提供檢視軌跡作為驗證依據。
多模態大型語言模型
本研究針對人體活動辨識的需求,提出將眼動追蹤資料視覺化作為多模態大型語言模型的輸入方式。透過時間線、熱圖與掃描路徑三種視覺提示,於不同時間窗口測試三個公開資料集。結果顯示此方法能以較少 token 表徵高頻感測資料,提升模型效能與可擴展性。