X+Slides:以受眾為條件的投影片生成基準測試

自動從原始文件產生簡報是大型語言模型的重要應用。過往測試多聚焦投影片完整度與技術深度,卻忽略受眾需求差異。研究團隊推出 X+Slides 基準,涵蓋 113 個主題與七種簡報情境,利用 8,133 筆去重且與來源文件對應的探測題,為不同受眾賦予效用權重,進而計算四項指標:受眾覆蓋率、領域覆蓋率、效率與正確性。

X+Slides投影片基準測試

研究動機

自動從文件產出投影片是大型語言模型(LLM)的一項重要應用。但現有的基準測試大多只評估投影片的完整度與技術深度,忽略了受眾差異。專家需要嚴謹的證明,決策者則偏好可直接採取的結論,這在真實情境中相當關鍵。

X+Slides 基準概述

X+Slides 針對受眾條件化的投影片生成設計基準,資料集覆蓋 113 個主題與七種簡報情境。基準使用 8,133 筆去重且與來源文件對應的探測題(probe),並為相同探測題賦予不同受眾的效用權重,產出四項互補指標:

  • 受眾覆蓋率(Audience Coverage):衡量投影片傳遞受眾必備資訊的程度。
  • 領域覆蓋率(Domain-wise Coverage):顯示哪些資訊類型被涵蓋。
  • 效率(Efficiency):每單位注意力成本所產生的效用。
  • 正確性(Correctness):驗證投影片主張是否得到來源支撐。

實驗結果

在 DeepPresenter、SlideTailor 與 NotebookLM 三個系統上進行測試。以受眾效用門檻 τ_A=0.7 為例,DeepPresenter 的最高受眾覆蓋率為 0.714,SlideTailor 為 0.594,NotebookLM 的消融實驗則達到 0.853,且顯示出明顯的來源依據差異。結果顯示,即使視覺品質優秀,系統仍未完整捕捉受眾必備資訊,必須以來源對應的評估來驗證投影片內容。

結論與未來方向

本研究提出的 X+Slides 基準提供了受眾條件化的評估框架,提醒研究者在開發投影片生成模型時,不能僅以視覺效果或主題廣度作為唯一指標,必須加入來源依據的驗證,以提升實務應用的可信度與效用。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more