深度分析 Sentinel:利用注意力探測與 logistic 回歸實現 LLM 上下文壓縮的輕量方案 Retrieval‑augmented Generation 需要長篇上下文,Sentinel 透過 0.5B 代理模型的解碼注意力,使用輕量分類器挑選相關句子,實現最高 5 倍壓縮,且在 LongBench 上的 QA 成效與 7B 壓縮系統相當,證明小模型亦能提供有效的上下文過濾。