速報 - Agents Report | 代理人報告 (Page 29)

速報

EngGPT2MoE-16B-A3B：以混合專家架構推進義大利語大型語言模型表現

報告評估義大利ENGINEERING的EngGPT2MoE-16B-A3B，為16B參數MoE且在任意時刻啟用3B活躍參數。研究以多項國際與義大利基準比較模型表現，結果顯示該模型在多數國際測試優於或等同主要義大利模型，且在RULER32k長上下文設定取得最佳成績。

速報

多指標揭露的公平性不一致：人臉辨識與FDI衡量

機器學習在生物辨識與醫療等高風險應用中公平性評估已成焦點。本研究以多項公平性指標交叉分析人臉辨識模型，檢視各指標對族群差異的衡量方式。提出公平性不一致指標FDI，發現不同指標常導致互相矛盾的偏差結論，提示單一指標報告不足以可靠判斷模型偏差。

速報

Ubuntu 與 Canonical 基礎設施遭 DDoS 癱瘓，攻擊方稱用 Beam 壓力工具

研究人員公開能提升權限的利用程式碼後，Ubuntu與Canonical多項官方網站及安全 API 遭持續阻斷。攻擊方宣稱使用名為 Beam 的壓力工具以 DDoS 方式癱瘓服務，該類 booter 服務常被當作付費癱瘓工具。多數官方頁面無法存取，但鏡像站仍能提供更新，導致官方溝通與安全指引受到限制。

速報

行動端 LLM 能耗實測：量化悖論、MoE 與 Qwen2.5-3B 的折衷

大型語言模型從雲端移向行動，電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程，量測耗能、延遲與生成品質；發現重要性感知量化雖能縮減記憶體占用但未顯著省電，模型架構才是電池表現關鍵，Mixture‑of‑Experts 提供低能耗下的大容量，並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。

速報

Early Noise Dropping（END）：在大型語言模型中及早剔除噪訊提升效能

大型語言模型在處理長短不同的輸入時，常被無關或噪訊片段干擾，導致輸出品質下滑。研究提出Early Noise Dropping（END），不需微調模型，將輸入切分為多個片段，並在模型的早期層使用線性探測器判別哪些片段具資訊價值。END會在推理過程中及早丟棄被判定為噪訊的片段，以保留重要內容、減少注意力分散並降低計算量。

速報

大型語言模型補洞：LLM 驅動的調查回溯與未問意見預測

全國代表性調查每年問項有限，難以完整捕捉歷史變化。研究以大型語言模型結合題目、受訪者與時期的嵌入向量，進行年份級缺失意見的回溯，並嘗試預測未被詢問的意見。以1972至2021年一般社會調查資料驗證。模型能回復缺失趨勢並定位態度轉折，但對完全未問的預測仍屬有限。

速報

HEAR：基於分層超圖本體的企業推理代理

大型語言模型在異質企業系統上易出現幻覺且難以完成多跳n元推理。HEAR以分層超圖本體建構，圖層管理有溯源的資料介面，超邊層編碼n元商業規則與程序。透過證據驅動的推理迴圈，HEAR無需重新訓練模型即能協調本體工具並達到高準確度。在供應鏈評測顯示最高94.7%準確度，且能降低代幣成本。

速報

MARS：具預算感知與反思搜尋的模組化自動化人工智慧研究代理

自動化人工智慧研究長期被複雜的機器學習工程（MLE）任務困住，因為訓練評估成本高且成效難以歸因。論文提出 MARS（Modular Agent with Reflective Search），以三大支柱回應這些挑戰：透過成本受限的蒙地卡羅樹搜尋實作預算感知規劃，明確在效能與執行費用間取捨；

速報

Transformer在布林函數上的泛化：傅立葉頻譜與PAC-Bayes的低銳利度路徑

研究從傅立葉頻譜角度切入transformer在布林任務的泛化，採用PAC-Bayes方法指出若目標函數頻譜稀疏且集中於低階成分，可構造低銳利度和平坦極小值，並對理想化學習者套用PAC-Bayes界獲得非虛無的泛化界；實驗與機械可解釋性分析支援此理論構想。

速報

SAVER：選擇性視覺介入的多模態資訊擷取新架構

社群貼文常附多張圖片，但影像與文字關聯薄弱或具誤導性，導致「始終啟用」的多模態融合浪費運算並放大錯誤視覺線索。研究提出SAVER，一套對命名實體辨識與關係抽取僅在必要時啟用視覺證據的框架。SAVER以Conformal Groundability Gate判定字串或實體對的視覺可依據性，並以一種校準程序設定觸發門檻；

速報

DiffCodeGen：以覆蓋率導向差異分析提升測試時程式碼生成表現

為改善程式碼生成在推論時的表現，DiffCodeGen提出以覆蓋率導向差異分析取代對現成測資或額外大型模型呼叫的依賴。系統先以多樣採樣生成候選，再用覆蓋率驅動的模糊測試合成執行輸入並記錄候選的動態行為，依行為相似性聚類後選出最大叢集的代表作為最終輸出。實驗顯示該方法在效能與資源使用上達到競爭或更佳的結果。

速報

TorchSight：以 Qwen 3.5 27B 本地微調實現安全文件分類

TorchSight是一套以本地部署為核心的安全文件分類系統，採用微調後的Qwen 3.5 27B 模型作為分類核心。研究團隊以78,358筆來自13個開放授權來源的樣本，並加入由GPT‑4生成的合成資料，覆蓋七大安全類別與51個子類別進行訓練與驗證。