速報
CT‑IDP:以超過900項表型量化腹部 CT 的新框架
研究利用大規模腹部CT資料建立CT‑IDP影像表型框架。以TotalSegmentator分割多器官,萃取逾900項形態與密度等描述。使用彈性網路稀疏邏輯回歸訓練並凍結規格外部驗證。CT‑IDP在三資料集上宏觀AUC優於視覺變換器基線,顯示穩健性。
速報
研究利用大規模腹部CT資料建立CT‑IDP影像表型框架。以TotalSegmentator分割多器官,萃取逾900項形態與密度等描述。使用彈性網路稀疏邏輯回歸訓練並凍結規格外部驗證。CT‑IDP在三資料集上宏觀AUC優於視覺變換器基線,顯示穩健性。
速報
AI生成影像日益逼真,使以照片為憑的退貨申訴出現新型詐欺。FraudBench以電商、外送與旅遊服務真實用戶影像建庫,透過MLLM輔助篩選與人工標註,並以六種先進生成與編輯模型合成假受損證據。比較大型多模態模型、專用偵測器與人類後顯示:多模態模型對假造破損檢出率普遍偏低,而專用偵測器雖較佳但跨生成器不穩且會誤判。
速報
圖神經網路致力於在低維空間保留拓撲結構以供下游任務使用。本文聚焦注意力機制在圖神經網路的三階段演進:圖遞迴注意、圖注意力網路與圖形轉換器,並逐一比較架構優劣。綜述整理模型特性表並提出未來議題,提供研究者最新參考。並維持中立比較各法優缺點以利後續應用選擇。
速報
研究檢視大型語言模型在解讀個人感測資料時的證據過度主張問題。以三組大學生長期感測資料、三款模型與兩種提示生成大量解釋,並以結構化量表評估因果主張、資料缺口、過度自信等面向。結果顯示模型常在證據不足下推斷原因,有限提示能減緩但無法徹底消除風險。
速報
本論文探討強化學習在實務部署的兩大瓶頸:分散式環境下的可擴展性,以及應用於大語言模型與自動代理時的可信任性。作者以聯邦優化為主軸,提出通信高效且可非同步運作的強化學習策略,並研究以人類偏好為導向的對齊方法與減少語境不當資訊揭露的安全措施。
速報
研究探討將受限流形超連結(mHC)應用於狀態空間模型(SSM)語言建模。做法包括將殘差流擴展成多平行流,透過Sinkhorn-Knopp做單純形預混與後混,並在每層施加雙重隨機矩陣投影。結果在WikiText-2上顯示驗證損失與困惑度皆改善,代價是推論吞吐略降且記憶占用增加。
速報
研究提出 NoisyCoconut,一種在推論階段操作模型內部表示的方法,透過向潛在軌跡注入受控噪音產生多條推理路徑,並以路徑間一致性作為置信訊號。此法無需重新訓練或改動模型參數,能在不接觸訓練資料下改善覆蓋率與準確率的權衡,並透過選擇性放棄在不確定時避免錯誤。
速報
研究提出「元認知探針」,用五項行為診斷拆解大型語言模型的信心與正確性關係:包含校準、認知警覺、知識邊界、校準範圍與推理鏈驗證。對八款前沿模型與六十九名人類受測者比較,揭露像Gemini 2.5 Flash出現顯著跨任務不一致。工具為探索性,程式碼與資料已公開。
速報
智能合約漏洞造成重大損失。團隊提出Chaintrix,要求所有LLM生成主張必須以結構化合約表示檢驗,並以Cross-ContractInteractionModel解析Solidity,用結構性檢查與符號執行分階段過濾誤報;在EVMbench上召回率為71.7%。
速報
工業設備監控仰賴工程師撰寫的符號規則,但瓶頸在於把規則翻譯成具體維修步驟。研究建立一個標準化基準,含6,690道專家驗證多選題、118組規則—動作配對與16類設備,並實作將規則正規化為析取標準式、用嵌入抽樣生成干擾選項的symbolic-to-MCQA流程,設計五種變體以探查失效模式。
速報
研究為生成式、多模態與代理型醫療AI制定基準框架。透過臨床任務設計、跨模態評測與人機互動指標,評估生成品質、推理一致性與代理能力。結果指出現有模型在一致性、可解釋性與臨床可用性仍有差距,建議採多維標準導向應用。並強調人機協作評估與安全性監測。
速報
這篇論述從理論層面重整大型語言模型(LLM)後訓練的討論,主張應區分「能力引出」(elicitation)與「能力創造」(creation)。