速報
研究:Anthropic 的 Claude 在消費者健康問答中的來源權威行為分析
本研究檢視Anthropic的Claude在回答消費者健康問題時如何呈現引用來源。以HealthSearchQA資料及AuthoritySignalsFramework評估來源權威,發現97.8%為既有機構來源、商業衛教僅2.2%,為Claude醫療應用建立引用基線。
速報
本研究檢視Anthropic的Claude在回答消費者健康問題時如何呈現引用來源。以HealthSearchQA資料及AuthoritySignalsFramework評估來源權威,發現97.8%為既有機構來源、商業衛教僅2.2%,為Claude醫療應用建立引用基線。
速報
研究系統性回顧139篇,整理資訊融合在文件分類的成效。研究構建統一框架,採質性分析與隨機效應統合量化成果。發現多模態融合使準確度平均提升5.28百分點且顯著,多視角融合在準確度、F1與召回亦有穩定但較小提升,且多數研究缺乏嚴謹統計驗證。值得注意。
速報
時間序列研究正從只比預測精準度的固定基準,轉向必須處理時間約束、情境推理、工具運用與結構化決策支援的真實任務。論文提出 AION,一個由代理人、技能、規則、記憶、評估與協定組成的時序實驗架構,並以時間紮根、時間知識導向推理與可靠性機制(事後分析與分層審查)為設計核心。
速報
大型語言模型常應用於定性資料分析卻缺乏人類式深度。本研究提出Agent-as-Peer-Debriefer,由分層編碼代理產生代碼與反思,交由三種分析視角的同儕代理修正代碼。實驗顯示視角化同儕檢討使結果更接近人類標註並帶來可控取捨,且有實證支持。
速報
Psych LM為一個在iOS上驗證性的示範應用,提出以本地執行語言模型配合專用的本地優先執行環境,解決情感導向支援對長期脈絡的需求。系統將對話自動轉換為結構化的記憶卡(事實、目標、事件),並以語義向量檢索動態注入提示,達成近乎無限的脈絡感知。
速報
本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE(Multi-State Aggregated PoLicy Evaluation)。MAPLE在單一搜尋樹內,對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總,結合了PIMC與IS-MCTS的優勢,同時將計算成本保持在可控範圍。
速報
面對大語言模型在邏輯推理可靠性上的疑問,研究提出LGMT(Logic-Grounded Metamorphic Testing)。該方法以一階邏輯推導出語意等價的變換關係,生成語意不變的測試案例,並透過跨案一致性檢驗來偵測推理缺陷。實驗發現LGMT能揭露傳統以參考答案為基準的評測忽略的問題;
速報
從學術 PDF 擷取結構化資料不易,單頁常混合自由文字與表格,還會受 Unicode 編碼影響。本研究以印尼高教的選課表(KRS)為案例,比較三種策略:純 LLM、正規表達式+LLM 的混合決定性流程,以及以 Camelot 為主、LLM 備援的管線。
速報
後設異常檢測是可靠機器學習的關鍵挑戰。論文提出以Bregman散度為基礎的理論框架,將密度估計擴展到指數族分布,並提出ConjNorm方法,以尋找最佳範數係數p,透過重要性抽樣解析估計配分函數。實驗在CIFAR-100與ImageNet-1K上的FPR95顯示顯著提升。
速報
前沿人工智慧團隊以「模型規範」設定語言模型期望行為。本研究提出模型規範中期訓練(MSM):在預訓練後、微調前以合成文件教授規範內容,塑造模型從示範資料的泛化方向。應用於自我保存與目標護衛規範時,Qwen3-32B的代理性錯誤率由54%降至7%,優於一項推理式基準14%。
速報
研究指出大型語言模型偏重生成合乎分配的後續文本而非驗證與來源是否一致。本研究提出以對齊拓撲構建參考與輸出之二分圖,並用圖神經網路透過訊息傳遞學習對齊結構。實驗在四組幻覺與問答資料集上達到最新領先表現。其方法優於包括GPT-4o在內的現有比較方法。
速報
定價談判因買方偏好隱藏而具挑戰性。研究提出PrefBench,一個模擬器基準,將賣方限制為回傳嚴格JSON動作並隱藏買方變數。作者在7,500個回合測試零-shot大型語言模型,模型成交率超過0.99但利潤表現弱於簡單讓步啟發式。表明結構化動作與高成交率不等於利潤最優。