速報
LLM代理人策展:用大型語言模型提升表型文字對齊本體的基準評測
研究指出表型自由文字註記是跨研究整合的關鍵瓶頸。採用五款來自Anthropic與OpenAI的大型語言模型作為代理策展人,在封閉工作區內以原始出版PDF、本體與原始註記指南執行Entity–Quality註記並比對既有金標準,結果顯示所有代理人表現落在受訓人類註記者的變異範圍內且優於SemanticCharaParser。
速報
研究指出表型自由文字註記是跨研究整合的關鍵瓶頸。採用五款來自Anthropic與OpenAI的大型語言模型作為代理策展人,在封閉工作區內以原始出版PDF、本體與原始註記指南執行Entity–Quality註記並比對既有金標準,結果顯示所有代理人表現落在受訓人類註記者的變異範圍內且優於SemanticCharaParser。
速報
在GitHub上發現一個以自然語言生成圖表的開源專案,採用人工智慧解析描述並轉成drawio或mermaid格式,能產出流程圖與心智圖,並支援即時編輯與瀏覽預覽,簡化視覺化流程,提升團隊溝通效率。方便在瀏覽器內實時調整與協作,支援用戶以文字快速把想法轉為可編輯圖形。
Case-Grounded Evidence Verification
研究背景:證據導向推理常因監督不足而失效。方法:提出案例導向證據驗證框架,利用自動化程序生成支援與非支援樣本,包含反事實與主題負樣本。結果:在放射科實驗中,驗證模型顯著超越僅案例或僅證據基線,且在證據缺失時性能急遽下降,顯示真實依賴。
HolUE
研究針對開放式文字分類的可信度需求,將 HolUE 方法套用於文字領域,捕捉查詢與資料分布的不確定性。實驗在四大資料集上提升 40% 至 365% 的預測拒絕率,顯示對未知類別的辨識更為安全可靠。
ModernBERT
研究人員開發出一套 AI 系統,能透過分析基層醫療門診的對話錄音自動偵測憂鬱症。透過對比 ModernBERT 與 GPT-OSS 等模型,發現分析醫病雙方對話能顯著提升準確率,且在對話初期即可捕捉到關鍵訊號,有望將憂鬱症篩檢轉化為非侵入式的被動監測流程。