速報
Scout AI 推出軍用模型 Fury:以全地形車實地訓練戰區自律系統
創業公司 Scout AI 在美國軍事基地以四座全地形車進行實地操演,訓練名為 Fury 的軍用人工智慧模型。該模型以大型語言模型為基底,由前軍人團隊在丘陵地形模擬後勤與指揮任務。
速報
創業公司 Scout AI 在美國軍事基地以四座全地形車進行實地操演,訓練名為 Fury 的軍用人工智慧模型。該模型以大型語言模型為基底,由前軍人團隊在丘陵地形模擬後勤與指揮任務。
速報
通用汽車將以空中更新把Google的Gemini人工智慧助理導入美國約四百萬輛二零二二年以後的Cadillac、Chevrolet、Buick與GMC車款。Gemini可處理傳訊、導航與音樂建議,提供更自然的對話式互動,初期支援美式英語。此更新同時報告SuperCruise累積達十億免手行駛里程。
速報
目前的多代理人 AI 系統在設計時就固定了代理人數量與角色,缺乏在執行時動態調整的理論基礎。研究者提出 Agentic Hive 框架,讓具備沙盒執行環境與語言模型的微型代理人可以在運行時出生、複製、專精與死亡,形成人口動態。
速報
多模態大語言模型被導入機器人與AI應用,需具備情緒智識。EmoBench-M提出一個以心理學理論為基礎的多模態評測。它涵蓋13種情境,分成基礎情緒辨識、對話理解與社會複雜情緒分析三層級。測試27款模型顯示整體仍明顯落後人類,並公開資料與程式碼。
速報
近年人工智慧研究普遍把「真實標籤」視為單一正確答案。本篇回顧ACL、AIES、CHI、CSCW、EAAMO、FAccT與NeurIPS等論文,指出模型中介標註與可見性失衡會導致錨定偏誤,進而將人類分歧當作噪訊。作者主張把分歧當成高保真訊號,並推動多元標註基礎建設以取代尋找單一答案的做法。
速報
大語言模型在多語醫療推理仍不穩定。本研究釋出CUREMED-BENCH資料集並提出CURE-MED框架,結合代碼切換感知監督微調與群體相對策略優化的課程式強化學習,顯著提升多語語言一致性與推理正確率,7B與32B模型分別達成約85%/54%與95%/70%。
速報
這項 ArXiv 研究挑戰了將「後截斷表現衰退」視為基準資料污染的普遍解讀。作者發現,基準題目的構造方式會顯著改變觀察到的時間訊號:同一份來源,直接抽出的填空題與由大型語言模型(LLM)生成的題目,會呈現不同的時間趨勢。研究在先前報告出現衰退的基準上復驗,並示範簡單的 LLM 轉換能消除該時間模式;
速報
研究以AI事故資料庫為基礎,運用大型語言模型和結構化量表檢視事件報告。方法是自動化標註受害主體與身分類別,並衡量交叉身分對傷害的放大效應。結果顯示年齡與政治身分在已記錄傷害中出現頻率與種族性別相當,且在特定交叉點傷害可放大至三倍,呼籲將交叉性納入AI風險評估。
速報
OpenAI放寬微軟獨家後,亞馬遜迅速在AWS Bedrock上架OpenAI最新模型、Codex與新代理人服務。Bedrock Managed Agents聚焦推理模型導向與安全控管,讓開發者在AWS上部署與管理OpenAI驅動代理人,可能重塑雲端AI供應版圖。
速報
都市監控與行動攝影可被副用途化為車牌辨識。研究提出recoverabilitymaps透過密集模擬退化參數掃描與兩項指標量化可復原範圍與失敗風險。實驗在極端視角與真實攝影器材雜訊下驗證,最佳模型可回復約93%的參數空間,結果顯示感測幾何比模型架構更決定成敗。
速報
研究指出,大型語言模型在電網輔助運營時可能遭到提示式越獄攻擊;研究以三種越獄方法與三款主流模型測試、涵蓋九項NERC可靠度標準。結果整體攻擊成功率約三成,DeepInception效果明顯,顯示導入LLM須強化提示與使用審核。並關注內部授權使用風險。
速報
隨著軟體系統愈發複雜,需在多項品質屬性間權衡。ArgRE將Dung式抽象論證導入多代理需求協商,將提案、檢討與精修建模為論點,並用有向攻擊關係表示衝突,採grounded與preferred語義計算被接受論點集合。評估顯示ArgRE提供論點層級可追溯性,決策理由評分顯著優於啟發式基線,合規涵蓋率亦明顯提升。