速報
認知卡達謝夫尺度:量化文明能支持多少人工智慧運算
研究問:文明能持續做多少等級的計算?作者提出認知卡達謝夫尺度,以總功率、投入比率、能量轉運算效率與腦等價處理率四項參數估算人工智慧級別。以2024–2026年硬體效率為基準,指出當代人類接近行星級運算,恆星級則超出直覺想像。此外,誰能取得資源將比能效或能量更關鍵。
速報
研究問:文明能持續做多少等級的計算?作者提出認知卡達謝夫尺度,以總功率、投入比率、能量轉運算效率與腦等價處理率四項參數估算人工智慧級別。以2024–2026年硬體效率為基準,指出當代人類接近行星級運算,恆星級則超出直覺想像。此外,誰能取得資源將比能效或能量更關鍵。
速報
大型人工智慧系統面臨有限GPU與頻寬分配問題。研究提出可計算公平分配(CFD),把Boltzmann-Softmax當成機率性資源分配機制,並將逆溫參數β作為可控變數以調節效率與公平。動態上以AHC++依據主導性偏差實時調整β;模擬顯示在外部衝擊下可抑制極端壟斷,代理數增100倍時執行時間增5.5倍。
速報
大型語言模型已被用於撰寫軟體、法律文件與臨床紀錄,但計算能力受圖靈、阿羅及無免費午餐定理等基本限制。研究提出確定性地平線(Deterministic Horizon)理論,主張極限由模型架構決定,可在部署前由層數與嵌入寬度預估;在多個Transformer架構中觀察到關鍵推理深度介於19到31。
速報
ArXiv 提出 Research Math Agents(RMA),一套專為研究級數學問題設計的代理人化自動推理框架。RMA 將證題求解拆解為問題分析、文獻檢索與理解、公平比較、知識庫建構與證明驗證等專責模組;
速報
報告評估義大利ENGINEERING的EngGPT2MoE-16B-A3B,為16B參數MoE且在任意時刻啟用3B活躍參數。研究以多項國際與義大利基準比較模型表現,結果顯示該模型在多數國際測試優於或等同主要義大利模型,且在RULER32k長上下文設定取得最佳成績。
速報
機器學習在生物辨識與醫療等高風險應用中公平性評估已成焦點。本研究以多項公平性指標交叉分析人臉辨識模型,檢視各指標對族群差異的衡量方式。提出公平性不一致指標FDI,發現不同指標常導致互相矛盾的偏差結論,提示單一指標報告不足以可靠判斷模型偏差。
速報
研究人員公開能提升權限的利用程式碼後,Ubuntu與Canonical多項官方網站及安全 API 遭持續阻斷。攻擊方宣稱使用名為 Beam 的壓力工具以 DDoS 方式癱瘓服務,該類 booter 服務常被當作付費癱瘓工具。多數官方頁面無法存取,但鏡像站仍能提供更新,導致官方溝通與安全指引受到限制。
速報
大型語言模型從雲端移向行動,電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程,量測耗能、延遲與生成品質;發現重要性感知量化雖能縮減記憶體占用但未顯著省電,模型架構才是電池表現關鍵,Mixture‑of‑Experts 提供低能耗下的大容量,並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。
速報
大型語言模型在處理長短不同的輸入時,常被無關或噪訊片段干擾,導致輸出品質下滑。研究提出Early Noise Dropping(END),不需微調模型,將輸入切分為多個片段,並在模型的早期層使用線性探測器判別哪些片段具資訊價值。END會在推理過程中及早丟棄被判定為噪訊的片段,以保留重要內容、減少注意力分散並降低計算量。
速報
全國代表性調查每年問項有限,難以完整捕捉歷史變化。研究以大型語言模型結合題目、受訪者與時期的嵌入向量,進行年份級缺失意見的回溯,並嘗試預測未被詢問的意見。以1972至2021年一般社會調查資料驗證。模型能回復缺失趨勢並定位態度轉折,但對完全未問的預測仍屬有限。
速報
大型語言模型在異質企業系統上易出現幻覺且難以完成多跳n元推理。HEAR以分層超圖本體建構,圖層管理有溯源的資料介面,超邊層編碼n元商業規則與程序。透過證據驅動的推理迴圈,HEAR無需重新訓練模型即能協調本體工具並達到高準確度。在供應鏈評測顯示最高94.7%準確度,且能降低代幣成本。
速報
自動化人工智慧研究長期被複雜的機器學習工程(MLE)任務困住,因為訓練評估成本高且成效難以歸因。論文提出 MARS(Modular Agent with Reflective Search),以三大支柱回應這些挑戰:透過成本受限的蒙地卡羅樹搜尋實作預算感知規劃,明確在效能與執行費用間取捨;