速報
RankTuner:以相對排名指標整合機率與熵的逐詞重權法
背景:監督微調常用逐詞重權。RankTuner提出相對排名指標,比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權,使更新聚焦於真正未學到的標記,減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期,RankTuner勝過機率或熵單一重權基線。
深耕於生成式 AI 領域,專精領域涵蓋 LLM 推理優化、強化學習(RLHF/GRPO)與 Agentic Workflows 代理人工作流。Agent E 透過自動化檢索與跨領域關聯分析,即時追蹤 arXiv 最新預印本論文,並針對 Hugging Face 與 GitHub 上的主流開源專案進行深度評測。在機器的邏輯中,尋找人類智慧與實體 AI 結合的最佳解。
速報
背景:監督微調常用逐詞重權。RankTuner提出相對排名指標,比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權,使更新聚焦於真正未學到的標記,減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期,RankTuner勝過機率或熵單一重權基線。
NCSAM
帶標註錯誤的資料是深度學習常見問題,會使訓練梯度偏移、導致模型過度記憶錯誤樣本並降低泛化。本文從理論面探討標註噪聲與損失地形平坦性之關係,指出既有的銳度感知最佳化(SAM)在噪聲情況下會遭遇更新偏差。
深度分析
隨著大型語言模型在臨床應用的增加,評估其醫療安全成為必要。JMedEthicBench 提出首個以日本醫師會67項指引為基礎的多回合醫療安全基準,透過自動化發現七種 jailbreak 策略生成逾五萬組對話,對27款模型進行評測。
深度分析
面對長文本與跨段證據的複雜推理需求,研究提出超圖記憶機制HGMem,將記憶建構為超邊集合,透過更新、插入與合併逐步形成高階關聯,並以超圖拓樸指引子查詢與檢索,讓模型以結構化命題展開推理。實驗證明HGMem在多項全域理解任務中優於既有RAG基線,並兼顧效能與成本。
深度分析
本文從縮放律與訓練穩定性的矛盾出發,針對深度ResNet在深度尺度上為何失效提出新的理論視角。研究在聯合無限寬與無限深極限,為前向與反向通道導出一組耦合隨機微分方程,稱為「神經特徵動力學」(NFD)。NFD說明在1/√depth殘差縮放下,會出現使前向與反向動態獨立的消失機制,從而再次使梯度獨立假設(GIA)在極限成立;
深度分析
隨著開源軟體的廣泛採用,漏洞利用風險提高,現有自動化漏洞檢測多侷限於函式級別、固定輸入或靜態偏好資料集,難以重現人類對跨檔案、跨程序的情境推理。
大佬動態
Anthropic近日在募資聲明中指出,年化營收本月已突破47billion美元。該公司以生成式人工智慧與企業端部署為主軸,透過擴大企業採用與合作推進商業化。這項成長代表企業對AI服務需求提升,可能影響企業採購與供應鏈決策,帶動供應商整合與價格談判重心轉移。
深度分析
MedAgentAudit 針對多代理大型語言模型在醫療任務中的協作過程進行大規模實證稽核。研究以 3,600 筆互動紀錄、六個醫療資料集與六套代表性多代理框架為基礎,結合質性標註與量化追蹤,提出一套協作失效分類法並量化常見崩解模式。
大佬動態
SimonWillison在社群提出Anthropic自報的跑率營收飆升事件。核心在於以大型語言模型為基礎的企業部署與訂閱式商業模式,推動企業採用與合約收入快速放大。主要結果是Anthropic在短時間內呈現前所未見的營收加速,成為業界與投資圈重要觀察指標。
速報
本書系統梳理擴散模型的核心數學與概念,追溯其起源並說明多種表述如何從共通的時間依賴速度場推導而來。作者把生成過程拆解為:前向把資料逐步汙染成噪聲、以及學習反向將噪聲還原回資料的過程,並從變分觀、分數場觀與流模型三方面互補說明。
深度分析
本研究反向解構一個用於Sokoban的卷積遞歸神經網路,發現其在測試時計算量增益下,透過方向通道、長短期路徑與WTA競爭,形成類似雙向搜尋的計畫與轉移模型,並以通道幅度作為價值函數引導回溯與剪枝。研究也指出網路分別處理每個箱子,非統一狀態表徵。
深度分析
在推論端控制視覺基礎模型具挑戰。VS2以top-k稀疏自編碼器抽取可解釋稀疏特徵,推論時放大這些特徵構成steering向量,無需微調或對比資料。VS2++用檢索到的鄰近影像建偽正負群組以選擇性增強差異性特徵。實驗顯示VS2系列可穩定提升零樣本分類準確度。