速報 MinMax RNCs 遞迴神經網路梯度消失平行運算

MinMax 迴圈神經級聯（RNC）：以 MinMax 代數抗衡梯度消失的遞迴架構

一組研究提出以MinMax代數實現的新型遞迴結構，旨在避免梯度消失與爆炸。該方法用MinMax運算串連多層神經元以形成迴圈級聯，並能並行或序列化評估。理論上涵蓋所有正規語言且狀態與激活量隨輸入長度均有上界。實驗顯示在合成任務上表現優異，並在127M參數的下壓詞預測任務上取得具競爭力結果。

09 5月 2026 — 2 min read

重點速報

研究團隊提出一種以 MinMax 代數為基礎的遞迴架構，稱為 MinMax Recurrent Neural Cascades（MinMax RNCs）。此架構主張能在不遭遇梯度消失或爆炸的情況下，維持高表達力並支援平行評估。

作者指出，MinMax RNCs 在形式上能表達所有正規語言，這代表對於有限記憶系統而言具有極高的表達能力。架構既可平行執行（在足夠處理器下，執行時間與輸入長度對數成長），也可序列執行。其狀態與激活值對任意輸入長度皆有統一上界，且在幾乎所有點上損失函數的梯度存在且有界。

特別一點是，MinMax RNCs 不會出現狀態梯度隨時間衰減的問題：某些狀態對過往狀態的梯度可維持常數值一，與時間距離無關。

實驗上，作者報告在多項合成任務中能達到完美解，並優於文中比較的先進循環網路。另將一個127M參數的 MinMax RNC 用於下壓詞（next-token）預測，結果在同等規模下展現出具競爭力的效能，暗示此方法在實務語言任務上具有應用潛力。

總結來看，MinMax RNCs 在理論保證與初步實驗上都呈現出抗梯度問題與良好可擴展性的特點，值得在更廣泛的實務場景中進一步驗證。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

文本屬性圖（TAG）學習在學術網路、社群平台、電商系統等領域應用廣泛，但真實世界的 TAG 常因文本稀疏或雜訊、結構缺失或干擾、標籤不均或錯誤而品質低落。現有研究多聚焦單一劣化類型，缺乏統一基準。

Vector-Bench 是一個針對 SVG 指令式編輯的嚴謹基準測試，包含 40 個修復任務，每個任務配對一個損壞的 SVG 程式碼與作者撰寫的視覺指令、隱藏的目標程式碼、平均 5.05 個註釋修復和 60.55 個保護物件。指令僅描述可見缺陷，不暴露元素識別碼、座標、顏色碼或路徑資料。

大型語言模型（LLM）的流暢生成常被批評缺乏真正的語法結構。本文提出一個神經符號框架，利用組合範疇語法（CCG）對 LLM 的輸出進行後設的「提升」（lifting），將自然語言轉換為具型別的組合推導式。

大型語言模型體積龐大，難以用於機器人即時決策。Athena-Brain-8B 透過通用微調、強化學習、具身專家訓練與模型合併四階段後訓練，在 80 億參數內同時保留通用智慧與具身技能。實驗顯示，它在機器人導航任務上超越 GPT-5.5 等大模型，證明緊湊模型可勝任機器人大腦。