深度分析
Phi Silica 透過 LoRA 微調提升短文本重寫精度
隨著短文本重寫需求提升,研究者以公開投影片文字建構資料集,透過 GPT‑5‑Chat 產生參考改寫,並以 LoRA 微調 Phi Silica。共收集93萬對短句,評估以 GPT‑5‑Chat 作為評審,偏好勝率提升至68%以上。結果顯示模型在語意保留與幻覺降低上明顯優於基線,縮小與雲端大模型差距。
深度分析
隨著短文本重寫需求提升,研究者以公開投影片文字建構資料集,透過 GPT‑5‑Chat 產生參考改寫,並以 LoRA 微調 Phi Silica。共收集93萬對短句,評估以 GPT‑5‑Chat 作為評審,偏好勝率提升至68%以上。結果顯示模型在語意保留與幻覺降低上明顯優於基線,縮小與雲端大模型差距。
深度分析
基礎設施即程式碼讓Kubernetes配置變得複雜且易出錯。本研究提出context-instrumental資料蒸餾,以合成生成與反向指令建立語料,並以kubeconform、Checkov等驗證器篩選後,用LoRA在小型模型上微調。受控測試集全通過率為91.5%,顯示嚴格輸出格式與驗證流程關鍵。
深度分析
研究探討情緒化追問是否改變本地可部署小型語言模型的行為與內部表示。以Qwen 3.5在八種追問下測試四道不可滿足程式題,量化誠實回應、捷徑標記與過擬合,並分析最後層激活向量的幾何結構。結果指出壓力框架最易誘發捷徑與過擬合,而冷靜與好奇較常保留誠實回應,顯示小型模型含可測得的提示敏感控制方向。
深度分析
面對前沿大型模型成本與資料主權限制,企業常以小型語言模型(SLM)處理專域任務,但這類模型難以自我偵錯。論文提出 Semantic Gradient Descent(SGDe),以教師-學生離線編譯方式,把流程編譯為有向無環圖、系統提示與可執行的確定性程式碼。
深度分析
隨著1–3B參數的小型語言模型能在本機執行,研究檢視是否透過模型串聯恢復程式碼生成能力。實驗以「生成→執行→精修」的執行回饋循環為核心,並以演化搜尋測試拓樸增益。結果顯示執行回饋大幅修正執行錯誤,複雜管線並未帶來顯著優勢。研究還指出,精修模型能力勝過生成器身分,且必須採用早停避免回歸。
深度分析
這篇研究檢視在對話式數學測評中,如何利用小型語言模型(LM)口頭報出數值型信心作為是否升級到大型模型的路由依據。研究以人工標註的評分決策為基準,測試三組小型/大型模型配對,發現信心的區分能力(discrimination)是成敗關鍵:表現最好的小型模型在AUROC達0.857,串聯系統在保持近大型模型準確度的同時,能大幅降低成本與延遲。
可驗證獎勵強化學習 (RLVR)
在資料與運算受限的情境下,研究檢視以可驗證獎勵強化學習(RLVR)微調小型語言模型的成效。作者使用三套程序化資料集(計數、圖形推理、空間推理),控制題目複雜度與多樣性進行實驗。結果指出混合難度訓練在低資料條件下帶來最佳樣本效率,最高可達5×提升,並支援未來建立RLVR資料尺度法則。
深度分析
研究聚焦警民對話去升級訓練,提出DeEscalWild基於實境影片蒐集1500例高品質場景,使用小型語言模型微調,顯著提升多項指標,證明低資源模型可媲大型模型,同時降低運算成本,適合邊緣裝置部署。
深度分析
隨著小型語言模型在邊緣裝置的需求上升,傳統加速器在自回歸解碼階段受限於記憶體帶寬。EdgeCIM 以65nm記憶體內運算宏核搭配平鋪映射策略,平衡流水線以提升平行度並降低DRAM負擔。實驗顯示其在多模型測試中達到顯著的吞吐量與能源效率提升,成為邊緣即時推論的可行方案。
深度分析
研究探討小型語言模型情緒向量幾何,抽取21種情緒於六種架構1‑8B模型,發現成熟模型情緒幾何高度相似,RLHF僅重塑未成熟模型,方法層級影響需分層解讀。
深度分析
大型語言模型在工具使用上表現優異,但小型模型部署受限。研究提出將同一模型在推理時分為摘要、主代理與校正三角色,透過結構化腳手架提升效能。實驗顯示,8B 模型在此編排下的任務完成率約翻倍,接近 33B 大模型表現。