Token 優化驅動的 Oracle→PostgreSQL 遷移:LLM 多目標折衷研究
大型語言模型在Oracle到PostgreSQL遷移面臨高token成本、長上下文衰退與語義漂移等挑戰。論文把token優化視為受限轉換問題,提出十二種策略並在多項指標上衡量,發現自適應路由在減少tokens與保留語意間取得實務折衷,而過度schema蒸餾雖提升效率卻嚴重損及語意。
速報:LLM 遷移須以 token 優化作多目標折衷
研究指出,直接把大量 Oracle SQL/PL-SQL、schema 與程序邏輯放入大型語言模型上下文,會推高 token 成本並可能降低生成品質。作者把 token 優化形式化為受限轉換問題,系統性檢視十二種優化策略。
方法與評估
提出的策略涵蓋上下文裁剪、最小化、DSL 語義壓縮、metadata 增補、上下文重構、schema 蒸餾、自適應路由、AST 最小化、識別符遮蔽及混合方案等。在 10 與 100 筆 Oracle 查詢樣本上,以語法正確率、Exact Match、Semantic Match、CodeBLEU 與 Token Efficiency 評估效能。
主要發現
輕度的上下文裁剪幾乎維持基線語意表現(100 筆樣本 Semantic Match 為 89.75% 對比未優化基線的 89.80%)。自適應路由實務上達到最佳折衷:輸入 tokens 減少 8.72%、輸出 tokens 減少 5.49%,Semantic Match 為 88.40%,同時提升 Token Efficiency 6.67%。相反地,過度的 schema 蒸餾雖將 Token Efficiency 提升 132.22%,但造成 Semantic Match 大幅下滑 44.50 個百分點。研究強調,token 優化非單純縮短提示,而是需在成本、語法有效性、語意保留與結構忠實度間取得平衡。
延伸閱讀
- MADP 多代理流水線與PFTFI:以LLM與人員回饋提升文件擷取準確度
- 狀態驅動編排(SDOF):結合意圖路由器與 SkillRegistry 的合規防線
- 整合MPHA與ACSE的IFPV框架:生成式作戰規劃到高擬真驗證閉環
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。