Structure-BiEval:針對 Web 結構化資料的自我監督評估框架
大型語言模型成為網頁代理與資訊系統核心,將自然語言轉為嚴謹結構格式至關重要。本研究提出Structure-BiEval框架,透過確定性中介表示分離結構與內容,採內容語意準確度與標準化樹編輯距離為量化指標。測試顯示模型在結構化表現上差異明顯且深度遞迴仍具挑戰。
結論要點
隨著大型語言模型逐步成為網頁自主代理與複雜資訊系統的核心,能否把自然語言忠實轉為嚴謹的結構化格式,直接影響 Web API 呼叫與資料交換的可靠度。傳統文本指標難以反映半結構化資料的拓樸一致性,而人工評估成本又高。
方法與指標
為此,研究提出 Structure-BiEval 一套自我監督、無需人工標註的評估框架。核心做法是使用確定性中介表示(deterministic intermediate representations)將結構與內容解耦,並以兩個精準指標量化:內容語意準確度 (Content Semantic Accuracy) 與標準化樹編輯距離 (Normalized Tree Edit Distance)。
實驗與發現
研究在兩種 Web 結構拓樸上進行基準:層級資料(後端負載)與表格式資料(前端呈現),並評測多款先進大型語言模型。結果顯示各模型在結構化輸出上的表現差異顯著,且在某些情境下中等規模模型反而優於更大模型。另一本質性挑戰是深度遞迴嵌套,這類拓樸變化對所有規模模型都較為棘手。
影響與應用
Structure-BiEval 提供一條可量化且標註免除的評估路徑,對開發穩健的網頁代理、API 呼叫格式化與資料交換流程具實務參考價值,未來可作為改進模型結構化輸出穩定性的基準。
延伸閱讀
- SAGE:基於多代理與工具化證據的可解釋時序異常診斷框架
- Geospatial Awareness Layer(GAL):以結構化地理證據強化大型語言模型在野火應變的決策
- NORA:為地理資訊科學與空間資料科學打造的領域專門化自動研究代理
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。