深度分析 Delulu 基準:跨語言 FIM 幻覺分類、執行驗證與模型評估 Delulu 是一個針對 Fill-in-the-Middle(FIM)程式補全場景的驗證型基準,收錄 1,951 個經 Docker 執行驗證的樣本,橫跨 7 程式語言與 4 類幻覺錯誤(方法、參數、未定義變數、匯入)。