深度分析 ASMR-Bench:衡量 ML 研究程式碼審計與竄改偵測能力 隨著AI自主進行研究,ASMR-Bench提出審計破壞的基準與測試流程。該方法以九個真實ML程式碼庫與被竄改版本評估稽核能否找出實驗錯誤與修正策略。實驗顯示LLM與人類審核者均難以穩定辨識竄改,揭示風險與監管缺口。作者呼籲加強監控、提示審核與開發者內部控管以降低風險。