深度分析 PINK 評分:以視覺語言模型檢測多行手寫數學 OCR 的過度修正 多行手寫數學轉錄對教育型 AI 至關重要,但現有評測多以字面相似或單行公式為主,難以反映步驟忠實度與語意正確性。論文提出 PINK(Penalized INK-based score),以大型語言模型為自動評分器,採五項評分維度評估語意與推理過程,並對模型將學生錯誤「修正」的行為施以分級懲罰,確保轉錄忠實。