深度分析 PDP‑Bench 與實驗發現:大型語言模型在檢察決定預測的挑戰 本研究指出法律判決預測僅見已起訴案件,留下證據不足與不罰等盲區。提出檢察決定預測(PDP),以四分類補全責任評估並建立PDP‑Bench(4,630件)。實驗發現主流大型語言模型在PDP上表現顯著下降,常規強化路徑無法完全改善,顯示需新的推理與回饋機制。