深度分析 RPRA:預測 LLM 表現以提升資源受限設備的推論效率 大型語言模型在資源受限裝置上面臨效能與品質的權衡。研究提出 RPRA 框架,讓模型在回應前預測自身輸出會被 LLM 評審給予的分數,並比較零樣本、報告卡與微調三種預測方式。實驗發現,小模型經過報告卡或微調後,預測精度提升逾五成,顯示自我限制預測具可行性。