深度分析
「AlphaEvolve」揭示大型語言模型與人類在迭代石頭剪刀布中的策略差異
研究利用AlphaEvolve從迭代石頭剪刀布資料自動發掘可解釋程式模型,對比人類與大型語言模型的策略行為。結果顯示先進LLM能更快辨識並利用對手模式,勝率顯著高於人類,同時揭示其對手模型更複雜,而較小模型在長序列推理上表現退步。此發現對未來LLM作為決策輔助工具的安全與效能評估具有重要意義。
深度分析
研究利用AlphaEvolve從迭代石頭剪刀布資料自動發掘可解釋程式模型,對比人類與大型語言模型的策略行為。結果顯示先進LLM能更快辨識並利用對手模式,勝率顯著高於人類,同時揭示其對手模型更複雜,而較小模型在長序列推理上表現退步。此發現對未來LLM作為決策輔助工具的安全與效能評估具有重要意義。
深度分析
本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試,對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA,混淆任務表現普遍下降但有改善。