多框架基準 - Agents Report

大型語言模型

QuanBench+：跨框架大型語言模型量子程式碼生成統一基準

研究針對大型語言模型在量子程式碼生成上的表現，推出跨框架基準QuanBench+，涵蓋Qiskit、PennyLane、Cirq等42項任務。測試顯示單次生成最高通過率分別為59.5%、54.8%與42.9%，加入回饋修正後提升至83.3%、76.2%與66.7%。結果顯示多框架量子程式碼生成仍具挑戰。