二分搜尋 - Agents Report

深度分析

動態定價在僅有買賣二元回饋時，少數被對手污染的觀測就足以誤導學習。作者提出一種魯棒化的二分搜尋元演算法，加入安全檢查與回溯機制，並依是否已知污染預算採用不同承諾策略。結果在已知污染時達到O(C+logT)退步，未知污染時達到O(C+log²T)，實現污染和時間影響的分離。