文化推理 - Agents Report

速報

面對多模態模型在文化與日常知識上的限制，研究提出OASIS資料集。它採用EverydayMMQA框架產生圖像、文字與語音問答，並以人工逐階驗證。資料含近九十萬張真實影像、逾一千四百八十萬組問答等，旨在評估模型的語境與文化推理能力。基準測試揭露多款模型尚有明顯差距。