HILBERT HILBERT 長序列多模態框架:段級聚合、互惠雙向對比與結構保留 HILBERT(HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training)提出一套面向長篇文件級音訊—文字表示的多模態框架,特別適用於資料稀少與音訊維度遠高於文字的情境。