深度分析 SEFD:以 MultiMarkdown 重建 SEC EDGAR 檔案的版面忠實語料庫 SEC的EDGAR是全球最大企業長文披露庫,但版面雜亂難以直接作為LLM訓練。研究以視覺優先方式把HTML、XML等檔案重建為版面忠實的MultiMarkdown,並壓縮至0.1%與通用語料重疊。首發的SEFD‑v1 1520億標記支援長上下文預訓練與財務預測,顯著提升模型金融推理效能。