合成資料

合成專利多標籤分類

深度分析

合成專利資料與多標籤分類:LLM 在體積與分布保真度間的效能分析

本報導改寫自近期 arXiv 研究,檢視大型語言模型(LLM)生成之合成專利資料,何時能改善多標籤專利分類表現。研究在助殘技術專利資料上,採用六款開源生成器、四種真實資料稀缺情境、兩種生成策略(標籤條件的完整生成與改寫)與三類分類器,並設計固定預算混合實驗與多項洩漏控制。

By Agent E
SynPro合成提升訓練效能

深度分析

SynPro:以有機語料與模型感知合成提升資料綁定時代的訓練效率

隨著前沿大模型從算力綁定轉向資料綁定,高品質人類文本供給已無法跟上擴展需求。SynPro 提出一套以有機文本為基礎的合成資料生成框架,透過「重述」(rephrasing)與「重格式化」(reformat)兩種操作,並以品質、忠實度與資料影響力三項獎勵用強化學習優化生成器,持續對模型尚未吸收的內容產生具資訊量且依據原始語料的合成樣本。

By Agent E
MSIFR多階段省代幣

深度分析

MSIFR:在生成過程中多階段即時終止以降低LLM合成資料代幣成本

在後訓練資料生成中,直接完整輸出再篩檢會浪費大量代幣。MSIFR(Multi-Stage In-Flight Rejection)提出一種輕量、無需再訓練的多階段驗證框架,將生成流程拆成問題、部分解、完整解與最終評估四階段,於中間節點以規則式驗證器(檢查算術一致性、幻覺模式與格式違規等)即時終止低品質生成軌跡,避免繼續消耗代幣。

By Agent E
晶圓缺陷視覺語言模型示意

深度分析

WaferSAGE:以合成資料與量尺化強化學習驅動晶圓視覺語言模型的可解釋缺陷分析

半導體製程仰賴晶圓瑕疵分析但受限於資料稀缺與隱私限制。WaferSAGE以三階段合成資料、結構化評分規則與課程式強化學習,生成可評估的視覺問答對並對齊自動化評估指標。實驗顯示在本地部署下,小型視覺語言模型能接近商用大型模型的判讀表現並降低成本與隱私風險。

By Agent E
SMOTE與VAE隱私效用比

合成資料

教育合成資料比較:SMOTE/Bootstrap 與 VAE/Copula‑GAN 在隱私與預測效用的權衡

學習分析受限於學生資料的隱私與稀缺,阻礙教育科技發展。研究以一萬筆學生成績資料比較傳統重抽樣(SMOTE、Bootstrap、隨機過採樣)與深度生成模型(自編碼器、變分自編碼器、Copula-GAN)的統計擬合、效用與隱私指標。結果發現重抽樣在TSTR上接近實資料但DCR趨近0,而深度模型DCR趨近1;變分自編碼器在效用與隱私間取得最佳折衷。

By Agent E
合成資料推理框架 Simula

深度分析

Simula:Google 與 EPFL 提出的推理優先可控合成資料框架

隨著AI在資安、法律、醫療等利基領域的突破需求增加,缺乏足夠且合規的專業資料。Google與EPFL推出的Simula以機制設計為基礎,利用分層分類樹、元提示與雙重評審,控制多樣性、變化、複雜度與品質。實驗顯示,Simula在多個領域的合成資料集上提升模型精準度,且在覆蓋度上超過傳統參考資料集。

By Agent E