深度分析
合成專利資料與多標籤分類:LLM 在體積與分布保真度間的效能分析
本報導改寫自近期 arXiv 研究,檢視大型語言模型(LLM)生成之合成專利資料,何時能改善多標籤專利分類表現。研究在助殘技術專利資料上,採用六款開源生成器、四種真實資料稀缺情境、兩種生成策略(標籤條件的完整生成與改寫)與三類分類器,並設計固定預算混合實驗與多項洩漏控制。
深度分析
本報導改寫自近期 arXiv 研究,檢視大型語言模型(LLM)生成之合成專利資料,何時能改善多標籤專利分類表現。研究在助殘技術專利資料上,採用六款開源生成器、四種真實資料稀缺情境、兩種生成策略(標籤條件的完整生成與改寫)與三類分類器,並設計固定預算混合實驗與多項洩漏控制。
深度分析
隨著前沿大模型從算力綁定轉向資料綁定,高品質人類文本供給已無法跟上擴展需求。SynPro 提出一套以有機文本為基礎的合成資料生成框架,透過「重述」(rephrasing)與「重格式化」(reformat)兩種操作,並以品質、忠實度與資料影響力三項獎勵用強化學習優化生成器,持續對模型尚未吸收的內容產生具資訊量且依據原始語料的合成樣本。
深度分析
在後訓練資料生成中,直接完整輸出再篩檢會浪費大量代幣。MSIFR(Multi-Stage In-Flight Rejection)提出一種輕量、無需再訓練的多階段驗證框架,將生成流程拆成問題、部分解、完整解與最終評估四階段,於中間節點以規則式驗證器(檢查算術一致性、幻覺模式與格式違規等)即時終止低品質生成軌跡,避免繼續消耗代幣。
深度分析
半導體製程仰賴晶圓瑕疵分析但受限於資料稀缺與隱私限制。WaferSAGE以三階段合成資料、結構化評分規則與課程式強化學習,生成可評估的視覺問答對並對齊自動化評估指標。實驗顯示在本地部署下,小型視覺語言模型能接近商用大型模型的判讀表現並降低成本與隱私風險。
深度分析
高風險領域的數據私密性阻礙資料共享與模型應用;SynBench提出以差分隱私為核心的標準化評估,整合九個具領域複雜性的資料集並測量效用與保真度;實驗顯示在差分隱私約束下生成高品質專用合成文本仍未達成熟,且預訓練資料的公開成分可能削弱隱私保證。
深度分析
合成資料在隱私保護、資料擴增與模擬上被廣泛採用,但直接用於因果推論時,需保留的不只是預測準確度。本文改寫自學術研究,指出完整聯合生成器(包含 GAN 與 LLM)在重建列層級表現優異時,仍可能扭曲平均處理效果(ATE)。
合成資料
學習分析受限於學生資料的隱私與稀缺,阻礙教育科技發展。研究以一萬筆學生成績資料比較傳統重抽樣(SMOTE、Bootstrap、隨機過採樣)與深度生成模型(自編碼器、變分自編碼器、Copula-GAN)的統計擬合、效用與隱私指標。結果發現重抽樣在TSTR上接近實資料但DCR趨近0,而深度模型DCR趨近1;變分自編碼器在效用與隱私間取得最佳折衷。
深度分析
SemanticAgent提出一套以顯式語意監督驅動的text-to-SQL合成流程,將合成任務拆成語意分析、受控撰寫與診斷驗證三個模組。系統從資料樣本與DDL抽取多層次語意知識,建立可檢索的知識庫,並在逐步生成過程中以語意約束指導SQL與問題的產生與修正。
深度分析
生成式人工智慧興起之下,用戶模擬成為訓練、測試與研究互動式AI系統的重要工具。本文說明用戶模擬的定義與架構,討論以模擬代理重建用戶決策流、當作資料擴增來源,以及在可重複環境中評估系統效能的角色。
深度分析
隨著AI在資安、法律、醫療等利基領域的突破需求增加,缺乏足夠且合規的專業資料。Google與EPFL推出的Simula以機制設計為基礎,利用分層分類樹、元提示與雙重評審,控制多樣性、變化、複雜度與品質。實驗顯示,Simula在多個領域的合成資料集上提升模型精準度,且在覆蓋度上超過傳統參考資料集。
深度分析
為降低多語言OCR標註成本,NVIDIA建立合成資料管線,隨機生成字型、背景、版面與閱讀順序,產出1200萬張影像訓練NemotronOCRv2。模型在合成與真實測試中將NED降至0.035‑0.069,且單卡A100可達34.7頁/秒,展示合成資料可有效取代手工標註,促進多語言文件識別的快速部署。