深度分析
以 BGB 法條結構為基準的 RAG 切塊策略比較:小節檢索優勢與成本權衡
研究以德國民法典為基準,評估多種文本切塊策略在檢索增強生成(RAG)中的表現。比較結構化分段、固定窗口、語義分群、Lumber與RAPTOR等方法,並衡量召回、延遲與索引成本。結果顯示保留法條結構的分節或小節檢索能顯著提高Recall,且計算與存儲效率更佳。
深度分析
研究以德國民法典為基準,評估多種文本切塊策略在檢索增強生成(RAG)中的表現。比較結構化分段、固定窗口、語義分群、Lumber與RAPTOR等方法,並衡量召回、延遲與索引成本。結果顯示保留法條結構的分節或小節檢索能顯著提高Recall,且計算與存儲效率更佳。
embedding-atlas
Apple 在 GitHub 發布 Embedding Atlas,針對大規模向量嵌入提供互動視覺化。工具支援自動聚類、密度估計與即時搜尋,並以 WebGPU 加速渲染,可呈現數百萬點資料,提升資料探索效率。此外,工具提供多視圖協同篩選與密度等高線,可即時辨識資料群聚與異常點。
Verilog
硬體設計的安全檢測面臨規模與語意辨識的雙重挑戰。VeriCWEty 採用針對 Verilog 微調的解碼器型大型語言模型(LLM)所產生的向量嵌入,將 CWE(Common Weakness Enumeration)以向量形式編碼,結合投票式自動標註與梯度提升分類器,在模組層與行級同時進行弱點偵測與定位。