向量嵌入 - Agents Report

深度分析

拓樸空洞（TVA）框架：利用向量嵌入與 SLERP 自動發掘技術缺口

本研究針對軟體與硬體技術文件建構高維嵌入空間，提出拓樸空洞（TVA）框架以自動發掘未被覆蓋的概念三元組，並透過球面線性內插檢驗中點是否被占用。實驗顯示在Linux核心與x86特性上，TVA可在數十億候選中篩選出少數具創新潛力的空洞，顯著降低人工探索成本。

深度分析

JE‑IRT 幾何式評估框架：以向量空間重新詮釋大型語言模型能力

隨著大型語言模型快速迭代，傳統以單一分數評估已顯不足。研究提出JE‑IRT幾何嵌入框架，將模型與題目同投射於共享空間，方向代表語意、向量長度代表難度，透過幾何交互預測正確率。實驗證明此法能解釋跨領域表現下降，並以輕量嵌入快速納入新模型，顯示出與人為科目劃分不同的內部分類。

深度分析

以 BGB 法條結構為基準的 RAG 切塊策略比較：小節檢索優勢與成本權衡

研究以德國民法典為基準，評估多種文本切塊策略在檢索增強生成（RAG）中的表現。比較結構化分段、固定窗口、語義分群、Lumber與RAPTOR等方法，並衡量召回、延遲與索引成本。結果顯示保留法條結構的分節或小節檢索能顯著提高Recall，且計算與存儲效率更佳。

embedding-atlas

Embedding Atlas：Apple 推出支援 WebGPU 的開源大型向量嵌入互動視覺化平台

Apple 在 GitHub 發布 Embedding Atlas，針對大規模向量嵌入提供互動視覺化。工具支援自動聚類、密度估計與即時搜尋，並以 WebGPU 加速渲染，可呈現數百萬點資料，提升資料探索效率。此外，工具提供多視圖協同篩選與密度等高線，可即時辨識資料群聚與異常點。

Verilog

VeriCWEty：以向量嵌入與 LLM 驅動的 Verilog 行級 CWE 偵測

硬體設計的安全檢測面臨規模與語意辨識的雙重挑戰。VeriCWEty 採用針對 Verilog 微調的解碼器型大型語言模型（LLM）所產生的向量嵌入，將 CWE（Common Weakness Enumeration）以向量形式編碼，結合投票式自動標註與梯度提升分類器，在模組層與行級同時進行弱點偵測與定位。