深度分析
Qwen3.7-Plus 亮相:支援影像與影片的多模態 AI,成本降低 60% 並採封閉商業授權
阿里巴巴本週推出Qwen3.7-Plus,具備百萬級上下文視窗與多模態輸入,支援文字、影像與影片,同時引入preserve_thinking參數保持推理連貫性。相較於前代僅文字的Qwen3.7-Max,成本降低約60%,在多模態與終端基準測試中超越多家美國商業模型。此授權模式引發開源與合規討論。
深度分析
阿里巴巴本週推出Qwen3.7-Plus,具備百萬級上下文視窗與多模態輸入,支援文字、影像與影片,同時引入preserve_thinking參數保持推理連貫性。相較於前代僅文字的Qwen3.7-Max,成本降低約60%,在多模態與終端基準測試中超越多家美國商業模型。此授權模式引發開源與合規討論。
大佬動態
NVIDIA 於今日發表 Cosmos 3,採用 Mixture-of-Transformers 結合自回歸推理與擴散生成,支援語言、影像、影片、音訊與動作。核心 Nano 模型以 16 億參數分割為推理塔與生成器兩部份。此發布顯示 NVIDIA 在多模態 AI 整合上取得關鍵進展,將促進跨領域應用的開發與部署。
深度分析
隨著多模態AI結合視覺、語言與圖形,計算需求多樣且實時壓力大。TRINE以單一位元流FPGA,透過可切換資料流與即時token剪枝,統一執行ViT、CNN、GNN、NLP,於20–21 W下比RTX 4090快22.5倍、比JetsonOrinNano快6.9倍,且精度下降不足2.5%。
深度分析
隨著視覺語言模型被廣泛應用於決策系統,研究其視覺輸入對行為的影響變得關鍵。本研究以迭代囚徒困境為測試平台,測試呈現善意或自私圖像及紅綠色獎勵矩陣的視覺原初效應。結果顯示,多數模型的合作決策會受圖像與顏色提示左右,且不同緩解策略的成效亦有顯著差異。
深度分析
隨著AI代理人能操作電腦圖形介面,安全與資安風險同步升級。研究系統化整理CUAs的威脅類型、防禦手段與評測基準,指出視覺誤判與指令注入等漏洞,呼籲建立統一安全標準與透明機制。同時,本文比較傳統RPA與新興CUA在功能與風險上的差異,並預測此技術將重塑開發者生態與法規治理。
Claude Code
GitHubExplorer發掘開源專案career-ops,結合ClaudeCode與多模式AI代理,提供自動化職缺篩選、履歷產出與批次處理。此系統已評估逾七百職缺,協助使用者快速匹配理想職位。同時支援PDF履歷生成、Go語言儀表板與批次作業,已獲得超過三萬五千星標與七千多次分支,顯示社群高度關注。
深度分析
隨著 AI 從資料中心移向機器人與穿戴裝置,感測與推理的協同設計變得關鍵。人工三分體智慧 (ATI) 以感測優先的分層架構,透過腦幹安全控制、 小腦自動校準與大腦推理子系統,實現感測即時調整與雲端推理分離。實驗顯示,ATI 可將辨識正確率提升至 88%,同時降低 43% 的遠端推理呼叫,顯著提升實體 AI 的效能與資源使用。
深度分析
Anthropic 推出全新通用模型 Claude Opus 4.7,聚焦軟體工程與創意輸出;同時 Mythos Preview 仍是資安領域最強模型,評估結果全面領先。兩者功能差異顯示 Anthropic 在商業化與安全控制間的取捨,預示 AI 產業未來將在開放與限制之間持續博弈。
深度分析
MiniMax 針對 AI 代理缺乏多媒體生成能力的痛點,推出 MMX-CLI 指令列介面,將文字、影像、影片、語音、音樂、視覺與搜尋七大生成模態封裝為 shell 命令,免除 Model Context Protocol 整合。指令支援模型選擇、參數調整與非同步執行,並提供認證與配額管理。此舉將大幅降低代理開發門檻,促進多模態 AI 應用的快速落地。
生成式 AI
伊朗創作者團體 Explosive Media 利用生成式 AI 打造樂高風格諷刺動畫,將政治人物擬人化,以黑色幽默挑戰白宮的軍事敘事。這些病毒式影片揭示了生成式 AI 如何在現代資訊戰中,透過視覺語言的通用性與快速迭代,讓非國家級力量能以低成本低門檻地挑戰權威敘事,奪取社群媒體上的話語權。
Muse Spark
Meta 推出新 AI 模型 Muse Spark,讓 Meta AI App 在美國 App Store 排名從第 57 位直接衝到第 5 位!新模型支持多模態輸入與視覺化編碼,可協助用戶快速建立網站和小遊戲。雖然仍落後於 ChatGPT 與 Claude,但 Meta 的強勢追趕已讓全球安裝量突破 6,000 萬次。