web-scraping - Agents Report

firecrawl

Firecrawl 是一個在 GitHub 上快速竄起的開源專案，定位為可供人工智慧代理人使用的網頁資料 API。專案主張能涵蓋大部分含 JavaScript 的頁面，直接輸出乾淨的 Markdown 與結構化 JSON，並支援截圖、PDF/DOCX 解析與模擬使用者操作（點擊、滾動、輸入等）。

python

Scrapling 是一個在 GitHub 上廣受關注的開源專案，以 Python 為主要語言，定位為能由單一請求擴展到完整爬取工作的自適應網頁擷取框架。專案 README 與社群資源顯示，它結合瀏覽器自動化風格的操作、彈性的選擇器策略與反偵測技術，並提供與代理人技能整合的擴充選項。

Model Context Protocol (MCP)

開源的ModelContextProtocol伺服器，讓AI助理透過Google搜尋、爬取含JavaScript的網頁、擷取YouTube字幕與解析PDF/DOCX/PPTX。支援學術與專利檢索，方便資料蒐集與引文擷取，對研究與競爭情報流程具實務價值。