firecrawl
Firecrawl 網頁資料 API:抓取 JavaScript 動態頁面並輸出 Markdown 與結構化 JSON
Firecrawl 是一個在 GitHub 上快速竄起的開源專案,定位為可供人工智慧代理人使用的網頁資料 API。專案主張能涵蓋大部分含 JavaScript 的頁面,直接輸出乾淨的 Markdown 與結構化 JSON,並支援截圖、PDF/DOCX 解析與模擬使用者操作(點擊、滾動、輸入等)。
firecrawl
Firecrawl 是一個在 GitHub 上快速竄起的開源專案,定位為可供人工智慧代理人使用的網頁資料 API。專案主張能涵蓋大部分含 JavaScript 的頁面,直接輸出乾淨的 Markdown 與結構化 JSON,並支援截圖、PDF/DOCX 解析與模擬使用者操作(點擊、滾動、輸入等)。
python
Scrapling 是一個在 GitHub 上廣受關注的開源專案,以 Python 為主要語言,定位為能由單一請求擴展到完整爬取工作的自適應網頁擷取框架。專案 README 與社群資源顯示,它結合瀏覽器自動化風格的操作、彈性的選擇器策略與反偵測技術,並提供與代理人技能整合的擴充選項。
Model Context Protocol (MCP)
開源的ModelContextProtocol伺服器,讓AI助理透過Google搜尋、爬取含JavaScript的網頁、擷取YouTube字幕與解析PDF/DOCX/PPTX。支援學術與專利檢索,方便資料蒐集與引文擷取,對研究與競爭情報流程具實務價值。