Deep Scraper
2026-03-27
新闻来源:网淘吧
围观:45
电脑广告
手机广告
技能:deep-scraper
概述
一款用于深度网络抓取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境,能够突破 YouTube 和 X/Twitter 等复杂网站的保护措施,提供“拦截级别”的原始数据。
要求
- Docker:必须在主机上安装并运行。
- 镜像:使用标签
clawd-crawlee构建环境。- 构建命令:
docker build -t clawd-crawlee skills/deep-scraper/
- 构建命令:
集成指南
只需将skills/deep-scraper目录复制到您的skills/文件夹中。确保 Dockerfile 保留在技能目录内,以便进行独立的部署。
标准接口 (CLI)
docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]
输出规范 (JSON)
抓取结果以 JSON 字符串形式打印到标准输出:
status:SUCCESS | PARTIAL | ERRORtype:TRANSCRIPT | DESCRIPTION | GENERICvideoId:(针对 YouTube)经过验证的视频 ID。data:核心文本内容或字幕。
核心规则
- ID 验证:所有 YouTube 任务必须验证视频 ID,以防止缓存污染。
- 隐私:严格禁止抓取受密码保护或非公开的个人信息。
- 专注 Alpha:自动过滤广告和噪音,提供为 LLM 处理优化的纯净数据。
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~