网淘吧来吧,欢迎您!

AnyCrawl-API

2026-03-30 新闻来源:网淘吧 围观:7
电脑广告
手机广告

AnyCrawl技能

AnyCrawl API与OpenClaw的集成 - 通过高性能多线程爬虫抓取、爬取和搜索网页内容。

设置

方法一:环境变量(推荐)

export ANYCRAWL_API_KEY="your-api-key"

通过添加到以下文件使其永久生效:~/.bashrc~/.zshrc

AnyCrawl-API

echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc

在此处获取您的API密钥:https://anycrawl.dev

方法二:OpenClaw网关配置

openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"

功能

1. anycrawl_scrape

抓取单个URL并将其转换为LLM就绪的结构化数据。

参数:

  • url(字符串,必需):要抓取的URL
  • engine(字符串,可选):抓取引擎 -"cheerio"(默认),"playwright""puppeteer"格式
  • (数组,可选):输出格式 -["markdown"],["html"],["text"],["json"],["screenshot"]超时
  • (数字,可选):超时时间,单位为毫秒(默认值:30000)等待时间
  • (数字,可选):提取前的延迟时间,单位为毫秒(仅限浏览器引擎)等待选择器
  • (字符串/对象/数组,可选):等待CSS选择器包含标签
  • (数组,可选):仅包含这些HTML标签(例如,["h1", "p", "article"]排除标签
  • exclude_tags(数组,可选):排除这些HTML标签
  • 代理(字符串,可选):代理URL(例如,"http://proxy:port"
  • json_options(对象,可选):使用模式/提示进行JSON提取
  • extract_source(字符串,可选):"markdown"(默认)或"html"

示例:

// Basic scrape with default cheerio
anycrawl_scrape({ url: "https://example.com" })

// Scrape SPA with Playwright
anycrawl_scrape({ 
  url: "https://spa-example.com",
  engine: "playwright",
  formats: ["markdown", "screenshot"]
})

// Extract structured JSON
anycrawl_scrape({
  url: "https://product-page.com",
  engine: "cheerio",
  json_options: {
    schema: {
      type: "object",
      properties: {
        product_name: { type: "string" },
        price: { type: "number" },
        description: { type: "string" }
      },
      required: ["product_name", "price"]
    },
    user_prompt: "Extract product details from this page"
  }
})

2. anycrawl_search

搜索Google并返回结构化结果。

参数:

  • 查询(字符串,必需):搜索查询
  • 引擎(字符串,可选):搜索引擎 -"google"(默认)
  • limit(数字,可选):每页最大结果数(默认:10)
  • 偏移量(数字,可选):要跳过的结果数量(默认值:0)
  • 页数(数字,可选):要检索的页数(默认值:1,最大值:20)
  • 语言(字符串,可选):语言区域设置(例如,"en""zh""vi"
  • 安全搜索(数字,可选):0(关闭)、1(中等)、2(严格)
  • 抓取选项(对象,可选):使用这些选项抓取每个结果URL

示例:

// Basic search
anycrawl_search({ query: "OpenAI ChatGPT" })

// Multi-page search in Vietnamese
anycrawl_search({ 
  query: "hướng dẫn Node.js",
  pages: 3,
  lang: "vi"
})

// Search and auto-scrape results
anycrawl_search({
  query: "best AI tools 2026",
  limit: 5,
  scrape_options: {
    engine: "cheerio",
    formats: ["markdown"]
  }
})

3. anycrawl_crawl_start

开始抓取整个网站(异步任务)。

参数:

  • 网址(字符串,必需):开始抓取的种子URL
  • 引擎(字符串,可选):"cheerio"(默认值),"playwright""puppeteer"
  • 策略(字符串,可选):"all""same-domain"(默认值),"same-hostname""same-origin"
  • 最大深度(数字,可选):从种子URL开始的最大深度(默认值:10)
  • 限制(数字,可选):要爬取的最大页面数(默认值:100)
  • 包含路径(数组,可选):要包含的路径模式(例如,["/blog/*"]
  • 排除路径(数组,可选):要排除的路径模式(例如,["/admin/*"])
  • scrape_paths(数组,可选):仅抓取匹配这些模式的URL
  • scrape_options(对象,可选):每页的抓取选项

示例:

// Crawl entire website
anycrawl_crawl_start({ 
  url: "https://docs.example.com",
  engine: "cheerio",
  max_depth: 5,
  limit: 50
})

// Crawl only blog posts
anycrawl_crawl_start({
  url: "https://example.com",
  strategy: "same-domain",
  include_paths: ["/blog/*"],
  exclude_paths: ["/blog/tags/*"],
  scrape_options: {
    formats: ["markdown"]
  }
})

// Crawl product pages only
anycrawl_crawl_start({
  url: "https://shop.example.com",
  strategy: "same-domain",
  scrape_paths: ["/products/*"],
  limit: 200
})

4. anycrawl_crawl_status

检查抓取任务状态。

参数:

  • job_id(字符串,必需):抓取任务ID

示例:

anycrawl_crawl_status({ job_id: "7a2e165d-8f81-4be6-9ef7-23222330a396" })

5. anycrawl_crawl_results

获取抓取结果(分页)。

参数:

  • job_id(字符串,必需):抓取任务ID
  • skip(数字,可选):跳过的结果数量(默认:0)

示例:

// Get first 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })

// Get next 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 100 })

6. anycrawl_crawl_cancel

取消正在运行的抓取任务。

参数:

  • job_id(字符串,必填):爬虫任务ID

7. anycrawl_search_and_scrape

快速助手:搜索Google并抓取顶部结果。

参数:

  • query(字符串,必填):搜索查询词
  • max_results(数字,可选):要抓取的最大结果数(默认值:3)
  • scrape_engine(字符串,可选):用于抓取的引擎(默认值:"cheerio"
  • formats(数组,可选):输出格式(默认值:["markdown"]
  • lang(字符串,可选):搜索语言

示例:

anycrawl_search_and_scrape({
  query: "latest AI news",
  max_results: 5,
  formats: ["markdown"]
})

引擎选择指南

引擎最佳适用场景速度JS 渲染
cheerio静态 HTML、新闻、博客⚡ 最快❌ 不支持
playwrightSPA、复杂 Web 应用🐢 较慢✅ 支持
puppeteerChrome 专用、指标🐢 较慢✅ 支持

响应格式

所有响应均遵循此结构:

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}

错误响应:

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable message"
}

常见错误代码

  • 400- 错误请求(验证错误)
  • 401- 未授权(API 密钥无效)
  • 402- 需要付款(点数不足)
  • 404- 未找到
  • 429- 请求频率超限
  • 500- 服务器内部错误

API限制

  • 频率限制根据您的套餐类型而定
  • 爬取任务将在24小时后过期
  • 最大爬取限制:取决于可用积分

链接

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Markdown 下一篇:Project Management Guru (ADHD)

相关文章

您是本站第323116名访客 今日有153篇新文章/评论