AnyCrawl-API技能使用说明

2026-03-30 新闻来源：网淘吧围观:77

电脑广告

手机广告

AnyCrawl技能

AnyCrawl API与OpenClaw的集成 - 通过高性能多线程爬虫抓取、爬取和搜索网页内容。

设置

方法一：环境变量（推荐）

export ANYCRAWL_API_KEY="your-api-key"

通过添加到以下文件使其永久生效：~/.bashrc或~/.zshrc：

AnyCrawl-API

echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc

在此处获取您的API密钥：https://anycrawl.dev

方法二：OpenClaw网关配置

openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"

功能

1. anycrawl_scrape

抓取单个URL并将其转换为LLM就绪的结构化数据。

参数：

url（字符串，必需）：要抓取的URL
engine（字符串，可选）：抓取引擎 -"cheerio"（默认），"playwright""puppeteer"格式
（数组，可选）：输出格式 -["markdown"],["html"],["text"],["json"],["screenshot"]超时
（数字，可选）：超时时间，单位为毫秒（默认值：30000）等待时间
（数字，可选）：提取前的延迟时间，单位为毫秒（仅限浏览器引擎）等待选择器
（字符串/对象/数组，可选）：等待CSS选择器包含标签
（数组，可选）：仅包含这些HTML标签（例如，["h1", "p", "article"]）排除标签
exclude_tags（数组，可选）：排除这些HTML标签
代理（字符串，可选）：代理URL（例如，"http://proxy:port"）
json_options（对象，可选）：使用模式/提示进行JSON提取
extract_source（字符串，可选）："markdown"（默认）或"html"

示例：

// Basic scrape with default cheerio
anycrawl_scrape({ url: "https://example.com" })

// Scrape SPA with Playwright
anycrawl_scrape({ 
  url: "https://spa-example.com",
  engine: "playwright",
  formats: ["markdown", "screenshot"]
})

// Extract structured JSON
anycrawl_scrape({
  url: "https://product-page.com",
  engine: "cheerio",
  json_options: {
    schema: {
      type: "object",
      properties: {
        product_name: { type: "string" },
        price: { type: "number" },
        description: { type: "string" }
      },
      required: ["product_name", "price"]
    },
    user_prompt: "Extract product details from this page"
  }
})

2. anycrawl_search

搜索Google并返回结构化结果。

参数：

查询（字符串，必需）：搜索查询
引擎（字符串，可选）：搜索引擎 -"google"（默认）
limit（数字，可选）：每页最大结果数（默认：10）
偏移量（数字，可选）：要跳过的结果数量（默认值：0）
页数（数字，可选）：要检索的页数（默认值：1，最大值：20）
语言（字符串，可选）：语言区域设置（例如，"en"、"zh"、"vi"）
安全搜索（数字，可选）：0（关闭）、1（中等）、2（严格）
抓取选项（对象，可选）：使用这些选项抓取每个结果URL

示例：

// Basic search
anycrawl_search({ query: "OpenAI ChatGPT" })

// Multi-page search in Vietnamese
anycrawl_search({ 
  query: "hướng dẫn Node.js",
  pages: 3,
  lang: "vi"
})

// Search and auto-scrape results
anycrawl_search({
  query: "best AI tools 2026",
  limit: 5,
  scrape_options: {
    engine: "cheerio",
    formats: ["markdown"]
  }
})

3. anycrawl_crawl_start

开始抓取整个网站（异步任务）。

参数：

网址（字符串，必需）：开始抓取的种子URL
引擎（字符串，可选）："cheerio"（默认值），"playwright"，"puppeteer"
策略（字符串，可选）："all"，"same-domain"（默认值），"same-hostname"，"same-origin"
最大深度（数字，可选）：从种子URL开始的最大深度（默认值：10）
限制（数字，可选）：要爬取的最大页面数（默认值：100）
包含路径（数组，可选）：要包含的路径模式（例如，["/blog/*"]）
排除路径（数组，可选）：要排除的路径模式（例如，["/admin/*"])
scrape_paths（数组，可选）：仅抓取匹配这些模式的URL
scrape_options（对象，可选）：每页的抓取选项

示例：

// Crawl entire website
anycrawl_crawl_start({ 
  url: "https://docs.example.com",
  engine: "cheerio",
  max_depth: 5,
  limit: 50
})

// Crawl only blog posts
anycrawl_crawl_start({
  url: "https://example.com",
  strategy: "same-domain",
  include_paths: ["/blog/*"],
  exclude_paths: ["/blog/tags/*"],
  scrape_options: {
    formats: ["markdown"]
  }
})

// Crawl product pages only
anycrawl_crawl_start({
  url: "https://shop.example.com",
  strategy: "same-domain",
  scrape_paths: ["/products/*"],
  limit: 200
})

4. anycrawl_crawl_status

检查抓取任务状态。

参数：

job_id（字符串，必需）：抓取任务ID

示例：

anycrawl_crawl_status({ job_id: "7a2e165d-8f81-4be6-9ef7-23222330a396" })

5. anycrawl_crawl_results

获取抓取结果（分页）。

参数：

job_id（字符串，必需）：抓取任务ID
skip（数字，可选）：跳过的结果数量（默认：0）

示例：

// Get first 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })

// Get next 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 100 })

6. anycrawl_crawl_cancel

取消正在运行的抓取任务。

参数：

job_id（字符串，必填）：爬虫任务ID

7. anycrawl_search_and_scrape

快速助手：搜索Google并抓取顶部结果。

参数：

query（字符串，必填）：搜索查询词
max_results（数字，可选）：要抓取的最大结果数（默认值：3）
scrape_engine（字符串，可选）：用于抓取的引擎（默认值："cheerio"）
formats（数组，可选）：输出格式（默认值：["markdown"]）
lang（字符串，可选）：搜索语言

示例：

anycrawl_search_and_scrape({
  query: "latest AI news",
  max_results: 5,
  formats: ["markdown"]
})

引擎选择指南

引擎	最佳适用场景	速度	JS 渲染
`cheerio`	静态 HTML、新闻、博客	⚡ 最快	❌ 不支持
`playwright`	SPA、复杂 Web 应用	🐢 较慢	✅ 支持
`puppeteer`	Chrome 专用、指标	🐢 较慢	✅ 支持

响应格式

所有响应均遵循此结构：

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}

错误响应：

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable message"
}

常见错误代码

400- 错误请求（验证错误）
401- 未授权（API 密钥无效）
402- 需要付款（点数不足）
404- 未找到
429- 请求频率超限
500- 服务器内部错误

API限制

频率限制根据您的套餐类型而定
爬取任务将在24小时后过期
最大爬取限制：取决于可用积分

链接

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Markdown技能使用说明下一篇：Project Management Guru (ADHD)技能使用说明

AnyCrawl-API技能使用说明

AnyCrawl技能

设置

方法一：环境变量（推荐）

方法二：OpenClaw网关配置

功能

1. anycrawl_scrape

2. anycrawl_search

3. anycrawl_crawl_start

4. anycrawl_crawl_status

5. anycrawl_crawl_results

6. anycrawl_crawl_cancel

7. anycrawl_search_and_scrape

引擎选择指南

响应格式

常见错误代码

API限制

链接

相关文章

推荐文章

热门浏览

标签列表