AnyCrawl-API
2026-03-30
新闻来源:网淘吧
围观:7
电脑广告
手机广告
AnyCrawl技能
AnyCrawl API与OpenClaw的集成 - 通过高性能多线程爬虫抓取、爬取和搜索网页内容。
设置
方法一:环境变量(推荐)
export ANYCRAWL_API_KEY="your-api-key"
通过添加到以下文件使其永久生效:~/.bashrc或~/.zshrc:

echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc
在此处获取您的API密钥:https://anycrawl.dev
方法二:OpenClaw网关配置
openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"
功能
1. anycrawl_scrape
抓取单个URL并将其转换为LLM就绪的结构化数据。
参数:
url(字符串,必需):要抓取的URLengine(字符串,可选):抓取引擎 -"cheerio"(默认),"playwright""puppeteer"格式(数组,可选):输出格式 -["markdown"],["html"],["text"],["json"],["screenshot"]超时(数字,可选):超时时间,单位为毫秒(默认值:30000)等待时间(数字,可选):提取前的延迟时间,单位为毫秒(仅限浏览器引擎)等待选择器(字符串/对象/数组,可选):等待CSS选择器包含标签(数组,可选):仅包含这些HTML标签(例如,["h1", "p", "article"])排除标签exclude_tags(数组,可选):排除这些HTML标签代理(字符串,可选):代理URL(例如,"http://proxy:port")json_options(对象,可选):使用模式/提示进行JSON提取extract_source(字符串,可选):"markdown"(默认)或"html"
示例:
// Basic scrape with default cheerio
anycrawl_scrape({ url: "https://example.com" })
// Scrape SPA with Playwright
anycrawl_scrape({
url: "https://spa-example.com",
engine: "playwright",
formats: ["markdown", "screenshot"]
})
// Extract structured JSON
anycrawl_scrape({
url: "https://product-page.com",
engine: "cheerio",
json_options: {
schema: {
type: "object",
properties: {
product_name: { type: "string" },
price: { type: "number" },
description: { type: "string" }
},
required: ["product_name", "price"]
},
user_prompt: "Extract product details from this page"
}
})
2. anycrawl_search
搜索Google并返回结构化结果。
参数:
查询(字符串,必需):搜索查询引擎(字符串,可选):搜索引擎 -"google"(默认)limit(数字,可选):每页最大结果数(默认:10)偏移量(数字,可选):要跳过的结果数量(默认值:0)页数(数字,可选):要检索的页数(默认值:1,最大值:20)语言(字符串,可选):语言区域设置(例如,"en"、"zh"、"vi")安全搜索(数字,可选):0(关闭)、1(中等)、2(严格)抓取选项(对象,可选):使用这些选项抓取每个结果URL
示例:
// Basic search
anycrawl_search({ query: "OpenAI ChatGPT" })
// Multi-page search in Vietnamese
anycrawl_search({
query: "hướng dẫn Node.js",
pages: 3,
lang: "vi"
})
// Search and auto-scrape results
anycrawl_search({
query: "best AI tools 2026",
limit: 5,
scrape_options: {
engine: "cheerio",
formats: ["markdown"]
}
})
3. anycrawl_crawl_start
开始抓取整个网站(异步任务)。
参数:
网址(字符串,必需):开始抓取的种子URL引擎(字符串,可选):"cheerio"(默认值),"playwright","puppeteer"策略(字符串,可选):"all","same-domain"(默认值),"same-hostname","same-origin"最大深度(数字,可选):从种子URL开始的最大深度(默认值:10)限制(数字,可选):要爬取的最大页面数(默认值:100)包含路径(数组,可选):要包含的路径模式(例如,["/blog/*"])排除路径(数组,可选):要排除的路径模式(例如,["/admin/*"])scrape_paths(数组,可选):仅抓取匹配这些模式的URLscrape_options(对象,可选):每页的抓取选项
示例:
// Crawl entire website
anycrawl_crawl_start({
url: "https://docs.example.com",
engine: "cheerio",
max_depth: 5,
limit: 50
})
// Crawl only blog posts
anycrawl_crawl_start({
url: "https://example.com",
strategy: "same-domain",
include_paths: ["/blog/*"],
exclude_paths: ["/blog/tags/*"],
scrape_options: {
formats: ["markdown"]
}
})
// Crawl product pages only
anycrawl_crawl_start({
url: "https://shop.example.com",
strategy: "same-domain",
scrape_paths: ["/products/*"],
limit: 200
})
4. anycrawl_crawl_status
检查抓取任务状态。
参数:
job_id(字符串,必需):抓取任务ID
示例:
anycrawl_crawl_status({ job_id: "7a2e165d-8f81-4be6-9ef7-23222330a396" })
5. anycrawl_crawl_results
获取抓取结果(分页)。
参数:
job_id(字符串,必需):抓取任务IDskip(数字,可选):跳过的结果数量(默认:0)
示例:
// Get first 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })
// Get next 100 results
anycrawl_crawl_results({ job_id: "xxx", skip: 100 })
6. anycrawl_crawl_cancel
取消正在运行的抓取任务。
参数:
job_id(字符串,必填):爬虫任务ID
7. anycrawl_search_and_scrape
快速助手:搜索Google并抓取顶部结果。
参数:
query(字符串,必填):搜索查询词max_results(数字,可选):要抓取的最大结果数(默认值:3)scrape_engine(字符串,可选):用于抓取的引擎(默认值:"cheerio")formats(数组,可选):输出格式(默认值:["markdown"])lang(字符串,可选):搜索语言
示例:
anycrawl_search_and_scrape({
query: "latest AI news",
max_results: 5,
formats: ["markdown"]
})
引擎选择指南
| 引擎 | 最佳适用场景 | 速度 | JS 渲染 |
|---|---|---|---|
cheerio | 静态 HTML、新闻、博客 | ⚡ 最快 | ❌ 不支持 |
playwright | SPA、复杂 Web 应用 | 🐢 较慢 | ✅ 支持 |
puppeteer | Chrome 专用、指标 | 🐢 较慢 | ✅ 支持 |
响应格式
所有响应均遵循此结构:
{
"success": true,
"data": { ... },
"message": "Optional message"
}
错误响应:
{
"success": false,
"error": "Error type",
"message": "Human-readable message"
}
常见错误代码
400- 错误请求(验证错误)401- 未授权(API 密钥无效)402- 需要付款(点数不足)404- 未找到429- 请求频率超限500- 服务器内部错误
API限制
- 频率限制根据您的套餐类型而定
- 爬取任务将在24小时后过期
- 最大爬取限制:取决于可用积分
链接
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~