Agentic Paper Digest Skill技能使用说明
2026-03-29
新闻来源:网淘吧
围观:21
电脑广告
手机广告
智能体论文摘要工具
使用场景
- 从arXiv和Hugging Face获取最新论文摘要。
- 生成JSON格式输出供下游智能体使用。
- 需要轮询工作流时运行本地API服务器。
环境要求
- 需要Python 3和网络连接。
- 通过以下方式访问LLM:
OPENAI_API_KEY或通过OpenAI兼容服务商:LITELLM_API_BASE加LITELLM_API_KEY。 git为可选的初始化工具;否则使用curl或wget(或Python)下载代码库。
获取代码并安装
- 推荐方式:运行初始化辅助脚本。该脚本优先使用git,若不支持则自动回退至压缩包下载方式。
bash "{baseDir}/scripts/bootstrap.sh"
- 通过设置
PROJECT_DIR来覆盖克隆位置。
PROJECT_DIR="$HOME/agentic_paper_digest" bash "{baseDir}/scripts/bootstrap.sh"
运行(推荐使用CLI)
bash "{baseDir}/scripts/run_cli.sh"
- 根据需要传递CLI标志。
bash "{baseDir}/scripts/run_cli.sh" --window-hours 24 --sources arxiv,hf
运行(API可选)
bash "{baseDir}/scripts/run_api.sh"
- 触发运行并读取结果。
curl -X POST http://127.0.0.1:8000/api/run
curl http://127.0.0.1:8000/api/status
curl http://127.0.0.1:8000/api/papers
- 如果需要,停止API服务器。
bash "{baseDir}/scripts/stop_api.sh"
输出
- CLI
--json打印run_id、seen、kept、window_start和window_end。 - 数据存储:
data/papers.sqlite3(位于PROJECT_DIR). - API:
POST /api/run,GET /api/status,GET /api/papers,GET/POST /api/topics,GET/POST /api/settings.
配置
配置文件位于PROJECT_DIR/config目录下。环境变量可以在shell中设置,或通过.env文件设置。这里的包装器会自动从PROJECT_DIR目录加载.env文件(可通过ENV_FILE=/path/to/.env覆盖此路径)。
环境变量(.env 文件或导出的变量)

OPENAI_API_KEYOpenAI模型所需项(litellm会读取此配置)。LITELLM_API_BASE,LITELLM_API_KEY:使用兼容OpenAI的代理/服务提供商。LITELLM_MODEL_RELEVANCE,LITELLM_MODEL_SUMMARY:用于相关性判断和摘要生成的模型(若未设置摘要模型,则默认使用相关性模型)。LITELLM_TEMPERATURE_RELEVANCE,LITELLM_TEMPERATURE_SUMMARY:较低值可使输出更具确定性。LITELLM_MAX_RETRIES:LLM调用的重试次数。LITELLM_DROP_PARAMS=1:丢弃不支持的参数以避免提供商错误。WINDOW_HOURS,APP_TZ:时间窗口(小时)和时区设置。ARXIV_CATEGORIES逗号分隔的类别(默认包含cs.CL,cs.AI,cs.LG,stat.ML,cs.CR)。ARXIV_API_BASE、HF_API_BASE:如有需要,可覆盖源端点。ARXIV_MAX_RESULTS、ARXIV_PAGE_SIZE:arXiv 分页限制。MAX_CANDIDATES_PER_SOURCE:在 LLM 过滤前,每个源的候选数量上限。FETCH_TIMEOUT_S、REQUEST_TIMEOUT_S:源获取和每个请求的超时时间。ENABLE_PDF_TEXT=1:在摘要中包含第一页 PDF 文本;需要PyMuPDF(pip install pymupdf)。DATA_DIR位置papers.sqlite3。CORS_ORIGINS:API服务器允许的逗号分隔的源(供UI使用)。- 路径覆盖:
TOPICS_PATH、SETTINGS_PATH、AFFILIATION_BOOSTS_PATH。
配置文件
config/topics.json:包含id、label、description、max_per_topic和keywords的主题列表。相关性分类器必须严格按照此处定义的格式输出主题ID。每个主题的最大数量同时限制结果数量GET /api/papers当apply_topic_caps=1时config/settings.json:覆盖获取限制(arxiv_max_results、arxiv_page_size、fetch_timeout_s、max_candidates_per_source)。通过POST /api/settings更新config/affiliations.json:包含{pattern, weight}模式的列表,通过子字符串匹配应用于机构名称以进行权重提升。权重累加并上限为1.0。无效的JSON会禁用权重提升,因此请保持文件为严格的JSON格式(无尾随逗号)。
强制性工作流程(请逐步遵循)
- 你首先必须打开并读取来自GitHub仓库的配置:https://github.com/matanle51/agentic_paper_digest你已下载:
- 加载
config/topics.json、config/settings.json以及config/affiliations.json(如果存在)。 - 在请求用户更改之前,注意当前的主题ID、上限和获取限制。
- 加载
- 请用户提供以下偏好设置(协助用户):
- 感兴趣的主题→ 更新
config/topics.json(topics[].id/label/description/keywords、max_per_topic)。
显示当前默认值,并询问是保留还是更改它们。 - 时间窗口(小时)→ 设置
WINDOW_HOURS(或通过CLI传递--window-hours参数)仅在用户关注此设置时;否则默认保持为24小时。 - 请用户填写以下参数(向用户解释其用途):
ARXIV_CATEGORIES、ARXIV_MAX_RESULTS、ARXIV_PAGE_SIZE、MAX_CANDIDATES_PER_SOURCE。
询问是否保持默认值并显示当前值。 - 模型/提供商→ 设置
OPENAI_API_KEY或LITELLM_API_KEY(加上LITELLM_API_BASE如果设置了代理),并设置LITELLM_MODEL_RELEVANCE/LITELLM_MODEL_SUMMARY。 - 默认情况下不要询问:时区、质量与成本、超时设置、PDF文本、机构偏好、来源列表。除非用户要求更改,否则使用默认值。
- 感兴趣的主题→ 更新
- 确认工作空间路径:询问克隆/运行的位置。默认设置为
PROJECT_DIR="$HOME/agentic_paper_digest"如果用户不介意。永远不要硬编码/Users/...这样的路径。 - 引导仓库:运行引导脚本(除非仓库已存在且用户要求跳过)。
- 创建或验证
.env文件:- 如果
.env文件缺失,则根据.env.example(在仓库中),然后请用户填写密钥和任何请求的偏好设置。 - 确保在运行前至少设置了
OPENAI_API_KEY或LITELLM_API_KEY中的一个。
- 如果
- 应用配置更改:
- 直接编辑JSON文件(或如果运行API,使用
POST /api/topics和POST /api/settings)。
- 直接编辑JSON文件(或如果运行API,使用
- 运行流程:
- 对于一次性JSON输出,推荐使用
scripts/run_cli.sh。 - 仅当用户明确要求UI/API访问或轮询时,才使用
scripts/run_api.sh。
- 对于一次性JSON输出,推荐使用
- 报告结果:
- 如果结果稀疏,建议增加
窗口小时数,arXiv最大结果数,或拓展主题范围。
- 如果结果稀疏,建议增加
获取良好结果
- 帮助用户定义并保持主题聚焦且互斥,以便分类器能选择正确的ID。
- 如果质量很重要,为摘要使用比相关性更强的模型。
- 如果使用OpenAI的模型,默认选择gpt-5-mini以获得良好的权衡效果。
- 增加
窗口小时数或arXiv最大结果数当结果稀疏时,或在结果过于嘈杂时降低它们。 - 调整
arXiv类别以适应您的研究领域。 - 当摘要内容过于单薄时,启用PDF文本(
ENABLE_PDF_TEXT=1)。 - 使用适度的隶属关系权重来偏置排名,而不淹没相关性。
- 积极主动,帮助用户调整技能以获得良好结果!
故障排除
- 端口8000被占用:运行
bash "{baseDir}/scripts/stop_api.sh"或向API命令传递--port参数。 - 结果为空:增加
WINDOW_HOURS或验证.env文件中的API密钥。 - 缺少API密钥错误:在运行前于终端中导出
OPENAI_API_KEY或LITELLM_API_KEY环境变量。
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~