网淘吧来吧,欢迎您!

Sheetsmith技能使用说明

2026-03-29 新闻来源:网淘吧 围观:13
电脑广告
手机广告

Sheetsmith

概述

Sheetsmith 是一个轻量级的 pandas 包装器,专注于处理 CSV/Excel 文件:预览、描述、过滤、转换和转换这些文件,所有操作均在一个地方完成。其命令行界面位于skills/sheetsmith/scripts/sheetsmith.py,它会自动加载任何 CSV/TSV/Excel 文件,报告结构元数据,运行 pandas 表达式,并安全地将结果写回。

快速入门

  1. 将电子表格(CSV、TSV 或 XLS/XLSX)放入工作区中,或通过完整路径引用它。
  2. 运行python3 skills/sheetsmith/scripts/sheetsmith.py <命令> <路径>,命令如下所述。
  3. 当您修改数据时,可以--output 新文件来保存一个副本,或者传递--inplace来覆盖源文件。
  4. 查看references/usage.md以获取额外的示例命令和技巧。

命令

概要

打印行/列计数、数据类型细分、存在缺失数据的列以及头部/尾部预览。使用--rows参数来控制概要信息后显示多少行数据,使用--tail参数来预览尾部数据而非头部数据。

Sheetsmith

描述

运行pandas.DataFrame.describe(include='all')(可通过--include参数自定义),以便立即查看数值统计信息、基数以及频率信息。提供--percentiles参数以添加额外的百分位线。

预览

以表格形式快速查看前(使用--rows参数)或后(使用--tail参数)几行数据,以便在执行操作前检查列顺序或格式是否正确。

筛选

通过--query输入一个pandas查询字符串(例如,state == 'CA' and population > 1e6)。该命令可以打印筛选后的行,或者当您同时传递--output参数时,将筛选后的表格写入一个新的CSV/TSV/XLSX文件。添加--sample参数可以检查随机子集,而不是整个结果。

转换

组合新列、重命名或删除现有列,并立即检查结果表。提供一个或多个--expr表达式,例如total = quantity * price。使用--rename old:new--drop column来重塑表格,并通过--output--inplace预览版本(不含写入功能)复用与其他命令相同的--rows/--tail标识参数。

convert

在支持的格式(CSV/TSV/Excel)间进行转换。务必通过--output指定含目标扩展名的输出路径,助手将自动匹配对应写入器(Excel使用openpyxl引擎,CSV默认保留逗号分隔符,TSV使用制表符)。这是在执行其他命令前规范化数据的最简方法。

工作流准则

  • 始终保留原始文件副本或写入新路径;仅当明确要求--inplace时脚本才会覆盖原文件。
  • 探索性操作(summarypreviewdescribe) 和编辑 (筛选,转换)。该--输出标志适用于筛选/转换操作,因此您可以轻松地对结果进行分支处理。
  • 在幕后,该脚本依赖 pandas 和tabulate库来生成 Markdown 预览,并支持 Excel/CSV/TSV 格式,因此请确保这些依赖项已安装(pandas、openpyxl、xlrd、tabulate 已通过 apt 安装在此系统上)。
  • 当上述基本命令描述不够用时,请使用references/usage.md获取扩展示例(多步骤清理、数据集比较、表达式技巧)。

参考

  • 使用指南: references/usage.md(包含可直接复制的命令、表达式模式以及数据集清理方案)。

资源

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第326264名访客 今日有221篇新文章/评论