海量表格数据处理助手
海量表格数据处理助手
打开一份 CSV,发现全是脏数据?
你打开一份 CSV 文件 —— 有重复行、有空值、列名乱七八糟、日期格式不统一、某些列的值需要替换。手动清洗几万行?光想想就头大。
海量表格数据处理助手是数据魔方里功能最全的清洗工具。它有 4 个操作标签页、20 多种清洗操作,从预览到清洗到分割到导出,一站式搞定。而且每一步操作都可以撤销 —— 改错了随时退回去,不用怕。
你需要准备什么
- 一份 CSV、Excel 或 SHP 表格文件
- 想好你要做什么清洗(去重?填充空值?替换内容?筛选行?)
跟着走
第一步:导入数据
打开数据魔方,点击顶部「数据处理」标签页,找到「海量表格数据处理助手」卡片,点进去。
页面上方有一个导入区域,支持拖拽上传。把你的文件丢进去 —— 如果是 CSV 文件,系统会自动检测编码和分隔符。如果自动检测不对,你也可以手动选择。
导入成功后,下方会出现数据预览表格,左上角显示行数和列数。
第二步:切换到你需要的操作标签
页面中间有 4 个标签页,点击切换:
- 数据预览 —— 查看当前数据的样子,随时回来确认
- 格式转换 —— 修改列的数据类型(文本转数值、数值转日期等)
- 数据分割 —— 把一张大表按条件拆分成多个小文件
- 数据清洗 —— 这是重头戏,20 多种操作都在这里
第三步:做数据清洗
点击「数据清洗」标签页。左侧是操作列表,常用的有:
| 操作 | 说明 |
|---|---|
| 去重 | 按指定列去除重复行 |
| 删除空行 | 把含有空值的行删掉 |
| 删除列 | 不需要的列直接删掉 |
| 查找替换 | 把"北京市"统一改成"北京" |
| 条件筛选 | 只保留满足条件的行(比如"金额 > 100") |
| 类型转换 | 把文本列转成数值、日期列转成文本 |
| 填充空值 | 用均值、中位数、固定值或前后值填充空格 |
| 列拆分 | 把"北京市朝阳区"拆成"北京市"和"朝阳区"两列 |
| 日期提取 | 从日期列提取年、月、日、星期 |
| 分箱 | 把连续数值切分成区间(比如把年龄分成"18-25""26-35") |
| 分组聚合 | 按某列分组做求和、计数等统计 |
| 字段计算 | 用公式新建一列(比如"单价 × 数量 = 总价") |
| 重命名列 | 给列换个名字 |
| 排序 | 按某列升序或降序排列 |
选择一个操作,右侧会出现对应的参数面板。填好参数后点击「执行」,数据表格会立刻更新。
到这里,你的屏幕应该是这样的:表格里的数据已经变了,左上角的行数也更新了。
⚠️ 这里很多人会犯一个错:做了好几步清洗操作后,发现第二步做错了,想全部撤销。别慌 —— 页面上有「撤销」按钮,每点一次退回一步。你的每一步操作都被记录了,可以一直退回到最初导入的状态。
💡 说到这里要特别提醒你:「条件筛选」里填的条件格式是 Python 表达式,比如 金额 > 100 或者 城市 == "北京"。注意等号要写两个 ==,不是一个 =。写错了会报语法错误。
第四步:导出结果
清洗完成后,点击导出按钮,把处理好的数据保存为 Excel 或 CSV。
如果你用的是「数据分割」功能,拆分后的多个文件会自动保存到你指定的目录。
做完了,检查一下
如果你导出的数据没有重复行、空值被填充了、格式统一了、不需要的列也删掉了——说明数据清洗已经完成了。
