异常值检测助手
地图帮2026-03-10
异常值检测助手
数据里有几行数值特别离谱,是录入错误还是真实的?
你在看一份销售数据,大部分订单金额在 100-500 元之间,但有几行突然蹦出个 99999。是录入错误?还是真的有一笔大单?你需要先找出这些"异常值",再决定怎么处理。
异常值检测助手帮你自动识别数据中的异常值。选择检测方法和阈值,系统会标记出每一列的异常行,并告诉你异常率是多少。你可以选择导出标记版数据、只导出异常行、或者只导出清洗后的干净数据。
你需要准备什么
- 一份 Excel 或 CSV 文件,至少包含 1 列数值数据
跟着走
第一步:导入数据
打开数据魔方,点击顶部「数据分析」标签页,找到「异常值检测助手」卡片,点进去。
导入你的数据文件。系统会自动识别数值列。
第二步:选择检测方法和参数
在参数面板里:
- 选择数值列 —— 勾选你想检测的列,可以多选
- 检测方法 —— 有三种:
| 方法 | 原理(用人话说) | 默认阈值 |
|---|---|---|
| IQR | 算出数据的"正常范围"(25% 分位到 75% 分位),超出这个范围太多的就是异常。最常用,对大多数数据都好使 | 1.5 |
| Z-score | 算出每个值偏离平均值多少个标准差。偏得太远的就是异常。适合数据大致对称的情况 | 3.0 |
| Modified Z-score | 和 Z-score 类似,但用中位数代替均值,不容易被极端值干扰。数据偏态严重的时候用它 | 3.5 |
不知道选哪个?选 IQR,阈值保持 1.5,大多数情况够用了。
这里解释一下 IQR 的阈值:1.5 是统计学里的经典取值。调大一点(比如 3.0),检测会更宽松,只有特别离谱的才算异常;调小一点(比如 1.0),检测会更严格,更多的值会被标记为异常。不用记住这个公式,知道"越大越宽松"就行。
⚠️ 这里很多人会犯一个错:选了好几列做检测,结果发现异常率特别高(比如 30%)。别急着觉得数据有问题 —— 先看看是不是阈值设得太严了。把阈值从 1.5 调到 2.0 或 3.0 试试,异常率会明显下降。
第三步:查看结果
点击「开始分析」按钮。结果分两部分:
各列异常率摘要:
| 列名 | 异常数 | 总行数 | 异常占比 | 下界 | 上界 |
|---|---|---|---|---|---|
| 销售额 | 23 | 5000 | 0.46% | -150.00 | 850.00 |
| 成本 | 8 | 5000 | 0.16% | 10.00 | 320.00 |
"下界"和"上界"是系统算出的正常范围 —— 低于下界或高于上界的值就被标记为异常。
三种导出选项:
- 标记版 —— 原始数据多了几列标记(
_is_outlier为 1 表示这行有异常,_outlier_销售额为 1 表示这列是异常) - 异常行子集 —— 只包含被标记为异常的那些行
- 清洗后数据 —— 去掉异常行后的干净数据
第四步:导出结果
根据你的需求选择导出哪一种。点击对应的「导出」按钮即可。
做完了,检查一下
如果你看到了各列的异常摘要,异常率合理、下界上界也对得上你对数据的认知——说明异常检测已经完成了。
