抽样助手
地图帮2026-03-10
抽样助手
十万行数据跑分析太慢,想先抽一部分试试?
你有一份十万行的数据,跑一次完整分析要好几分钟。你想先抽一部分出来试试看 —— 但随便取前 1000 行怕不够有代表性,万一前面全是北京的数据呢?
抽样助手帮你科学地从大数据集中抽取样本。支持三种抽样方法,还能对比抽样前后的分布差异,确保样本能代表整体。
你需要准备什么
- 一份 Excel 或 CSV 文件(数据量越大,抽样越有意义)
跟着走
第一步:导入数据
打开数据魔方,点击顶部「数据分析」标签页,找到「抽样助手」卡片,点进去。
导入你的数据文件。导入成功后,下方显示数据预览和总行数。
第二步:选择抽样方法和参数
参数面板里有这些设置:
- 抽样方法 —— 三种可选:
| 方法 | 原理(用人话说) | 什么时候用 |
|---|---|---|
| 随机抽样 | 每一行被抽中的概率相同,完全随机 | 大多数情况用它就够了 |
| 分层抽样 | 先按某列分组(比如"城市"),再从每组里按比例抽取,保证每个组都有代表 | 数据里有明确分类,你想确保每类都被抽到 |
| 系统抽样 | 每隔固定间距抽一行(比如每隔 100 行抽 1 行) | 数据本身有顺序的时候用 |
- 样本量 —— 你想抽多少行。可以填具体数字(比如 1000),也可以填比例(比如 10%)
- 分层列(仅分层抽样) —— 按哪一列分层(比如"城市""品类")
- 随机种子 —— 默认 42。同一个种子每次抽出来的结果一样,方便你复现。不用改它,除非你想每次抽不同的样本
不知道选哪个?选随机抽样,样本量 1000 或 10%,先跑一次看看效果。
⚠️ 这里很多人会犯一个错:用分层抽样的时候,分层列选了一列唯一值特别多的字段(比如"姓名"),结果每层只有 1 行,抽出来跟原始数据差不多。分层列应该选"种类少的分类字段" —— 比如城市(几十个)、性别(2-3 个)、等级(几个)。
第三步:查看结果
点击「开始分析」按钮。结果包含两部分:
抽样结果: 抽出来的样本数据。左上角会显示"原始 100000 行 → 样本 1000 行"。
分布对比表: 系统会自动对比抽样前后的数值列分布 —— 包括每列的原始均值 vs 样本均值、原始标准差 vs 样本标准差。
到这里,你的屏幕应该是这样的:上方是样本数据表格,下方是分布对比表。
💡 说到这里要特别提醒你:如果对比表显示原始均值和样本均值差距很大,说明这次抽样的代表性不太好。你可以:①增加样本量;②换分层抽样保证各类比例一致;③换一个随机种子重新抽一次。
第四步:导出结果
点击「导出」把抽样后的样本数据保存为 Excel 或 CSV。
做完了,检查一下
如果你拿到了一份样本数据,行数是你设置的样本量,而且分布对比表显示均值和标准差跟原始数据接近——说明抽样结果是可靠的。
