问卷网调研知识_问卷网_定量研究到底多少样本合适？

我相信，很多做定量研究的研究员，在设计一个研究项目的时候，经常会被客户询问：这个项目多少样本量比较合适？也可能会被客户质疑：你觉得这些样本量的代表性就足够了吗？只要是做定量，关于样本量的话题就会一直存在。毕竟，大家都认为，既然是定量，就应该要有量的规模，要具备足够的代表性。所以，也有很多人认为，定量研究能够做的样本量越大越好。

然而实际的工作中，其实样本量大部分情况下是根据经验值来确定的，也受限于客户的预算。因为每个问卷的回收都是付费的，项目也有时间周期的限制，所以，并不可能真的做到非常大量的样本。这也就是为什么，我们统计学中会存在“抽样调查”这一说法。不然的话，所有调查都可以称之为普查了。

那么本文中，就围绕“抽样调查”的样本量设计，做一些简单的探讨。

抽样调查的样本量选择，与 “抽样误差”和“置信度”挂钩。抽样误差是指由于随机抽样的偶然因素，使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全局指标的绝对离差。从理论上来说，样本量越大，抽样误差一定会越小，反之越大。而置信度，也称为置信水平，是指总体参数值落在样本统计值某一区内的概率，置信水平的比例越高，代表着样本和总体的吻合度越高。

有一个比较常用的简易样本量计算公式是这样的：

从公式我们可以看出来，在置信度要求相同的条件下，在北京市进行一项调查，和在全国进行一项调查，样本量的差别并不大。在要调查的总体的量已经很大（达到万以上）时，最低要达到的样本量与总体的总数已无必然联系，而是主要受到误差和置信水平的影响，其最低样本量的确定一般以“一定误差和置信水平下的最小样本量”为主要依据。当然，总体规模越大，进行抽样调查的效率越高。

比如，假设简单随机抽样置信度要求95%，这种情况下，样本量和误差的对应关系如下：

样本量误差

50 0.14

100 0.10

500 0.045

1000 0.032

可以看到，一开始，样本量的增大，的确会让数据结果的精准度有较大的提高，但是，随着样本量的增加，这个精准度的变化会越来越小。因此，为得到最小误差而选择最大样本量，并不是一个必然选择，也没有必要。

有关置信水平和误差的对应关系，业内有一个参考的值，可以用于速查。如下：

而更具体的一个经过实验总结出来的，样本量与研究结果之间的关系的对应表，也可以参考，如下。大家可以注意蓝色字体标注的部分，是比较有用的实际工作参考。

举个例子，如果我们要做一个简单的市场调查项目，并且不是连续跟踪型的，那么考虑到成本控制，一般可行的样本量，总体达到200就可以了。如果需要做一些特定群组的分析，比如男性和女性的对比差异，不同年龄段的对比差异，那么，就要确保每个群组里，样本量至少要有30个样本。而如果你需要区分不同的区域去看数据，比如不同城市，那么你就需要保证每个城市的样本量不少于100。具体要用多少样本，还可以结合客户预算和客户的需求，进一步探讨，但是保底的最小量，我们要确保。同时也记住，即使客户有预算，也并不是非要做到足够大的样本量，随着样本量的增加，数据精准度的变化会越来越小。

以下再简要罗列一下，通常情况下常见的几个样本量选择，有什么统计学意义：

30样本：调查结果基本可以分出高、中、低的区别，整体态势可以作参考，但是绝对值多数会与真实值有一定的误差；

100样本：调查结果开始接近现实，能反映市场大致情况，但数据排名的稳定性不够，不建议作为跟踪对比的依据，因此品牌追踪类研究不建议只有100样本；

200样本：调查结果已经相当接近真实情况，30次可能会有一次与真实的排名有误差；

300样本量：调查结果基本可以说与现实一致，是非常优秀的定量研究调查样本量。

以此为参考，就可以较为快速地设计你的调研样本量方案，而不需要太复杂的样本量计算了。