数据类型
有哪些不同类型的数据?
- 定性数据通常是用文字而不是数字给出的数据描述某物
- 例如:老师车的颜色
- 定量数据是用数字给出的数据计数或测量某物
- 例如:一个学生拥有宠物的数量
- 离散数据是需要量化的数据数
- 离散数据只能取特定的值从一组(通常是有限的)值
- 例如:在得到反面之前抛硬币的次数
- 连续数据是需要量化的数据测量
- 连续数据可以取任何价值在一个无限值的范围内
- 例如:学生的身高
- 年龄可以离散的还是连续的这取决于上下文或它的定义方式
- 如果你指的是一个人的年龄,那么这是离散的
- 如果你指的是一个人活了多久,那么这是连续的
总体和样本的区别是什么?
- 的人口指成套你感兴趣的东西
- 例如:如果兽医想知道一只典型的法国斗牛犬一天睡多长时间,那么它的数量就是世界上所有的法国斗牛犬
- 一个样本指的是人口子集用来收集数据的
- 例如:兽医可能会从不同城市的法国斗牛犬中取样,记录它们一天的睡眠时间
- 一个抽样框架是一个列表所有的成员人口
- 例如:公司内员工的名单
- 使用一个样本而不是总体:
- 又快又便宜
- 导致需要分析的数据更少
- 可能不能完全代表人口
- 可能会产生偏见
抽样技术
什么是随机样本和有偏样本?
- 一个随机样本是否每个群体成员都有均等的机会被纳入样本
- 一个有偏见的样本样品在哪里不是随机的
我需要知道哪些抽样技术?
简单随机抽样
- 简单随机抽样人口中的每一组成员都有一个等概率被选为样本
- 要做到这一点,你必须……
- 对种群中的每个成员进行唯一编号
- 随机选择n使用随机数生成器或抽签形式(其中数字是随机选择的)的不同数字
- 有效性:
- 当你有一个小的人口或想要一个小的样本(如在一个班级的孩子)时很有用。
- 如果样本或总体很大,这可能会很耗时
- 如果不可能对种群的所有成员(如湖中的鱼)进行编号或列出,则不能使用此方法。
系统抽样
- 系统抽样样本是通过使用列表定期选择总体成员形成的吗
- 要做到这一点,你必须……
- 计算间隔的大小
" class="Wirisformula" role="math" alt="k等于分数分子大小的空白总体空白开括号N闭括号除以分母大小的空白样本空白开括号N闭括号结束分数" style="vertical-align:-17px;height:47px;width:194px" loading="lazy">k = size of population N size of sample n {"language":"en","fontFamily":"Times New Roman","fontSize":"18"} - 在1和之间随机选择一个起始点k
- 选择每一个k第一个元素后面的第Th个元素
- 计算间隔的大小
- 有效性:
- 当有一个自然的顺序(比如一个名字的列表或物品的传送带)时很有用。
- 使用方便快捷
- 如果无法对种群的所有成员(如南极洲的企鹅)进行编号或列出,则不能使用此方法。
分层抽样
- 分层抽样将人口划分为不相连的组(称为层),然后从每个组(层)中随机抽取样本。
- 被抽样的阶层的比例等于属于该阶层的人口的比例
- 要做到这一点,你必须……
- 计算从每个阶层中抽样的成员数量
" class="Wirisformula" role="math" alt="分数分子大小空白样本空白左括号n右括号除以分母大小空白总体空白左括号n右括号结束分数交叉乘以空白成员的数量空白空白中空白层" style="vertical-align:-17px;height:47px;width:431px" loading="lazy">size of sample ( n ) size of population ( N ) × number of members in the stratum {"language":"en","fontFamily":"Times New Roman","fontSize":"18"}
- 从每个地层中随机抽取一个样本
- 计算从每个阶层中抽样的成员数量
- 有效性:
- 当种群中有非常不同的成员群体时,这很有用
- 样本将代表人口结构
- 从每个阶层中选出的成员是随机选择的
- 如果人口不能被分割成组或组重叠,则不能使用这种方法
定额抽样
- 定额抽样是否将总体划分为组(如分层抽样),并选择总体成员直到每个配额都被填满
- 要做到这一点,你必须……
- 计算一下每组需要多少人
- 从每个组中选择成员,直到配额填满为止
- 成员不必是随机选择的
- 有效性:
- 在公共场所询问从你身边走过的人或在没有采样框架的情况下收集数据时非常有用
- 这可能会引入偏差,因为一些人口成员可能会选择不包括在样本中
便利抽样
- 便利抽样是指使用符合标准的人口中可用的成员来形成样本
- 要做到这一点,你必须……
- 选择最容易联系到的成员
- 有效性:
- 当无法获得总体列表时非常有用
- 这不太可能代表人口结构
- 这很可能产生有偏见的结果
对抽样技术的主要批评是什么?
- 大多数抽样技术可以通过采取更大的样本来改进
- 抽样可能会带来偏差——所以你想要最小化样本内的偏差
- 为使偏差最小化,样本应尽可能接近随机
- 示例只提供关于这些成员的信息
- 不同的样本可能导致关于总体的不同结论
工作的例子
迈克是一位生物学家,他在一个开放的圈地里研究老鼠。他可以接触到大约540只田鼠和260只收获鼠。迈克想从10只老鼠中抽取样本,他想让样本中两种老鼠的比例反映出它们各自在种群中的比例。
一)
计算迈克的样本中应该包含的田鼠和收获鼠的数量。
b)
假设Mike没有围栏内所有小鼠的列表,请说明此采样方法的名称。
c)
建议一个迈克可以改进他的抽样方法的方法。
数据的可靠性
如何判断数据是否可靠?
- 一个样本的数据是可靠的,如果从同一人口的不同样本中得到类似的结果
- 样本应该是代表人口的数量
- 样本应该是足够大的
- 对一小部分人口进行抽样不太可能可靠
什么会导致数据不可靠?
- 如果样本是有偏见的
- 它是不是随机的
- 如果错误收集数据时做了什么
- 数字可能被错误记录、重复或遗漏
- 如果收集数据的人偏爱某些成员对他人
- 他们可能会寻找那些能带来预期结果的成员
- 他们可能会排除那些会导致样本反对预期结果的成员
- 如果有相当大的比例数据缺失
- 可能导致部分数据不可用
- 一些成员可能决定不成为样本的一部分
- 这意味着结果不一定能代表整个人口