离群值
什么是异常值?
- 异常值是不符合数据一般模式的极端数据值
- 它们可能来自一两个极端事件,也可能来自数据收集中的错误
- 离群值将影响从数据中计算出的一些统计数据
- 它们对均值有很大影响,但对中位数或通常对众数没有影响
- 一个异常值将完全改变范围,但四分位数范围不会受到影响
- 在计算平均值或范围时,重要的是决定是否应将异常值包括在计算中
- 这个问题会告诉你是否包含异常值
- 您可能必须决定哪个值是要删除的离群值
- 一般来说,如果异常值是有效的数据,则将其包括在内,如果异常值可能是错误的,则排除在外
异常值是如何计算的?
- 在这个教学大纲中,大多数情况下,离群值是在四分位范围
- 计算离群值最常见的方法是使用以下公式:
- 小于的值
" class="Wirisformula" role="math" alt="开始mathsize 16px样式Q下标1 - k结束样式" style="vertical-align:-11px;height:26px;width:43px" loading="lazy">(四分位范围)Q 1 - k {"language":"en","fontFamily":"Times New Roman","fontSize":"18"} - 大于的值
" class="Wirisformula" role="math" alt="开始mathsize 16px样式Q下标3加k结束样式" style="vertical-align:-11px;height:26px;width:43px" loading="lazy">(四分位范围)Q 3 + k {"language":"en","fontFamily":"Times New Roman","fontSize":"18"} - k考试中通常会出现一个常数吗k =1.5
- 小于的值
- 计算离群值最常见的方法是使用以下公式:
- 异常值也可能位于若干标准差远离的意思是
- 计算离群值最常用的方法是使用以下公式
- 小于的值
" class="Wirisformula" role="math" alt="开始mathsize 16px样式x,顶部的条减去k sigma结束样式" style="vertical-align:-4px;height:21px;width:42px" loading="lazy">x ¯ - k σ {"language":"en","fontFamily":"Times New Roman","fontSize":"18"} - 大于的值
" class="Wirisformula" role="math" alt="尺寸为16px x,顶部为16px bar,尺寸为16px k,尺寸为16px sigma" style="vertical-align:-4px;height:21px;width:45px" loading="lazy">x ¯ + k σ {"language":"en","fontFamily":"Times New Roman","fontSize":"18"} - k考试中通常会出现一个常数吗
" class="Wirisformula" role="math" alt="开始mathsize 16px样式k等于2结束样式" style="vertical-align:-4px;height:19px;width:34px" loading="lazy">k = 2 {"language":"en","fontFamily":"Times New Roman","fontSize":"18"}
- 小于的值
- 计算离群值最常用的方法是使用以下公式
箱形图上的异常值是如何表示的?
- 在箱形图上,异常值表示为最大值或最小值两侧的十字
- 如果发现最大值或最小值为离群值,则新需要为箱形图找到最大值或最小值
- 如果已知数据值刚好高于最小值或刚好低于最大值,则此值将成为新值
- 如果数据值未知,则新的最小值或最大值将成为离群边界
清理数据
什么时候应该清理数据?
- 应该通过研究数据的背景来检查异常值的原因
- 例如:
- 测试分数超过100%很可能是数据收集错误
- 该公司首席执行官的薪水可能比其他人高得多
- 如果确定异常值来自数据收集中的错误,则应从数据中删除该异常值。
- 调用删除不正确的数据值清理数据
- 仔细考虑是否应该删除数据值是很重要的
- 如果数据值不是错误,则不应从数据中删除它
- 如果在进行计算之前从数据集中删除了一个数据值,则必须给出删除异常值的理由
- 清理数据还包括删除丢失的数据和错误
工作的例子
参加生日聚会的孩子们的年龄(按年龄计算)如下:
2、7、5、4、8、4、6、5、5、29、2、5、13
离群值被定义为大于
(我)
识别数据集中的任何异常值。
(2)
通过决定应该删除哪些值来清理数据,证明您的答案是正确的。
考试技巧
- 仔细阅读问题,确定你应该找到哪种类型的异常值,并确保你使用了正确的方法。