變異系數 相對標準偏差,標準差與資料變異度

variability被稱作變異性或者可變性,它描述了數據點彼此之間以及距分布中心的距離 。
可變性有時也稱為擴散或者分散 。因為它告訴你點是傾向于聚集在中心周圍還是更廣泛地分散 。
低變異性是理想的 , 因為這意味著可以根據樣本數據更好地預測有關總體的信息 。高可變性意味著值的一致性較低 , 因此更難做出預測 。在統計學中,我們的目標是測量一組特定數據或一個分布的變異性 。簡單來說,如果一個分布中的數據值是相同的 , 那么它沒有變異性 。

變異系數 相對標準偏差,標準差與資料變異度

文章插圖
上圖中盡管數據服從正態分布 , 但每個樣本都有不同的分布 。樣品 A 的變異性最大,而樣品 C 的變異性最小 。
可以使用多種不同的方式對變異度進行度量
極差(Range)
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
極差,又稱全距,可以顯示數據從分布中的最低值到最高值的分布 。
例如,考慮以下數字:1、3、4、5、5、6、7、11 。對于這組數字,極差是 11-1 或 10 。
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
極差的度量僅使用了 2 個數字因此受異常值影響很大,并且不會提供有關值分布的任何信息 。所以它最好與其他方法結合使用 。
四分位距(Interquartile range)
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
四分位距又被稱作四分差,可以提供數據分布中間的分布 。
對于從低到高排序的任何分布,四分位距包含數據中一半的值 。第一個四分位數 (Q1) 包含前 25% 的值,而第四個四分位數 (Q4) 包含最后 25% 的值 。
它衡量數據如何圍繞均值分布 。基本公式為:IQR = Q3 - Q1
就像極差一樣,四分位距在其計算中僅使用 2 個值 。但是IQR受異常值的影響較?。赫?個值來自數據集的中間一半 , 所以不太可能是極端分數 。
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
小知識:每個分布都可以使用五個數字摘要進行組織:
最低值Q1:第 25 個百分位Q2:中位數Q3:第 75 個百分位最高值 (Q4)
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
方差(Variance)
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
方差表示數據集的分布范圍 , 但它是一個抽象數字 。它反映了數據集中的分散程度 。數據越分散 , 方差與均值的關系就越大 。
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
小方差 - 數據點往往非常接近均值且彼此非常接近高方差 - 數據點與均值和彼此之間非常分散零方差——所有數據值都相同標準差(Standard Deviation)標準偏差是數據集中的平均變異量 。它平均表示每個數據點與平均值相差多遠 。標準差越大,數據集的可變性越大 。
變異系數 相對標準偏差,標準差與資料變異度

文章插圖
為什么使用 n - 1 作為樣本標準差?當擁有總體數據時可以獲得總體標準差的準確值 。可以從每個總體成員收集數據,因此標準差反映了分布(總體)中的精確變異量 。