Hubert Life (out): Standard deviation 추정할 때 n-1로 나누는 이유

두 가지 이유가 있습니다.

1/n 은 모분산의 최대 우도 추정치이지만, 수학적으로도 bias가 존재하는 값 입니다.
표본분산은 보통 모분산보다 작습니다.
굉장히 큰 모집단에서 sampling 하면 중앙값 부근에서 표본이 많이 추출될 것이고, 표본분산은 모분산보다 작은 경향을 보일 것입니다.
1/n-1(unbiased 추정치) 을 사용함으로써 둘 사이의 gap을 줄일 수 있습니다.
그럼 n-2 는 안되나요?

다음과 같이 가정한 뒤,
$n$ : sample size
$\bar{X}$ : sample mean
$s^2$ : sample variance
$m$ : population mean
$\sigma^2$ : population variance
아래 수식이 참임을 밝혀봅니다.
$E[s^2] = 1/(n-1) E[\sum\limits_{k=1}^n (X{k}-\BAR{x})^2]$
first,
$\sum\limits_{k=1}^n (X{k}-\BAR{x})^2 = \sum\limits_{k=1}^n ((X{k}-m) + (m-\bar{X}))^2$
$\thickspace=\sum\limits_{k=1}^n ((X{k}-m)^2 + 2(X{k}-m)(m-\bar{X}) + (m-\bar{X})^2)$
$\thickspace=\sum\limits_{k=1}^n ((X{k}-m)^2 + 2(\bar{X}-m)n(m-\bar{X}) + n(m-\bar{X})^2$
$\thickspace=\sum\limits_{k=1}^n ((X{k}-m)^2 + 2(\bar{X}-m)n(\bar{X}-m) + n(\bar{X}-m)^2$
$\thickspace=\sum\limits_{k=1}^n ((X{k}-m)^2 -m(\bar{X}-m)^2$
$\therefore E[s^2] = 1/(n-1) E[\sum\limits_{k=1}^n (X{k}-\BAR{x})^2]$
$\thickspace= 1/(n-1) E[\sum\limits_{k=1}^n (X{k}-m)^2 - n(\BAR{x}-m)^2]$
as here,
$E[(X{k}-m)^2] = \sigma^2$
$E[(\bar{X}-m)^2] = V(\bar{X}) = \sigma^2/n$
$1/(n-1) E[\sum\limits_{k=1}^n (X{k}-m)^2 - n(\BAR{x}-m)^2] = 1/(n-1) * (n\sigma^2-n(\sigma^2/n)) = \sigma^2$
$\therefore s^2 = 1/(n-1) \sum\limits_{k=1}^n (X{k}-\bar{X})^2$