📊

[R로하는 논문통계] 2. 확률변수

contents

1. 추리통계학에서 모집단과 표본

우리는 모든 사람(사건)을 조사할 수 없기 때문에 모집단(모든 사람/사건)에서 일부 표본을 추출해서 분석합니다.
모집단에서 일부를 표집(sampling)하여 표본(sample)으로 만든다고 합니다.
이후, 표본을 통계(학)을 통해 분석한 후 추리(inference)를 통해 모집단이
"통계적으로(확률적으로) 이러이러한 특성을 가진다"고 추리합니다.
이때, 모수(parameter) = 모집단의 특성치와 통계량(statistic) = 표본의 특성치를 정리하면 아래의 그림과 같습니다.

1.1 각 상황별 통계방법

2. 확률변수와 확률분포

확률변수와 확률분포 - 확률변수(random variable) : 일정한 확률을 가지고 발생하는 사상(事象)에 수치가 부여되는 변수 - 확률분포(probability distribution) : 가능한 모든 확률변수와 이 변수가 일어날 확률을 나타낸 것
(즉, 확률변수 X에 대해 그 변수가 발생할 확률)

2.1 확률변수의 종류

이산확률변수(discrete random variable)

정수와 같이 명확한 값을 변수값으로 함(값에 확률을 대응시킬 수 있음) → 이산확률분포 (ex. 2개의 동전을 던져 나오는 앞면의 수) (이항분포, 초기하분포, 포아송분포)

연속확률변수(continuous random variable)

변수값이 정수처럼 명확하지 않음(값에 확률을 대응시킬 수 없으므로 값의 구간에 확률을 대응) → 연속확률분포 → 적분 (ex. 통계학을 수강하는 학생들의 평균 키) (ex. 정규분포, t분포, F분포, Chi-square 분포)
연속확률변수가 주어진 어떤 구간 내에 포함될 확률을 확률밀도라고 하며, 이를 함수형태로 나타낸 것이 확률밀도함수
예를들어..주사위를 던졌을 때 나오는 숫자를 확률변수 X라고 한다면, 확률변수 X = 1, 2, 3, 4, 5, 6입니다.각 확률변수 X에 대해 확률 P(X)를 구하면 P(1) = 1/6, P(2) = 1/6, .... P(6) =1/6 입니다.
이를 아래의 표와같이 나타낼 수 있습니다.
이처럼 이산확률변수(분포)는 확률변수가 구분되어 셀 수가 있습니다.하지만 연속확률변수는 다릅니다. 아래의 그림처럼 이산확률분포는 히스토그램 형식으로 해당 확률변수에 대해 숫자의 형태로확률이 존재하지만연속확률분포는 함수의 형태로 존재합니다. 따라서, 확률을 계산할 때 Xa ~ Xb 사이의 면적을 통해 계산합니다.

3. 정규분포(normal distribution)

XX~N(μ,σ2)N(\mu,\sigma^2) <정규분포의 표시>
f(x)=12πσexp(xm)2/2σ2f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp^{-(x-m)^2/2\sigma^2}
f(x)=1\int_{-\infty}^{\infty}f(x) = 1
평균(μ)을 중심으로 종모향의 좌우대칭인 분포 - 확률밀도함수 곡선과 X축 사이의 전체 면적의 합은 1이 됨 - 확률변수 X가 취할 수 있는 값의 구간은 -∽ < X < +∽

4. 표준정규분포(standard normal distribution)와 표준점수(standard scores)

일반적인 정규분포상에서 확률변수가 특정 구간 내의 값을 가질 확률을 직접 구하기가 매우 어렵기 때문에, 표준정규분포로 변환시키면 구하고자 하는 확률값을 용이하게 구할 수 있음
표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포. XX~N(0,1)N(0,1)
f(z)=12πexp(z22)f(z) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{z^2}{2})
모든 정규분포는 표준정규분포로 이동해서 풀 수 있음
표준점수 : 원점수를 주어진 집단의 평균을 중심으로 표준편차 단위로 전환한 전환점수 - Z점수 : 평균 0, 표준편차 1의 단위로 그 척도를 나타낸 것
Z=XXˉsZ = \frac{X-\bar{X}}{s}
T점수 : 평균 50, 표준편차 10의 단위로 그 척도를 나타낸 것
T=10z+50T = 10z+50

5. 추리통계에서의 오차

추리통계에서 표집(sampling)에는 ‘오차(error)'가 생김 - 우연에 의한 오차 : 우연하게도 쏠리는 data만 수집됨 (확률의 법칙에 따름) - 편의에 오한 오차 : sampling이 잘못됨 → 우연에 의한 오차는 있어도, 편의에 의한 오차는 없게 해야함

6. 표집분포(sampling distribution)

추리과정에서오차가발생→어떤확률로어느정도오차를가질 인가에대한이론이필요→이것이추리통계
Xˉ\bar{X}μ\mu를 추정하려면 반드시 오차가 발생. 그렇다면 Xˉ\bar{X}를 만드는 방법(sampling하는 경우)은 무수히 많은데, 그 확률은 어떻게 될까? → Xˉ\bar{X}들의 분포가 필요
따라서..
E(Xˉ)=μE(\bar{X}) =\mu
V(Xˉ)=σ2nV(\bar{X})=\frac{\sigma^2}{n}
이는 다시말하면
XN(μ,σ2)X \sim N(\mu,\sigma^2)
XˉN(μ,σ2n)\bar{X} \sim N(\mu,\frac{\sigma^2}{n})
표준오차(stand error) : 추정된 평균의 오차의 표준편차 - 이는 오차의 크기가 어느 정도로 왔다 갔다 하는가에 대한 정보를 제공해 줌 σn\frac{\sigma}{\sqrt{n}}

7. 중심극한정리(Central Limit Theorem)

모집단이 정규분포인 경우 Xˉ\bar{X}도 정규분포 따라서 모집단이 정규분포한다는 가정이 필요함. 그런데 모집단이 정규분포가 아니더라도 n이 충분히 크면(보통 30이상) Xˉ\bar{X} 는 정규분포를 하고 이를 중심극한정리 라고 함