contents
1. 추리통계학에서 모집단과 표본
우리는 모든 사람(사건)을 조사할 수 없기 때문에 모집단(모든 사람/사건)에서 일부 표본을 추출해서 분석합니다.
모집단에서 일부를 표집(sampling)하여 표본(sample)으로 만든다고 합니다.
이후, 표본을 통계(학)을 통해 분석한 후 추리(inference)를 통해 모집단이
"통계적으로(확률적으로) 이러이러한 특성을 가진다"고 추리합니다.
이때, 모수(parameter) = 모집단의 특성치와 통계량(statistic) = 표본의 특성치를 정리하면 아래의 그림과 같습니다.
1.1 각 상황별 통계방법
2. 확률변수와 확률분포
•
확률변수와 확률분포
- 확률변수(random variable) : 일정한 확률을 가지고 발생하는 사상(事象)에 수치가 부여되는 변수
- 확률분포(probability distribution) : 가능한 모든 확률변수와 이 변수가 일어날 확률을 나타낸 것
(즉, 확률변수 X에 대해 그 변수가 발생할 확률)
2.1 확률변수의 종류
이산확률변수(discrete random variable)
정수와 같이 명확한 값을 변수값으로 함(값에 확률을 대응시킬 수 있음) → 이산확률분포
(ex. 2개의 동전을 던져 나오는 앞면의 수)
(이항분포, 초기하분포, 포아송분포)
연속확률변수(continuous random variable)
변수값이 정수처럼 명확하지 않음(값에 확률을 대응시킬 수 없으므로 값의 구간에 확률을 대응) → 연속확률분포 → 적분
(ex. 통계학을 수강하는 학생들의 평균 키)
(ex. 정규분포, t분포, F분포, Chi-square 분포)
•
연속확률변수가 주어진 어떤 구간 내에 포함될 확률을 확률밀도라고 하며,
이를 함수형태로 나타낸 것이 확률밀도함수
예를들어..주사위를 던졌을 때 나오는 숫자를 확률변수 X라고 한다면, 확률변수 X = 1, 2, 3, 4, 5, 6입니다.각 확률변수 X에 대해 확률 P(X)를 구하면 P(1) = 1/6, P(2) = 1/6, .... P(6) =1/6 입니다.
이를 아래의 표와같이 나타낼 수 있습니다.
이처럼 이산확률변수(분포)는 확률변수가 구분되어 셀 수가 있습니다.하지만 연속확률변수는 다릅니다. 아래의 그림처럼 이산확률분포는 히스토그램 형식으로 해당 확률변수에 대해 숫자의 형태로확률이 존재하지만연속확률분포는 함수의 형태로 존재합니다. 따라서, 확률을 계산할 때 Xa ~ Xb 사이의 면적을 통해 계산합니다.
3. 정규분포(normal distribution)
~ <정규분포의 표시>
•
평균(μ)을 중심으로 종모향의 좌우대칭인 분포
- 확률밀도함수 곡선과 X축 사이의 전체 면적의 합은 1이 됨
- 확률변수 X가 취할 수 있는 값의 구간은 -∽ < X < +∽
4. 표준정규분포(standard normal distribution)와 표준점수(standard scores)
•
일반적인 정규분포상에서 확률변수가 특정 구간 내의 값을 가질 확률을 직접 구하기가 매우 어렵기 때문에,
표준정규분포로 변환시키면 구하고자 하는 확률값을 용이하게 구할 수 있음
•
표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포. ~
•
모든 정규분포는 표준정규분포로 이동해서 풀 수 있음
•
표준점수 : 원점수를 주어진 집단의 평균을 중심으로 표준편차 단위로 전환한 전환점수
- Z점수 : 평균 0, 표준편차 1의 단위로 그 척도를 나타낸 것
•
T점수 : 평균 50, 표준편차 10의 단위로 그 척도를 나타낸 것
5. 추리통계에서의 오차
추리통계에서 표집(sampling)에는 ‘오차(error)'가 생김
- 우연에 의한 오차 : 우연하게도 쏠리는 data만 수집됨 (확률의 법칙에 따름)
- 편의에 오한 오차 : sampling이 잘못됨
→ 우연에 의한 오차는 있어도, 편의에 의한 오차는 없게 해야함
6. 표집분포(sampling distribution)
•
추리과정에서오차가발생→어떤확률로어느정도오차를가질 인가에대한이론이필요→이것이추리통계
•
로 를 추정하려면 반드시 오차가 발생. 그렇다면 를 만드는 방법(sampling하는 경우)은 무수히 많은데, 그 확률은 어떻게 될까? → 들의 분포가 필요
따라서..
이는 다시말하면
•
표준오차(stand error) : 추정된 평균의 오차의 표준편차
- 이는 오차의 크기가 어느 정도로 왔다 갔다 하는가에 대한 정보를 제공해 줌
7. 중심극한정리(Central Limit Theorem)
•
모집단이 정규분포인 경우 도 정규분포
따라서 모집단이 정규분포한다는 가정이 필요함.
그런데 모집단이 정규분포가 아니더라도 n이 충분히 크면(보통 30이상) 는 정규분포를 하고 이를 중심극한정리 라고 함