📊

[R로하는 논문통계] 1. 기술통계분석

Contents
본격적으로 들어가기 전에..
본 강의는 macOS, R, Rstudio를 통해 진행됩니다. 기타 윈도우에서 R을 실행하면서 발생하는 문제는
구글링을 통해 해결해주시기 바랍니다.(바로 응답 가능한 건은 제가 댓글 달아드리겠습니다.)
부족하지만 위의 영상을 통해 windows/macOS R과 Rstudio를 설치해주시면 준비는 끝입니다.

1. 기술통계

기술통계(Descriptive statistics)는 간단하게 말하면 수집한 데이터를 요약 및 묘사 설명하는 기본적인 통계 기법입니다.
기술통계는 크게 두 가지로 분류할 수 있으며 이를 집중화 경향(Central tendency)와 분산도(Variation)으로 말합니다.

2. 집중화 경향(central tendency)

집중화 경향은 평균(mean), 중앙값(median), 최빈값(mode)등을 말하며 수집한 데이터를 대표하는 값을 말합니다.

(산술)평균

모집단(표본)의 수를 모두 더한 후 모집단(표본)의 갯수를 나누어준 값
M=1nk=1nak=a1+a2+...+annM= \frac{1}{n} \sum^{n}_{k=1} a_{k}= \frac{a_1+a_2+... + a_n}{n}
n : 모집단(표본)의 갯수

중앙값

모집단(표본)의 모든 데이터를 크기 순으로 정렬하였을 때 가운데에 있는 데이터

최빈값

모집단(표본)의 데이터 중 가장 자주 나온 값

3. 분산도(variation)

분산도는 데이터가 어떻게 분포되어 있는지(뭉쳐있는지 혹은 퍼져있는지)를 설명하는 방법으로 표준편차(standard deviation), 사분위수(quantile)값이 있습니다.
표준편차 : 자료의 산포도를 나타내는 값으로, 자료들이 흩어져 있는 정도
사분위수(IQR) : 데이터를 4개의 동일한 부분으로 나눈 값.
제1 사분위수(Q1) : 데이터의 25%가 이 값보다 작거나 같음
제2 사분위수(Q2) : 중위수의 데이터의 50%가 이 값보다 작거나 같음.
제3 사분위수(Q3) : 데이터의 75%가 이 값보다 작거나 같음.
예를 들어..

4. 실습

1) 데이터 설명 : 본 데이터는 사람이 대화를 할때 중간에 "and then..."을 얼마나 자주 말하는지 조사한 데이터 입니다.
18 15 22 19 18 17 18 29 27 12 16 16 17 21 23 18 20 21 20 20 15 18 17 19 20 23 22 10 17 19 19 21 20 18 18 24 11 19 31 16 17 15 19 20 18 18 40 18 19 16
총 20명 입니다.
우선 바로 코드부터 첨부하겠습니다.
code
R에는 최빈값을 구할 수 있는 명령어가 없으므로 mode를 구할 수 있는 함수를 직접 만들어 주었습니다.
위의 데이터를 통해 산출된 값은 다음과 같습니다.
1. 평균 : 19.28
2. 중앙값 : 18.5
3. 최빈값 :18
4. 표준편차 : 4.83
5.분산 : 23.38
6. 사분위수 : Q1: 17 Q2: 18.5 Q3: 20
7. boxplot

5. 결론

오늘은 간단하게 기술통계를 구하는 방법에 대해 알아봤습니다. 혹시나 논문통계나 간단한 통계지식에 관심이 있으시다면 아래의 과제를 수행해주세요.
10 12  5  8 13 10 12  8  7 11 11 10  9  9 11 15 12 17 14 10  9  8  15 16 15 10 14  7 16  9  1  4 11 12  7  9 10  3 11 14  8 12  5  10 9   7 11 14 10  9
1) 평균, 중앙값, 최빈값을 계산하시오.
2) 범위, Q1, Q3, IQR을 계산하시오.
3) 표준편차, 분산을 구하시오.
4) Boxplot을 그리시오.
그럼 이상. 탁자킴이었습니다. 감사합니다.