R을 활용한 기초 통계학 실습실 Lab 1


※ 공개된 자료(Published Data) :

 

* 참고도서 :  이상구, 이재화, 김경원, [빅북총서005] 선형대수학, BigBook, 2014. http://matrix.skku.ac.kr/2015-Album/BigBook-LinearAlgebra-SGLee-New-2015.pdf

* 참고도서 :  최용석, [빅북총서008] R과 함께하는 통계학의 이해, BigBook, 2014.

 

I. 자료의 정리 및 요약

 

Lesson 1 범주형자료의 요약

■ 참고 동영상   https://www.youtube.com/watch?v=ACWuV16tdhY

  (원도표)   https://www.youtube.com/watch?v=Eph_Y0BmHU0&index=13&list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU

https://youtu.be/Eph_Y0BmHU0?list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU

■ 참고 자료  (원도표)  http://en.wikipedia.org/wiki/Pie_chart

 

(1) 어느 대학에서 통계학 수업을 수강하는 55명의 학생들을 대상으로 혈액형을 조사한 결과는 다음과 같다. 이 자료를 도수분포표로 요약하라.




(2) 위 자료를 원도표막대도표로 요약하라.




Lesson 2 표와 그림을 이용한 연속형 자료의 요약

■ 참고 동영상   https://www.youtube.com/watch?v=Hj1pgap4UOY

■ 참고 자료  (히스토그램)  https://en.wikipedia.org/wiki/Histogram

 

(1) 다음의 자료는 어느 대학에서 임의로 선정한 남학생 55명의 키를 기록한 것으로 단위는 센티미터(cm)이다. 이 자료에 대한 도수분포표히스토그램을 그려라.




Lesson 3 수치를 이용한 연속형 자료의 요약

■ 참고 동영상   https://www.youtube.com/watch?v=ACWuV16tdhY

■ 참고 자료  (평균)  http://en.wikipedia.org/wiki/Mean

  (중위수)  http://en.wikipedia.org/wiki/Median

  (표준편차)  http://en.wikipedia.org/wiki/Standard_deviation

  (분산)  http://en.wikipedia.org/wiki/Variance

 

• $n$개의 표본자료를 $x_1, x_2, \cdots, x_n$ 이라 할 때 표본평균(sample mean) $\bar{x}$는

다음과 같이 계산한다.

                                           $\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n} \Sigma_{i=1}^n x_i $

• $n$개의 표본자료를 $x_1, x_2, \cdots, x_n$ 이라 할 때 중위수(median)는

(i) 관측값의 개수($n$)가 홀수라면, 중위수는 $\frac{n+1}{2}$ 번째 관측값이다.

(ii) 관측값의 개수($n$)가 짝수라면, 중위수는 $\frac{n}{2}$ 번째 관측값과 $\frac{n}{2}+1$ 번째 관측값의 평균이다.

 

(1) 어떤 교과목을 수강한 6명 학생들의 중간고사 성적은 다음과 같다. 학생들의 성적에 대한 표본평균과 중위수를 구하여라.

              89           78           91          86          76          84




• $n$개의 표본자료를 $x_1, x_2, \cdots, x_n$ 이라 하고, 이들의 표본평균을 $\bar{x}$라고 하면, 표본분산(sample variance)은 다음과 같다.

                                                   $s^2=\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$

• 표본표준편차(sample standard deviation)는 다음과 같다. $s=+\sqrt{s^2}$

 

(2) 위 자료에 대한 표본분산표본표준편차를 구하라.




• 관측값을 크기 순으로 정렬한 후, 관측값의 개수($n$)에 $p$를 곱했을 때,

(i) $np$가 정수이면, 제 $100\times p$ 백분위수(percentile)는 $np$번째 관측값과 $np+1$번째 관측값의 평균이다.

(ii) $np$가 정수가 아니면, 제 $100\times p$ 백분위수는 ($np$의 정수부분에 $1$을 더한 값)번째 관측값이다.

• 사분위 범위(inter-quartile range) $IQR=Q_3 - Q_1$

 

(3) 위 자료에 대한 사분위 범위제 50 백분위수를 구하라.




Lesson 4 상자그림(box plot)

■ 참고 동영상   https://www.youtube.com/watch?v=JbYtinw-CqI

  (상자그림)  https://www.youtube.com/watch?v=U64yNvlhv9I

■ 참고 자료  (상자그림)  http://en.wikipedia.org/wiki/Box_plot

 

(1) 어떤 특정도로를 지나가는 차량의 교통소음을 측정한 값은 아래와 같다. 이 자료에 대한 기술통계량을 구하여라.




(2) 위 자료에 대한 상자그림을 그려라.




[실습]   아래 Sage cell에 오늘 학습한 다양한 R 명령어를 실행해보세요.




 

Copyright @ 2015 SKKU Matrix Lab.
Made by Manager:   Prof. Sang-Gu Lee   sglee@skku.edu   and   Dr. Jae Hwa Lee   jhlee2chn@hanmail.net