Basic Mathematics for Artificial Intelligence
Part Ⅲ 확률통계와 빅데이터
http://matrix.skku.ac.kr/math4ai/part3/
18강 동영상, 통계학과 R https://youtu.be/u82BC1RiJ0A (11:51)
[참고도서] 최용석, [빅북총서008] R과 함께하는 통계학의 이해, BigBook, 2014.
http://matrix.skku.ac.kr/e-math/
http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-1.html
http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
[수학사] 통계학의 탄생 https://youtu.be/3wh7RSbsicQ
0. 통계학과 R
1. 순열, 조합, 확률
2. 확률변수
3. 확률분포
4. 데이터 활용의 실제
[부록 4] 기초통계 개념
0.1 통계학
▪ 데이터의 홍수 속에서 필요한 통계정보를 얻기 위해서는 수학지식 뿐만 아니라 데이터를 체계적으로 수집, 정리, 요약, 판단하는 데이터 과학의 기초인 통계학(statistics)이 필요하다.
▪ 통계학적 이론에 근거하여 데이터를 분석하려면 데이터를 처리하는 통계 프로그램이 필요하다. 대표적인 무료 통계 프로그램으로는 R 프로그램이 있다. https://www.r-project.org/ 에서 R 프로그램을 다운로드 받아 본인의 컴퓨터에 설치해도 되고, 앞서 설명한 SageMath 셀 http://sage.skku.edu/ 의 빈칸에 R 명령어를 직접 입력한 후, 셀 오른쪽 하단의 Language를 R로 지정하여 실행하면 결과가 나타난다.
0.2 R 명령어 예시
▪ SageMath 셀에서 직접 R 명령어를 수행해보자. SageMath 셀에서 R명령어로 그린 그래프를 직접 확인할 때는 dev.off() 명령어를 추가하면 된다. 아래는 몇 가지 사용 예시이다.
어느 대학에서 통계학 수업을 수강하는 55명의 학생들을 대상으로 혈액형을 조사한 결과는 다음과 같다. 이 자료를 도수분포표, 원도표와 막대도표로 요약하라.
[참고자료] 원 도표
https://youtu.be/Eph_Y0BmHU0 http://en.wikipedia.org/wiki/Pie_chart
풀이. 아래와 같이 자료를 R 코드로 입력하여 실행하면 원하는 결과를 얻을 수 있다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
[용어 소개]
• 개의 표본자료를
,
,
,
이라 할 때 표본평균(sample mean)
는 다음과 같이 계산한다.
• 개의 표본자료를 크기순으로 나열한 것을
,
,
,
이라 할 때 중위수(median)는
(i) 관측값의 개수()가 홀수면, 중위수는
번째 관측값이다.
(ii) 관측값의 개수()가 짝수면, 중위수는
번째 관측값과
번째 관측값의 평균이다.
• 사분위 수 : 4등분하는 위치의 수 (3개): Q1(제1사분위수, 제25백분위수), Q2(제2사분위수, 중위수, 제50백분위수), Q3(제3사분위수, 제75백분위수)
(평균) http://en.wikipedia.org/wiki/Mean
(중위수) http://en.wikipedia.org/wiki/Median
(표준편차) http://en.wikipedia.org/wiki/Standard_deviation
(분산) http://en.wikipedia.org/wiki/Variance
어떤 교과목을 수강한 6명 학생들의 중간고사 성적은 다음과 같다. 학생들의 성적에 대한 표본평균(mean)과 중위수(median), 사분위수(quantile)를 구하여라.
85 72 91 83 76 84
풀이. 아래와 같이 자료를 R 코드로 입력하여 실행하면 원하는 결과를 얻을 수 있다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
어떤 특정도로를 지나가는 차량의 교통소음을 측정한 값은 아래와 같다. 이 자료에 대한 기술통계량(Descriptive Statistics, 자료의 정보를 수치적으로 나타내는 다양한 방법. 예를 들어 중심위치의 측도는 주어진 자료가 어떤 값을 중심으로 분포되어 있는가를 나타내는 것이며, 산포의 측도는 자료들이 중심위치에서 얼마만큼 퍼져있는가를 알려준다. 비대칭 측도는 자료의 분포가 대칭에서 벗어나서 어느 방향으로 얼마나 치우쳐 있는가를 알 수 있게 한다. 구체적으로는 표본평균과 중위수, 사분위수(4등분하는 위치의 수), 중앙값, 최빈값, 분산, 표준편차, 도표, ... 등)을 구하여 데이터가 갖는 의미를 파악하고 개선을 위한 다양한 의견을 개진할 수 있다.
[참고자료]
• 개의 표본자료를
,
,
,
이라 하고, 이들의 표본평균을
라고 하면, 표본분산(sample variance)
은 다음과 같다.
• 표본표준편차(sample standard deviation)는 다음과 같다.
• 관측값을 크기 순으로 정렬한 후, 관측값의 개수 에 0과 1 사이의 수
를 곱했을 때, (단,
중 하나)
(i) 가 정수이면, 제
백분위수(percentile)는
번째 관측값과
번째 관측값의 평균이다.
(ii) 가 정수가 아니면, 제
백분위수는 (
의 정수부분에 1을 더한 값)번째 관측값이다.
• 사분위(4등분하는 위치, Q1, Q2, Q3) 범위(inter-quartile range, IQR) IQR=Q3−Q1
풀이. 아래와 같이 자료를 R 코드로 입력하여 실행하면 원하는 결과를 얻을 수 있다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
0.3 학습할 내용
▪ 본 <인공지능을 위한 기초수학>에서는 다음의 웹사이트
[출처] https://mingrammer.com/translation-the-mathematics-of-machine-learning/
의 조언에 따라 머신러닝에 필요한 기초 통계학 및 확률론 개념인
순열/조합, 확률, 베이즈 정리, 분산과 기댓값, 확률변수, 확률분포
에 관해서 3장에서 다룬다. 그 밖에
적률생성함수 (모멘트 생성 함수, Moment Generating Functions, mgf),
최대 우도 추정 (Maximum Likelihood Estimation, MLE)
사전 및 사후 확률 (Prior and Posterior)
최대 사후 추정 (Maximum a Posteriori Estimation, MAP)
샘플링 방식 (Sampling Methods), 추정, 검정 등
의 개념에 관하여는 추후 <심화 과정>에서 다루도록 한다. ■
1. 순열, 조합, 확률
19강 동영상, 순열, 조합, 확률 https://youtu.be/KQXO-XbJauU (33:10)
이 절에서는 특정 사건이 일어날 가능성을 수로 나타낸 확률에 관하여 다룬다. 그런데, 확률은 특정 사건이 일어나는 경우의 수를 전체 사건의 경우의 수로 나눈 것으로 정의되므로, 우선 경우의 수를 계산할 수 있어야 한다. 따라서 순열과 조합을 계산하는 방법을 먼저 살펴본다.
1.1 순열과 조합 (Counting Methods, 경우의 수를 구하는 법)
참고 동영상: (기초) https://youtu.be/P5rDAqiHsXE (심화) https://youtu.be/I6XW6DKLoCU
실습 사이트: http://matrix.skku.ac.kr/2018-DM/DM-Ch-6-Lab.html
문제풀이: http://matrix.skku.ac.kr/2018-DM-Sol/Ch6/ https://youtu.be/_lxv-cysbGQ
▪ 경우의 수를 세는 방법 중 기본이 순열과 조합이다. 여기서는 순열과 조합에 대하여 알아본다.
▪ 서로 다른 물건들 중 몇 개를 골라 순서를 주어 나열한 경우의 수를 순열(permuation)이라 하고, 서로 다른 물건들 중 몇 개를 골라 순서 없이 나열한 경우의 수를 조합(combination)이라고 한다.
정리. |
순열 |
(1) 서로 다른 개에서
개를 순서대로 고르는 경우의 수(순열)는
이다. (특히
일 때는
이다.)
(2) 서로 다른 개에서
개를 뽑아 원형으로 배열할 수 있는 경우의 수는
이다.
(3) 서로 다른 개에서
개를 뽑아 목걸이를 만들 수 있는 경우의 수는
이다.
정리. |
조합, 중복조합, 이항정리(Binomial theorem) |
(1) [조합] 서로 다른 개에서 중복 없이
개를 택하는 방법의 수는 다음과 같다.
,
이를 이항계수(binomial coefficient)라고 한다.
(2) [중복조합] 서로 다른 개에서 중복을 허락하여
개를 택하는 방법의 수는
개의 빈칸과 칸막이의 수
개를 합한
개의 빈칸에 칸막이가 들어갈
개의 칸을 선택하는 문제이다. 따라서 중복조합
은
이 된다. 그런데
이므로
이 된다.
(3) [이항정리] : ,
(4) [Pascal의 공식] 를 만족하는 정수
과
는 다음 식을 만족한다.
[조합론적 증명]
1.2 Multiset(중복집합) 의 순열
▪ 를 무한반복수를 갖는
가지 서로 다른 물건(object)들의 multiset(중복집합)이라 하면, (multiset)
의 전체
-permutations (순서를 주어
개를 고르는 경우)의 수는
이다.
▪ repetition numbers(유한반복의 수) 개를 가진 (multi-set) 주머니
를 생각하자. 모두 유한이므로
이라 놓자. 그러면 (multi-set)
의 permutation (모든
개를 순서대로 늘어놓는) 경우의 수는
이다.
증명 |
,
라 하자. 이제 이
안에서
개 물건의 치환을 만들려면
개의 자리 중
개의
을 놓을 자리를 먼저 택하고{
가지 경우가 있다}, 남은
개의 자리 중
개의
을 놓을 자리를 택하고, {
가지 경우 },
, 끝으로
개의
는 남은
개의 자리에 놓으면 된다. - 각
들은 같은 type 이므로 순열이 아닌 조합이 된다. 곱셈 법칙에 의해
이다. ■
● 다항계수를 이용하여 아래와 같이 쓰기도 한다.
.
52장의 포커 카드에서 5장의 카드(a poker hand)를 고르는 경우의 수는?
풀이 이 문제는 52장의 카드에서 순서를 고려하지 않고 5장을 뽑는 문제이다. 따라서
즉, 총 2,598,960가지가 된다. ■
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
500개의 전구로부터 5개의 백열전구를 택하는 방법의 개수는
이다.
[Sage code] [이항계수를 구하는 코드]
● 이항계수와 관련하여 다음이 성립한다.
(
,
),
(
,
,
)
(
,
.
),
(
,
)
* 대부분의 는 위의 관계식을 이용하여 쉽게 구할 수 있다.
1.3 확률
[수학사] 확률론의 탄생 https://youtu.be/oseQFNsc3sA
▪ 를 전체 사건(event)의 집합(표본공간, sample space)이라 하고,
를 특정 사건의 집합이라 하자. 그러면 사건
가 일어나는 가능성을 수로 나타낸 확률(probability)
는
가 일어나는 경우의 수
를 전체 경우의 수
로 나누어서 구한다.
정의. |
수학적 확률, 기하학적 확률, 통계적 확률 |
(1) 수학적 확률
(2) 기하학적 확률
인 영역
에 속하는 확률은
● 통계적 확률과 대수의 법칙(Law of large number)
시행 횟수를 , 특정 사건
가 일어날 횟수를
라 하면,
이 한없이 커질 때 통계적 확률 P(A) 는 일정한 값 a, 즉 (수학적 확률) a 에 가까워진다. 즉 다음이 성립한다.
확률의 정의를 공리로 나타내면, 다음과 같다.
● 확률의 공리
다음을 만족하는 를 사건
의 확률이라 한다.
① 표본공간 에서 임의의 사건
에 대하여
이 성립한다.
② 표본공간 에 대하여
(표본공간 전체의 확률은 1)이 성립한다.
③ 공사건 에 대하여
이 성립한다.
④ 이 서로 배반사건(exclusive events, 背反事件) 이면 다음이 성립한다.
● 확률의 기본개념
어떤 사건
사건
가 일어나지 않을 경우
사건
가 일어날 확률
사건
가 일어나지 않을 확률
[ 사건 가 반드시 일어날 때, 사건
가 일어날 확률
이다.]
[ 사건 가 절대로 일어나지 않을 때, 사건
가 일어날 확률
이다.]
● 조건부확률은 확률과 데이터 분석에서 가장 중요한 개념이다.
정의. |
조건부 확률 |
어떤 사건 가 일어났다는 조건하에서 사건
가 일어날 확률을 사건
에 대한 사건
의 조건부 확률(conditional probability)이라 하고
로 표시하며 다음과 같이 정의한다.
(단,
)
[그림출처] https://blog.naver.com/alwaysneoi/100148922781
정리. |
조건부 확률의 곱셈정리 |
조건부 확률의 정의로부터 다음의 곱셈정리(관계식)를 얻을 수 있다.
[Note
]
또한, 일반적으로 사건 에 대하여 다음이 성립한다.
다음 물음에 답하여라.
(1) 아래의 R코드로 동전 한 개를 10회 던져 보고, 뒷면의 수와 앞면의 수를 기록해 보자. 동일한 방법으로 같은 동전을 100회 던지는 실습을 해 보자.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
▶ 시행의 횟수를 아주 크게 늘려 가면, 앞서 대수의 법칙에서 설명한 바와 같이 뒷면과 앞면이 나오는 확률이 (수학적 확률)로 수렴함을 확인할 수 있다.
(2) 1부터 45까지의 숫자에서 임의로 숫자 6개를 뽑으시오.
풀이. 아래 R 명령어를 이용하여 실습하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
(3) 로또를 고객이 1부터 45사이의 숫자 중 6개를 임의로 선택하여 매주 토요일 추첨되는 당첨 번호와 같을 경우 당첨금을 받는 방식으로 운영되는 복권이라 하자. ‘숫자 6개가 모두 일치하는 로또 1등’으로 당첨될 확률을 구해보시오.
풀이. 1부터 45사이의 숫자 중 6개를 임의로 선택하는 경우의 수는 이고, 1등으로 당첨되는 경우는 한 가지 밖에 없으므로, 구하고자 하는 확률은 다음과 같다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
(4) 주사위 1개를 던져서 짝수가 나타날 확률을 구하시오.
풀이. 주사위 1개를 던지는 시행에서 일어나는 전체 사건은 1, 2, 3, 4, 5, 6이고, 짝수가 나타나는 사건은 2, 4, 6 이므로, 구하고자 하는 확률은 다음과 같다.
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
(5) 1000개의 제품 중에 불량품이 3개 있다. 이 제품 중에서 10개의 제품을 구입했을 때 다음 확률은?
(i) 구입제품 중 불량품이 한 개도 없는 경우
(ii) 구입제품 중 불량품이 적어도 한 개 이상 있는 경우
풀이. 1000개의 제품 중에 10개의 제품을 선택하는 경우의 수는 이다. 따라서 (i) 불량품이 한 개도 없는 경우는 정상 제품인 997개에서 10개를 모두 선택하고, 불량품 3개에서는 하나도 선택하지 않는 경우 밖에 없으므로 그 경우의 수는
이다.
(ii) 불량품이 적어도 한 개 이상 있을 확률은, 1에서 불량품이 한 개도 없는 확률을 빼면 되므로, 구하고자 하는 확률은 1- /
이 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
(6) 주사위 1개를 던질 때 짝수가 나오거나 3의 배수가 나올 확률은?
풀이. 주사위 1개를 던지는 시행에서 일어나는 전체 사건은 1, 2, 3, 4, 5, 6이고, 짝수가 나오거나 3의 배수가 나오는 사건은 2, 3, 4, 6 이므로, 구하고자 하는 확률은 다음과 같다.
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
(7) 주사위 1개를 던질 때 짝수가 나왔다는 조건하에 3의 배수가 나올 확률은?
풀이. 주사위 1개를 던질 때, 짝수가 나오는 사건은 2, 4, 6이고, 이 조건 하에서 3의 배수가 나오는 사건은 6 뿐이므로, 구하고자 하는 확률은 3가지 경우 중 한 가지 뿐 이므로 이다.
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
1.3 베이즈 정리 (Bayes’ theorem)
참고 동영상: https://youtu.be/VAGLigLt2Hw
● 베이즈 정리는 불확실성 하에서 의사결정 문제를 수학적으로 다룰 때 중요하게 이용된다. 특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다.
▶ 사전확률(prior probability)은 일이 일어나기 전, 즉 사전에 미래에 어떤 사건이 일어날 확률을 측정한 것을 말한다. 베이즈(Bayesian) 통계 추정에서, 사전확률분포는 확률변수에 대해 관측 자료를 고려하지 않고 획득한 결과를 말한다. P(A)는 A에 대한 사전확률을 나타낸다.
▶ 사후확률(posteriori probability)은 사전확률과 대비되는 개념으로 확률변수에 대한 관측이나 증거에 대한 조건부 확률을 말한다. 즉 어떤 특정사건이 이미 발생하였는데, 이 특정사건이 나온 연원이 무엇인지 불확실한 상황을 식으로 나타낸 것이며 P(A|B)로 표현될 수 있다 (B는 이미 일어난 사건이고, 사건 B를 관측한 후에 그 원인이 되는 사건 A의 확률을 따졌다는 의미로 사후확률이라고 정의한다.
▪ 베이즈 정리(Bayes’ theorem)는 사전확률과 사후확률의 관계를 조건부 확률을 이용하여 계산하는 이론이다.
정리. |
베이즈 정리(Bayes’ theorem) |
이 표본공간
의 분할(partition)을 이룬다고 하자. 그러면 임의의 사건
에 대하여 다음이 성립한다.
이때 는 서로 배반(exclusive) 이다. 따라서
이다. 한편, 확률의 곱셈정리로부터 아래 전확률공식(Law of Total Probability)을 얻을 수 있다.
또한, 임의의 에 대한 조건부확률
에
와 위의 전확률(total probability) 공식을 대입하면 다음 식을 얻을 수 있는 데 이를 베이즈 정리(Bayes’ theorem)라고 한다.
▶ 베이즈 정리에서 를 사건
의 사전확률,
를 사건
의 사후확률이라 한다.
대의 기계
가 각각 이 공장의 생산품 전체의
를 생산한다. 그리고 이들 기계가 불량품을 생산할 비율은 각각
이다. 한 제품을 임의로 선택할 때 그 제품이 불량일 확률을 구하여라. 또한 불량품이 기계
에 의하여 생산될 확률을 구하여라.
풀이. 구입한 개의 제품이
사의 제품인 사건을
로 나타내고, 그것이 불량품이라는 사건을
로 나타내면,
(제품을 생산하는 사건) 이고,
.
(불량품을 생산하는 사건)
(불량품을 생산하는 확률)
이므로, 베이즈 정리에 의하여 불량품 중 사 제품이 불량품일 확률은 다음과 같다.
■
2. 확률변수 (random variable)
20강 동영상, 확률변수 https://youtu.be/SUsZHarQqqg (28:03)
▶ 확률적 데이터를 수학기호로 표시할 때는 변수를 표시할 때처럼 문자로 표시한다. 하지만 일반적인 변수가 특정한 하나의 숫자를 대표하는 변수(예, 생년월일)인 것과 달리 확률적 데이터를 대표하는 변수(예, 혈압)는 나올 수 있는 값이 확률적 분포를 가진다. 즉 특정한 값은 자주 나오고 다른 어떤 값은 드물게 나올 수 있다. 이러한 변수를 확률 변수라고 한다.
2.1 확률변수, 기댓값, 분산 및 표준편차
▪ 일정한 확률을 갖고 발생하는 사건(event)에 수치가 부여되는 함수를 확률변수(random variable)라 한다. 즉 표본 공간의 모든 표본에 대해 어떤 실수 값을 대응시킨(할당한) 것이다. 확률 변수는 숫자 혹은 벡터를 생성하는 기계(블랙박스)에 비유할 수 있다. 예를 들어, 동전 2개를 동시에 던지는 시행에서 뒷면이 나오는 동전의 개수를 라 하면,
에 0, 1, 2를 할당 할 수 있다. 따라서
는 확률변수이다.
▪ 가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 구분한다. 이 절에서는 확률변수와 기댓값 개념을 소개한다.
정의. |
확률분포(probability distribution) |
(1) 확률변수 가 가지는
에 확률
를 대응시키는 함수를
의 확률분포(probability distribution)라 한다.
(2) 변수 가 취할 수 있는 모든 값
이 취하는 확률이 각각
로 주어질 때,
를 이산확률변수라 하고
를
의 이산확률함수(probability function) 또는 확률질량함수(probability mass function, pmf)라 한다.
|
|
|
|
|
합(sum) |
확률 |
|
|
|
|
|
▪ 확률변수 가
이상
이하인 값을 취하는 확률을
와 같이 나타낸다.
가 이산확률변수일 때
이다.
앞서 언급한 동전 2개를 동시에 던지는 시행에서, 뒷면이 나오는 동전의 개수 의 확률분포를 그림으로 나타내면 다음과 같다.
▪ 확률질량함수(probability mass function, pmf)는 다음과 같은 성질이 있다.
정리. |
확률질량함수(pmf)의 성질 |
(1)
(2)
(3) 가 이산형 분포를 가지면 실수의 부분집합
의 확률은
▪ 확률변수의 기댓값(expectation)은 확률적 사건에 대한 평균값으로, 사건이 벌어졌을 때의 얻은 값과 그 사건이 일어날 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미를 갖는다. 확률변수의 분산(variance)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이고, 표준편차(standard deviation)는 분산의 양의 제곱근으로 정의된다.
▪ 이산확률변수 의 기댓값과 분산, 표준편차는 다음과 같이 계산한다.
기댓값 :
분산 :
표준편차 :
확률변수
의 확률분포가 다음과 같을 때, 기댓값과 분산, 표준편차를 구하여라.
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
풀이. 기댓값과 분산, 표준편차의 정의를 이용하여 아래와 같이 R코드로 구하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
▶ 이산확률변수의 확률분포를 나타내는 것이 확률질량함수(pmf)고, 연속확률변수의 확률을 결정하는 함수가 확률밀도함수(pdf)이다. 여기서 ‘밀도’라는 단어가 어떻게 쓰이게 되었을까? 확률을 일종의 양(질량)으로 보고, 구간길이를 일종의 부피로 본다면, [확률/구간길이][구간길이]
[확률] 이므로 [확률/구간길이]는 [질량/부피]가 되므로 '밀도'를 의미하게 된다. 따라서 '확률밀도함수'라는 용어가 사용되었다.
정의. |
확률밀도함수(probability density function, pdf) |
연속확률변수란 어떤 범위에 속하는 모든 실수값을 취할 수 있는 확률변수로, 그 분포는 확률밀도함수(probability density function, pdf)를 이용하여 다음과 같이 나타낸다. 즉, 연속확률변수 의 확률밀도함수가
일 때,
가
에 있을 확률은
이다.
정리. |
확률밀도함수(pdf)의 성질, (https://youtu.be/UngRPUYdtoc) |
확률밀도함수는 확률변수의 분포를 나타내는 함수로, 다음 조건을 만족해야 한다.
(1) (2)
(3)
▪ 연속확률변수 의 기댓값과 분산, 표준편차는 다음과 같이 계산한다.
기댓값 :
분산 :
표준편차 :
정리. |
기댓값, 분산의 성질, 표준화 확률변수 |
기댓값, 분산에 대하여 다음 성질이 만족한다.
(1) ,
,
(2) ,
,
(3) 확률변수 에 대하여 새로운 확률변수
를
로 정의하면 평균과 분산이 항상
과
이다. 따라서 이 확률변수
를 확률변수
의 표준화 확률변수라 한다.
확률변수
의 확률밀도함수가
일 때,
와
의 분산을 구하여라.
풀이.
[답]
[Sage code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
3. 확률분포
21강 동영상, 이산확률분포 https://youtu.be/Fq7D7bGG_cE (24:28)
▶ 확률분포는 확률이 어디에 어느 정도 분포되어 있는가를 수학적으로 명시하고 명확하게 전달하기 위한 도구이다. 아래 그림은 여러 확률분포 사이의 관련성을 나타낸 그림이다. 이 장에서는 데이터 과학에서 주로 사용되는 대표적인 확률분포에 대하여 학습한다. 확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률분포와 연속 확률분포 중 하나에 속하며, 둘 중 어디에도 속하지 않는, multivariate 확률분포 경우도 존재한다.
[그림출처]
https://towardsdatascience.com/probability-distributions-in-data-science-cce6e64873a7
3.1 이산확률분포
▶ 이산확률변수를 가지는 이산확률분포에는 베르누이 분포, 이항분포, 포아송 분포 등이 있다. 이 절에서는 이들의 정의와 개념에 대하여 살펴보고, 여러 확률분포 사이의 관계에 대하여 다룬다.
● 베르누이 분포(Bernoulli distribution)
(1) 베르누이 시행(Bernoulli trial)은 1회 시행의 결과가 성공(Success) 혹은 실패(Fail) 두 가지 중 하나로만 나오는 실험을 말한다. 예를 들어, 동전을 한 번 던지는 시행에서 앞면이 나오면 ‘성공’, 뒷면이 나오면 ‘실패’라고 할 수 있다. 따라서 동전 던지기는 베르누이 시행이다. 이를 확률변수 로 나타낼 때, 일반적으로 성공한 결과를 1, 실패한 결과를 0으로 나타낸다.
(2) 성공할 확률이 인 베르누이 시행에서 확률변수
의 확률분포는 다음과 같다.
,
이때, 확률변수 는 베르누이 분포를 따른다고 하며,
로 나타낸다.
(3) 인 확률변수
의 기댓값과 분산은 다음과 같다.
,
확률변수
를 주사위 한 개를 던져서 나온 결과라 하자. 1이 나오면
이고 그 외의 숫자가 나오면
이다.
의 확률분포
를 구하여라.
풀이. 는 베르누이 분포
를 따른다. 따라서
의 확률분포는 다음과 같다.
□
[Sage code] https://sagecell.sagemath.org/ http://sage.skku.edu/
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 이항분포(Binomial distribution) (
번 베르누이 시행의 성공 확률분포)
(1) 한 번의 시행에서 사건 가 일어날 확률이
라 하자. 이 시행을
회 독립적으로 반복할 때, 사건
가 일어나는 횟수를
라 하면,
의 확률분포는 다음과 같다.
(단,
)
이때, 확률변수 는 이항분포
를 따른다고 하며,
로 나타낸다.
(2) 인 이항분포는 베르누이 분포
와 같다.
(3) 무한모집단에서 표본을 비복원추출(sampling without replacement)하거나 유한모집단에서 복원추출(sampling with replacement, 반복을 허용)을 하는 경우에는, 각 시행이 베르누이 시행의 조건을 만족하므로 이항분포를 사용할 수 있다.
(4) 인 확률변수
의 기댓값과 분산은 다음과 같다.
,
(5) 이항분포의 형태는 모수(parameter)가 와
에 의해서 결정된다.
① 이면 왼쪽으로 치우친 형태
② 이면 완전 대칭
③ 이면 오른쪽으로 치우친 형태
예를 들어, 아래는 이고, 각각
,
,
인 이항분포의 그래프를 그린 것이다.
(6) 이항분포를 따르는 모집단에서 임의로 표본을 택하는 코드는 다음과 같다. 예를 들어, 인 모집단에서 표본 100개를 추출하려면 다음을 사용하면 된다.
[R code] http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
대도시의 시민 중 30%만이 대중교통에 만족한다고 한다. 만약 이 도시의 시민 20명을 임의로 선택했을 때, (1) 이들 중 3명 미만의 시민이 대중교통에 만족할 확률과 (2) 6명의 시민이 만족할 확률, (3) 10명 이상의 시민이 만족할 확률을 구하라.
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
풀이. 시민 20명을 임의로 선택했을 때, 만족하는 사람의 수를 라 하면,
는 이항분포
를 따른다. 따라서 구하고자 하는 확률은 다음과 같다.
(1) (2)
(3)
아래의 R코드를 이용하여 각각의 확률을 얻는다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
어떤 바이러스 질환은 감염자와 접촉을 하게 되면 감염되며, 건강한 사람이 감염자와 한 번 접촉하였을 때, 감염될 확률은 20%라고 한다. 감염자가 임의의 건강한 사람 5명과 접촉했을 때, 5명 모두 감염될 확률은 얼마인가? 그리고 감염자 수의 기댓값과 분산, 표준편차는 얼마인가?
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
풀이. 감염자가 임의의 건강한 사람 5명과 접촉했을 때 감염자의 수를 라 하면,
는 이항분포
를 따른다. 따라서 구하고자 하는 5명 모두 감염될 확률은
이다. 아래의 R코드를 이용하여
와
의 기댓값, 분산, 표준편차를 얻는다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 포아송 분포(Poisson distribution)
(1) 이항분포 에서 평균
는 일정하고,
을 한없이 크게 할 때(상대적으로
는 한없이 작아짐) 이 확률분포는 포아송 분포가 된다. 즉, 포아송 분포(Poisson distribution)는 이항분포의 극한분포(limiting distribution)로 설명될 수 있다.
[이항분포에서 포아송 분포의 유도]
이항분포에서 이고
가 작으며
이 크고
인 관계가 성립될 때 이항분포에서 포아송 분포가 유도된다.
가 일정하면
이므로,
일 때는
[이항분포]
(이므로)
.
이때 로 치환하면
이고 [
]
(
)
따라서 [Poisson분포, pmf]
(2) 포아송 분포는 단위 시간 안에 어떤 사건이 발생하는 횟수를 확률변수 로 나타내는 확률분포이다. 어떤 사건이 단위 시간 안에 평균적으로
번 발생한다고 가정할 때,
일 확률은 다음과 같이 주어진다.
(단,
)
이때, 확률변수 는 포아송 분포
를 따른다고 하며,
로 나타낸다.
(3) 인 확률변수
의 기댓값과 분산은 다음과 같다.
,
(4) 주어진 시간 또는 정해진 영역에서 '성공'의 출현 횟수를 라 하면
는 포아송 분포를 따른다.
예를 들어 주어진 시간 내에 전화가 걸려 오는 횟수, 어떤 지역에서의 일 교통사고 사망자 수, 하루 동안 고장 나는 기계의 수, 인쇄된 책자의 페이지 당 오자 수, 일정량의 혈액 속에 있는 적혈구의 수는 포아송 분포
를 따른다. 여기서
는 평균이다.
포아송 분포를 따르는 모집단에서 임의로 표본을 택하는 코드는 다음과 같다. 예를 들어,
인 포아송 분포
를 따르는 모집단에서 표본 100개를 추출하려면 다음을 사용하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
인 포아송 분포를 따르는
가 있다.
를 구하여라.
풀이. 포아송 분포를 따르는 의 확률질량함수(pmf)는
이다.
를 얻는다.
이때, 이므로
여야 한다. 따라서
이다.
는 다음과 같다.
■
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
3.2 연속확률분포
22강 동영상, 연속확률분포 https://youtu.be/4wx1raETI8o (42:46)
▶ 연속 확률분포(continuous probability distribution)는 확률밀도함수(pdf)를 이용해 분포를 표현할 수 있는 경우를 의미한다. 연속 확률 분포를 가지는 확률변수는 연속 확률변수라고 부른다. 자주 사용되는 연속확률분포에는 균등분포, 정규분포, 지수분포 등이 있다. 이 절에서는 이들의 정의와 개념에 대하여 살펴보고, 여러 확률분포 사이의 관계에 대하여 다룬다.
● 균등분포(Uniform distribution)
(1) 연속확률변수 가
와
사이에서 일정한 값을 취하고
일 때
는 균등분포(uniformly distribution)를 따른다고 하며,
로 표시한다. 균등분포의 확률밀도함수(probability density function, pdf)
는 다음과 같다.
(2) 일 때, 균등분포의 누적 분포함수(distribution function)는 다음과 같다.
(3) 일 때, 확률변수
의 기대값과 분산은 다음과 같다.
,
(4) 균등분포를 따르는 모집단에서 임의로 표본을 택하는 코드는 다음과 같다. 예를 들어, 인 모집단에서 표본 100개를 추출하려면 다음을 사용하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
확률변수
가
를 따른다고 하자. 다음 확률을 구하여라.
(1) (2)
(3)
풀이. 이고
이므로
이고
(1)
(2)
(3) □
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 정규분포(Normal distribution)
(1) 확률변수 의 확률밀도함수가 다음과 같을 때,
는 정규분포(normal distribution)를 따른다고 하고
으로 표시한다.
정규분포의 확률밀도함수 가 그리는 아래 그래프를 정규분포곡선(normal distribution curve) 이라 한다.
(2) 일 때, 정규분포의 확률분포함수는 다음과 같다.
(3) 일 때, 정규분포의 기댓값과 분산은 다음과 같다.
,
(4) 확률변수 가 정규분포를 따를 때,
가
이상
이하의 값을 취할 확률은
이때 이것은 바로 아래쪽 그림의 색칠한 부분의 넓이를 의미한다.
(5) 정규분포를 따르는 모집단에서 임의로 표본을 택하는 코드는 다음과 같다. 예를 들어, 이고
인 정규분포를 따르는
인 모집단에서 표본 100개를 추출하려면 다음을 사용하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 정규분포곡선은 아래 성질을 갖는다.
정리. |
정규분포 곡선의 성질 |
(1) 형태는 종(Bell) 모양이다.
(2) 이고
을 축으로 좌우 대칭이다.
(3) 에서 최대값
을 갖고 그 점이 최빈수(mode, 가장 많이 관측되는 수)이다.
(4) 축을 점근선으로 갖는다. 단,
(5) 변곡점은 이고
에서 거의
축과 접하게 된다.
(6) 곡선과 수평축(축) 사이의 면적은
이다.
(7) 에서 아래로 오목하고
에서 아래로 볼록하다.
(8) 가 일정하고
가 변화할 때
가 크면 오른쪽으로,
가 작으면 왼쪽으로 이동한다.
(9) 가 일정하고
가 변화할 때
가 크면 넓고 완만한 곡선,
가 작으면 좁고 뾰족한 곡선을 이룬다.
● 표준정규분포(Standard normal distribution)
(1) 확률변수 가 정규분포
를 따를 때, 표준화 확률변수
는 다음과 같은 확률밀도함수를 갖는다.
이 때, 는 표준정규분포(standard normal distribution)를 따른다고 하고,
로 표시한다.
(2) 일 때,
의 확률분포함수
는
이다. 를 표준정규분포함수(standard normal distribution function)라 한다.
(3) 일 때, 표준정규분포의 기댓값과 분산은 다음과 같다.
,
정규분포의 표준화 [표준정규분포의 기댓값과 분산]
(1) 확률변수 의 평균이
, 표준편차가
라 하면
따라서 확률변수 의 평균과 분산은 각각
이 된다.
표준화
의 분포
의 분포
(2) 확률변수 가 정규분포
을 따르는 분포일 때, 확률
을 구하려면 변환
에 의하여 표준화된 확률변수
가 표준정규분포
에 따르는 분포를 이용하여
을 구한다.
라고 하면
(3) 정규분포에서 많이 쓰이는 확률
다음 물음에 답하여라.
(1) 확률변수 가 표준정규분포
을 따를 때
을 구하여라.
(2) 확률변수 가
을 따를 때
을 구하여라.
풀이.
(1)
(2)
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
어떤 회사에서 제조되는 전구의 수명 시간은 정규분포를 따른다고 한다. 제조되는 전구들에 대한 수명시간에 대한 평균은 3,000시간이고 표준편차는 80시간이라 할 때, 임의로 선택한 전구 1개의 수명시간이 2,948시간에서 3,080시간 사이일 확률을 구하여라.
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
이항분포의 정규근사
확률변수 의 분포가 이항분포일 때
의 평균은
, 분산은
이므로
는 정규분포
에 근사 한다. 표준화한 변수
는 표준정규분포
에 가까워진다.
확률변수
가
,
의 이항분포를 따른다고 하자. 이러한 확률변수
가 82이상 102미만일 확률은 얼마인가?
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 지수분포(Exponential distribution)
(1) 사건이 서로 독립적일 때, 단위 시간동안 발생하는 사건의 횟수가 푸아송 분포를 따른다면, 다음 사건이 일어날 때까지 대기 시간은 지수분포(Exponential distribution)를 따른다고 한다.
(2) 확률변수 가 지수분포를 따를 때, 확률밀도함수는 다음과 같이 주어진다.
이때 는 단위 시간당 발생하는 사건의 빈도를 나타내며,
으로 표시한다.
(3) 일 때,
의 확률분포함수는 다음과 같다.
예를 들어, 일 때, 지수분포의 확률밀도함수와 확률분포함수의 그래프는 다음과 같다.
(4) 일 때, 확률변수
의 기댓값과 분산은 다음과 같다.
,
*는 단위 시간에 사건이
번 발생할 때, 사건과 사건 사이에 평균적인 대기 시간이
임을 뜻한다.
(5) 지수분포는 부품이나 시스템의 고장시간에 대한 모형으로 사용되고, 신뢰성 이론, 기대 시간, 수명 시간 등의 분포에서 이용되며, 지수분포는 종종 어떤 특정한 사건이 발생할 때까지 걸린 시간의 분포에서 사용 한다. 예를 들어, 지금부터 지진이 발생할 때까지의 시간, 새로운 전쟁이 일어날 때까지의 시간, 잘못 걸려온 전화를 받을 때까지의 시간 등에서 이용된다.
(6) 지수분포를 따르는 모집단에서 임의로 표본을 택하는 코드는 다음과 같다. 예를 들어, 인 모집단에서 표본 100개를 추출하려면 다음을 사용하면 된다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
어떤 회사의 고객센터에는 전화가 평균적으로 10분에 3회가 걸려온다. 다음 물음에 답하여라.
(1) 한 번 전화가 걸려온 후에 다음 전화가 걸려올 때까지 걸린 시간이 2분 이내일 확률
(2) 다음 전화가 걸려올 때까지 걸린 시간이 5분 이상일 확률
풀이. 고객센터에는 평균적으로 1분당 0.3회 전화가 걸려오므로 전화가 한번 걸려온 후 다음 전화가 걸려올 때까지 걸린 시간은 인 지수분포
를 따른다. 따라서 R 코드를 이용하여 확률을 구하면 다음과 같다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 중심극한정리 (central limit theorem, CLT)
* 중심극한정리는 통계학 역사상 가장 중요한 발견이라고 한다. 프랑스 수학자 라플라스(Laplace)는 1774년에서 1786년 사이 몇 개의 논문에서 이러한 정리의 발견과 증명을 시도하였다. 여러 통계분석기법에서 분석모형이 정규분포를 따른다는 가정을 하는 경우가 많다. 그 근거가 바로 중심극한정리이다. 이 정리는 확률, 통계 이론뿐만 아니라 실용적인 면에서도 의미가 크며, 품질관리에서도 많이 이용된다.
중심극한정리(Central Limit Theorem, CLT)란 동일한 확률분포를 가진 독립 확률변수 개의 평균의 분포는
이 적당히 크다면 정규분포에 가까워진다는 이론이다. 즉, 평균이
이고 분산이
인 모집단으로부터 추출한 크기가
인 확률표본의 표본평균
는
이 증가할수록 모집단의 분포유형에 상관없이 많은 경우는 근사적으로 정규분포
을 따른다는 것이다.
이를 정리하면 다음과 같다.
정리. |
표본평균의 확률분포와 중심극한정리 |
(1) 정규 모집단으로부터의 표본평균에 대한 확률분포
크기가 인 확률표본
이
,
이면, 표본평균 의 확률분포는 다음과 같은 정규분포를 따르게 된다.
(2) 중심극한정리 [Key Idea 3]
평균이 이고 분산이
인 모집단으로부터 추출한 크기
인 확률표본의 표본평균
는 표본의 크기가 큰 경우(보통 30 이상), 근사적으로 평균이
이고 분산이
인 정규분포를 따른다.
[참고] https://wsyang.com/2011/04/clt-with-r/ https://ko.wikipedia.org/wiki/중심_극한_정리
만 2세 유아들의 신장은 평균이 87.6cm이고 표준편차가 3.3cm인 정규분포를 따른다고 한다. 만약 6명의 2세 유아들에 대해 신장을 조사하였을 경우, 이들의 평균 신장이 86.6cm에서 89.4cm사이일 확률은 얼마인가?
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
어떤 열 매의 무게는 평균이 0.5g이고 표준편차가 0.15g이라고 한다. 100개의 열매를 임의로 선택한 경우, 이들의 평균 무게가 0.48g에서 0.53g사이일 확률은 얼마인가?
[출처] http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 확률과 통계에서 중심극한정리(Central Limit Theorem)가 의미하는 것은 (대부분의 경우) 모집단의 분포가 연속형이든, 이산형이든, 또는 한쪽으로 치우친 형태이든 간에 표본의 크기가 클수록 표본평균의 분포가 점점 정규분포에 가까워진다는 의미이다. 아래 R 코드를 통하여 확인할 수 있다.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
# 카이제곱() 분포
# 이항(Binomial) 분포
여기서 표본의 크기 이 커질수록 표본평균의 분포가 파란색 실선인 정규 분포에 점점 가까워져 감을 알 수 있다. 그리고 오른쪽에 있는 Q-Q(이론상의 Quantile vs. 획득한 샘플값의 Quantile) 플롯은 분석할 표본 데이터의 분포와 정규분포의 분포 형태를 비교하여 표본 데이터가 정규분포를 따르는지 (즉, red line과 중간 부분에서 오차가 없는지) 검사하는 간단한 시각적 도구가 된다.
● 중심극한정리가 잘 작동하는지 R을 활용하여 살펴보자.
균등분포
에서 크기가
인 임의표본의 평균을 각
에 대하여 1000번씩 계산하여 히스토그램과 QQ-plot을 작성하라. (아래 R 코드 참조) 표본평균이 정규분포에 근접하려면
은 얼마나 커야 하는가? 마찬가지로 표본의 분산을 구해보고,
이 커질 때 이 값은 어떻게 변화하는지 토의하라.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
● 그러나 아래 예인 <표준 코시 분포(standard Cauchy distribution)>의 경우와 같이 조건이 달라서 ‘표본의 크기 이 커져도 표본평균의 분포가 정규 분포에 가까지지 않을 수 있다’. (적분값인) 적률생성함수가 존재하지 않는 코시분포의 경우 평균과 분산도 갖지 않는다.
확률변수
의 확률밀도함수가 다음과 같을 때
는 표준 Cauchy 분포(standard Cauchy distribution)를 따른다고 하며,
와 같이 나타낸다.
,
에서 크기가
인 임의표본의 평균을 각
에 대하여 1000번씩 계산하여 히스토그램과 qq-plot을 작성하라. (아래 R 코드 참조)
이 커질수록 표본평균의 분포가 정규분포에 근접하는가? 마찬가지로 표본의 분산을 구해보고,
이 커질 때 이 값은 어떻게 변화하는지 토의하라.
[R code] http://mathlab.knou.ac.kr:8080/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
■
3.3 결합 확률분포, 공분산(Covariance)과 상관계수(Correlation)
23강 동영상, 공분산과 상관계수, 데이터 활용의 실제 https://youtu.be/oUSPhkyEWp4 (50:05)
* 확률변수가 두 개 이상 있는 경우에는 각각의 확률변수에 대한 확률분포 이외에도 확률분포 쌍이 가지는 복합적인 확률분포를 살펴보아야 한다. 두 확률변수 값의 쌍이 어떤 확률분포를 가지는지 안다면 둘 중 하나의 확률분포의 값을 알고 있을 때 다른 확률분포가 어떻게 되는지도 알 수 있다. 이를 위하여 결합 확률분포(또는 결합분포)에 대한 개념이 필요하다.
정의. |
결합 확률함수, 결합 확률분포 |
(1) 와
가 이산확률변수이면
와
의 결합 확률함수(joint probability function)는 다음과 같다.
(2) 와
의 가능한 모든 값에 대하여
의 값을 나타낸 것을 결합 확률분포(joint probability distribution)라 한다. 이를 표로 나타내면 다음과 같다.
|
|
|
|
|
|
합 |
|
|
|
|
|
|
|
|
관한
주변 확률 분포 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
합 |
|
|
|
|
|
|
|
|
|
|
|
|
(3) ,
의 결합분포가 주어져 있을 때 주변확률분포(marginal probability distribution)는 다음과 같이 정의된다.
즉, 주변분포란 결합 확률분포에서 하나의 확률변수에 대해서만 고려한 확률분포를 뜻한다.
* 결합 확률분포에 관하여 다음이 성립한다.
정리. |
결합 확률분포 |
(1) 모든 에 대하여
(2) 모든 에 대하여
의 합은
이다. 즉,
(3) 모든 에 대하여
크기가 같은 파란 색 공
개와 붉은 색 공
개와 녹색 공
개가 한 주머니 안에 들어 있다. 이 주머니에서 임의로
개의 공을 꺼낸다. 꺼낸 공(ball) 중 파란색 공의 수를
, 붉은 색 공의 수를
라 할 때 다음 물음에 답하여라.
① 와
의 결합 확률함수를 구하여라.
② 결합 확률분포를 작성하여라.
③ 을 구하여라.
④ 의 주변분포를 구하여라.
⑤ 의 주변분포를 구하여라.
풀이.
①
②
|
|
|
|
합 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
합 |
|
|
|
|
③
④
|
|
|
|
합 |
|
|
|
|
|
⑤
|
|
|
|
합 |
|
|
|
|
|
* 여러 개의 연속확률변수에 대하여는 다음과 같은 결합밀도함수를 이용하여 결합 확률분포를 나타낸다. (여기서 중적분의 지식이 필요하다.)
정의. |
결합밀도함수(joint density function) |
연속확률변수 와
의 결합밀도함수(joint density function)
는 다음과 같이 정의된다.
(1) 모든 에 대하여
이다.
(2) 모든 에 대하여
이다.
(3) 모든 에 대하여
이다.
(4) 가
평면상의 임의의 영역
에 들어갈 확률은
로 주어진다.
(5) 와
의 주변확률밀도함수(marginal probability density function)는 각각 다음과 같이 정의된다.
,
두 확률변수
,
의 결합밀도함수가 다음과 같이 주어져 있다고 하자.
,
,
와
의 주변밀도함수를 각각 구하여라.
풀이. 정의에 의해 구하면 다음과 같다.
,
,
[Sage code] http://mathlab.knou.ac.kr:8080/ http://sage.skku.edu/
* 여러 확률변수 사이의 상관관계를 숫자로 나타낸 것이 공분산과 상관계수이다.
* 확률변수 가 갖는 분포를 이해하기 위해 사용하는 것이 첫 번째로 평균이고, 두 번째로 분산이다. 평균을 이용하여 분포의 중간부분을 알아내고, 분산으로써 분포가 얼마나 퍼져있는지 알아낸다.
▪ 그렇다면 확률변수가 2개일 때 이 확률분포들이 어떤 모양으로 되어있는지를 알고 싶으면, 가장 먼저 의 평균, 다음이
의 평균을 생각하면 된다. 그 다음으로 얼마나 퍼져있는지 알기위해 분산 특히 각 확률변수들이 어떻게 퍼져있는지를 보여주는 개념이 공분산(Covariance)이다.
▪ 공분산은 의 편차와
의 편차를 곱한 것의 평균이다. 그런데 공분산에도
와
의 단위의 크기에 영향을 받는다는 문제점이 있다. 이것을 보완하기 위해 상관계수(Correlation)를 사용한다. 상관계수라는 개념은 확률변수의 절대 크기에 영향을 받지 않도록 표준화 시킨 것이고, 분산의 크기만큼 나누었다고 생각하면 된다.
정의. |
공분산, 상관계수 |
(1) 확률변수 와
의 공분산은 다음과 같이 정의된다.
(2) 확률변수 와
사이의 상관계수는 다음과 같이 정의된다.
▶ 공분산 행렬(Covariance Matrix)
행렬을 이용하면 두 변수가 서로 어떤 관계를 가지는지를 쉽게 표현할 수 있다. 특히, 각 데이터의 분산과 공분산을 이용해 만드는 공분산 행렬이 이에 해당한다. 개의 확률변수
,
,
를 하나의 벡터로 나타낸 것을
라 하자. 벡터
의 공분산 행렬(covariance matrix)은
성분이
일 때는
의
번째와
번째 확률변수의 공분산이고,
일 때는
번째 확률변수의 분산인
행렬을 말하는 것으로
를 사용하여 나타낸다. 쉽게 말하면, 정사각행렬의 값을 각 변수의 분산(주대각선)과 공분산으로 채운 것이 바로 공분산 행렬이다.
공분산행렬에서 고유벡터와 고윳값을 찾는 것은 데이터의 주성분(principal component)을 찾는 것과 동일하다. 왜냐하면 고유 벡터는 행렬이 어떤 방향으로 힘을 가하는지를 표현하는데, 이것은 데이터가 어떤 방향으로의 분산이 가장 큰지를 구하는 것과 같기 때문이다. 고윳값(Eigenvalues)은 각 고유벡터에 해당하는 상관계수이다. 우리가 다루는 행렬이 공분산 행렬일 경우 고윳값은 각 축에 대한 공분산 값이 된다. 그리고 고윳값이 큰 순서대로 고유벡터를 정렬하면, 결과적으로 중요한 순서대로 주성분을 구하는 것이 된다.
정의. |
독립사건, 종속사건 |
두 개의 사건 가
또는
이고
를 만족할 때 통계적 독립(Statistically Independent)이라 하고, 와
를 독립사건이라 한다.
정리. |
공분산, 상관계수 |
(1) ,
가 서로 독립이면
이므로 공분산은
이다.
(2) ,
가 서로 독립이면
이므로 상관계수는
이다. ■
두 확률변수
,
의 결합밀도함수가 다음과 같이 주어져 있다고 하자.
,
,
공분산 과 상관계수
를 구하여라.
풀이. 예제 15에서 얻은 와
의 주변밀도함수
,
,
,
로부터 공분산과 상관계수를 다음의 Sage 코드를 활용하여 구할 수 있다.
[Sage code] http://sagecell.sagemath.org/ http://sage.skku.edu/
4. 데이터 활용의 실제
▪ 아래는 웹으로부터 데이터를 불러와서 분석을 진행한 사례로 출처는 다음과 같다.
[출처] http://matrix.skku.ac.kr/E-math/
http://matrix.skku.ac.kr/E-Math/R-Practice-all.txt
다음은 txt 형식으로 작성된 파일(my_data.txt)을 웹으로부터 불러와서 데이터 프레임을 작성하는 예제이다.
[R code] http://sagecell.sagemath.org/ http://sage.skku.edu/ (언어를 R 로 바꾸어서 실행)
다음은 my_data의 Walking 변수의 히스토그램을 그린 예시이다.
[R code] http://sagecell.sagemath.org/ http://sage.skku.edu/ (언어를 R 로 바꾸어서 실행)
다음은 my_data의 Walking 변수와 Bike 변수의 자료를 평면에 그린 예시이다.
[R code] http://sagecell.sagemath.org/ http://sage.skku.edu/ (언어를 R 로 바꾸어서 실행)
다음은 자료의 각 변수에 관하여 표준편차, 평균 등을 계산한 예제이다. attach 명령을 사용하면 직접 변수명으로 접근할 수 있다.
[R code] http://sagecell.sagemath.org/ http://sage.skku.edu/ (언어를 R 로 바꾸어서 실행)
우리는 Part 3에서 인공지능을 이해하기 위하여 필수적인 <기초 통계 및 확률>을 학습하였다. 통계적 방법은 인공 지능을 구현하는 구체적 접근 방식인 머신러닝 예측 모델링에서 매우 중요한 역할을 한다. 다음은 머신러닝 프로젝트를 수행할 때 따르는 통계적 방법의 적용 절차 를 잘 보여준다.
[출처] https://machinelearningmastery.com/statistics_for_machine_learning/
① 문제 구성 : 탐색적 데이터 분석 및 데이터 마이닝이 요구됨
② 데이터 이해 : 요약 통계 및 데이터 시각화가 필요함
③ 데이터 정리 : 이상치(outlier)를 탐지하고 결측값을 대치해야 함.
④ 데이터 선택 : 데이터 샘플링 및 특징선택(feature selection) 방법을 사용해야 함.
⑤ 데이터 준비 : 데이터를 변환하고, 스케일링, 인코딩 등을 사용해야 함.
⑥ 모델 평가 : 실험 설계 및 리샘플링 방법이 필요함.
⑦ 모델 구성 : 통계적 가설 검정 및 추정 통계를 사용해야 함.
⑧ 모델 선택 : 통계적 가설 검정 및 추정 통계를 사용해야 함.
⑨ 모델 제시 : 신뢰 구간과 같은 추정 통계를 사용해야 함.
⑩ 모형 예측 : 예측 구간과 같은 추정 통계를 사용해야 함.
● 머신러닝에서 주로 사용되는 심화 통계 내용은 다음과 같다.
[출처] https://machinelearningmastery.com/statistics-for-machine-learning-mini-course/
통계 및 머신러닝, 통계 소개, 가우스 분포 및 기술 통계, 변수 간의 상관 관계,
통계적 가설 검정, 추정 통계, 비모수 통계 ■
● 머신러닝에서 주로 사용되는 심화 통계 주제 및 응용에 관하여 학습을 원하는 대학원 학생들은 아래의 [ 도서( Statistical Learning )와 강의 동영상 ]을 참조하라.
[1] G. James, D. Witten, T. Hastie and R. Tibshirani, An Introduction to Statistical Learning: with Applications in R, Springer, 2017.
(교재) http://faculty.marshall.usc.edu/gareth-james/ISL/ISLR%20Seventh%20Printing.pdf
(동영상 강의) https://www.r-bloggers.com/in-depth-introduction-to-machine-learning-in-15-hours-of-expert-videos/
Chapter 1: Introduction (slides, playlist)
Chapter 2: Statistical Learning (slides, playlist)
Chapter 3: Linear Regression (slides, playlist)
Chapter 4: Classification (slides, playlist)
Chapter 5: Resampling Methods (slides, playlist)
Chapter 6: Linear Model Selection and Regularization (slides, playlist)
Chapter 7: Moving Beyond Linearity (slides, playlist)
Chapter 8: Tree-Based Methods (slides, playlist)
Chapter 9: Support Vector Machines (slides, playlist)
Chapter 10: Unsupervised Learning (slides, playlist)
Interviews (playlist)
• Interviews with statistics graduate students (7:44)
[부록 4] 기초통계 개념
정의. |
표본공간(sample space), 사건(event), 표본점(sample point) |
(1) 같은 조건하에서 몇 번이고 반복할 수 있는 결과가 우연에 의해서 정해지는 실험 또는 관찰을 시행이라 하고 시행의 결과로 일어나는 것을 사건이라 한다.
(2) 실험 또는 시행에 의하여 일어날 수 있는 모든 가능한 결과들의 집합을 표본공간(sample space)이라 한다. 표본공간의 부분집합을 사건(event)이라 한다.
(3) 표본공간을 구성하고 있는 개개의 원소를 표본점(sample point)이다
(4) 표본공간의 한 원소만으로 이루어진 사건을 단순사건이다.
▪ 개의 표본점
으로 구성되어 있는 표본공간
는 다음과 같이 표현된다.
▪ 근원사건(단순사건) : 표본공간의 한 원소만으로 이루어진 사건 을 근원사건 또는 단순사건이다.
(5) 반드시 일어나는 사건을 전사건이라 하고 로 나타낸다.
표본공간의 모든 원소를 포함하고 있는 사건을 전사건이다
(6) 아무도 일어나지 않는 사건을 공사건이라 하고 로 나타낸다.
표본점을 하나도 포함하지 않는 사상을 공사건이다.
동전을 세 번 던지는 실험에서 앞면을
, 뒷면을
일 때 표본 공간
는
이다. 적어도 한 번 앞면이 나오는 사건
는
의 부분 집합이다. 두 번 앞면이 나오는 사건
는
의 부분 집합이다. 한 번 앞면이 나오는 사건
는
의 부분 집합이다. 앞면이 한 번도 나오지 않는 사건
는
의 부분 집합이다.
한 개의 동전을 앞면이 나올 때까지 던질 때 표본 공간
는
이다. 네 번째 앞면이 나오는 사건 는
의 부분 집합이다.
▪ 표본공간 의 임의의 사건
,
에 대하여 다음과 같은 사건의 연산이 성립한다.
① 합사건(union event)
임의의 두 사건 ,
에 대하여 적어도 한쪽이 일어나는 사건을 합사건
② 곱사건(intersection event)
임의의 두 사건 ,
에 대하여 양쪽이 동시에 일어나는 사건을 곱사건
③ 여사건(complement event)
임의의 사건 가 일어나지 않는 사건을 여사건
④ 배반사건(exclusive event, disjoint event)
임의의 두 사건 와
가 동시에 일어나지 않는 사건, 즉,
일 때 즉, 두 사건을 배반사건
동전을 세 번 던지는 시행에서 앞면이 나타나면
, 뒷면이면
이다. 이 시행에서
(1) 표본공간 를 나타내어라.
(2) 첫 번째 던진 동전의 결과가 앞면이 되는 사건 를 나타내라.
(3) 두 번째 던진 동전의 결과가 뒷면이 되는 사건 를 나타내라.
(4) 사건 와
는 서로 배반인가?
(5) ,
와
를 구하라.
풀이.
(1)
(2)
(3)
(4) 사상 와
는 동일한 근원사건
를 가지고 있으므로 서로 배반이 아니다.
(5) ,
,
에서
까지 숫자가 하나씩 적힌
개의 공이 들어 있는 주머니에서 한 개의 공을 꺼내는 시행을 한다. 꺼낸 공에 적힌 숫자가 짝수인 사건을
,
의 약수인 사건을
,
의 배수인 사건을
라고 할 때 다음을 구하여라.
(1) (2)
(3)
(4)
(5)
(6)
풀이. 표본공간 는
이며, 세 사건 ,
,
는
,
,
이므로
(1)
(2)
(3)
(4)
(5)
(6)
[Sage code] http://sagecell.sagemath.org/ http://sage.skku.edu/
한 개의 주사위를 던질 때
이하의 눈이 나올 확률을 구해보자.
풀이. 표본공간 는
이며,
이하의 눈이 나오는 사건을
은
이므로
이다.
[Sage code] http://sagecell.sagemath.org/ http://sage.skku.edu/
주사위 한 개를 던지는 시행을
번 반복할 때 등이 나오는 횟수
을 조사한 결과가 아래 표와 같았다. 주사위의 눈이
이 나올 통계적 확률을 소수 첫째 자리까지 구하여보자.
|
|
|
|
|
|
|
|
|
|
풀이. 상대도수 의 값을 차례로 구해보면
,
,
,
이므로
의 값이 커질수록
에 가까워짐을 알 수 있다. 따라서 등이 나올 통계적 확률은
이다.
[R code] http://sagecell.sagemath.org/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
반지름의 길이가 각각
,
인 두 원
,
가 있다. 원 내부의 각각의 점을 잡을 가능성이 같은 정도로 기대된다고 하면 원
의 내부에서 임의의 한 점을 잡을 때 그 점이 원
의 내부의 점일 확률
는
이다.
네 개의 동전을 동시에 던질 때 뒷면이 적어도 한 개 나올 확률을 구하여보자.
풀이. 네 개의 동전을 동시에 던질 때 뒷면이 적어도 한 개 나오는 사건을 라 하면
의 여사건은 네 개 모두 앞면이 나오는 사건이므로
.
정리. |
교사건(intersection), 합사건(union)의 확률, 덧셈정리 |
① 임의의 사건 ,
가
이면
②
③ 임의의 사건 에 대하여
(덧셈정리)
④ 임의의 사건 가 서로 배반사건일 때
⑤ 임의의 사건 에 대하여
⑥
어느 학급의 전체 학생들을 대상으로 조사한 결과 야구를 좋아하는 학생은
, 축구를 좋아하는 학생은
, 야구와 축구를 좋아하는 학생은
이었다. 야구 또는 축구를 좋아하는 학생은 전체의 몇
인지 구하여보자.
풀이.
야구 또는 축구를 좋아하는 학생은 전체의 이다.
어느 체육 고등학교에서 태권도, 유도, 복싱을 전공하는 학생이 각각
명,
명,
명이라고 한다. 학생들 가운데 임의로 한 명을 뽑을 때, 이 학생이 유도 또는 복싱을 전공하는 학생일 확률을 구하여보자. (단 모든 학생은 반드시 하나의 분야를 전공한다고 하자.)
풀이.
정의. |
조건부 확률(conditional probability) |
어떤 사건 가 일어났다는 조건하에서 사건
가 일어날 확률을 사건
에 대한 사건
의 조건부 확률(conditional probability)이라 하고
로 표시하며 다음과 같이 정의한다.
(단,
)
정리. |
조건부 확률 |
① 임의의 사건 에 대하여
② 이면,
③
두 개의 주사위를 던지는 실험에서 두 주사위의 눈의 합을
라고 하자.
가 홀수라고 할 때
가
보다 작을 확률을 구하여보자.
풀이. 가
인 사건이고
는
가 홀수인 사건이라고 하면
가 우리가 구하려는 확률이다.
는
가
,
,
인 사건이고 표본공간은
가지이므로
이다. 그러므로
.
정리. |
곱셈정리 |
조건부 확률의 정의로부터 다음의 곱셈정리를 얻을 수 있다.
또한, 일반적으로 사건 에 대하여 다음이 성립한다.
개의 검은 공과
개의 흰 공이 들어 있는 주머니로부터
개의 공을 비복원추출한다고 할 때
개의 공 모두가 흰 공일 확률을 구하여보자.
풀이. 를
번째 꺼낸 공이 흰 공일 사건이라고 하면
,
이다. 그러므로 개의 공이 모두 흰 공일 사건
에 대한 확률은
.
정의. |
독립사건, 종속사건 |
두 개의 사건 가
또는
를 만족할 때 통계적 독립이라 하고, 와
를 독립사건이라 한다.
와
가 서로 독립이 아닐 때
와
는 종속사건이라 한다.
만약 사상 ,
가 독립이면, 다음 두 사건들도 독립이다.
① 와
② 와
③ 와
또한, 개의 사상
에 대해서 다음
개의 조건이 성립할 때, 사상
는 서로 독립이라고 한다.
정리. |
독립사건일 때 교사건(intersection)의 확률 |
두 사건 와
가 서로 독립사건일 때 교사건의 확률은 다음과 같다.
▪ 와
가 독립사건이면
와
가 독립사건이다.
검정색의 주사위와 흰색의 주사위를 던졌다. 검정색 주사위의 눈이
이라는 조건에서 두 주사위의 눈의 합이
이상일 확률을 구하여라.
풀이. : 검정색 주사위의 눈이
인 사건
: 검정색 주사위와 흰색 주사위의 두 눈의 합이
이상인 사건
,
,
주머니 안에 같은 크기로
개의 흰 구슬과
개의 검은 구슬이 들어 있다. 여기서,
개씩 차례로
개를 비복원으로 추출할 때 처음에는 흰 구슬, 나중에 검은 구슬이 나올 확률을 구하여라.
풀이.
흰 구슬이 나올 사건
검은 구슬이 나올 사건
처음에 흰 구슬이 나올 확률은
나머지 개의 구슬 중에서 검은 구슬이 나올 확률은
구하고자 하는 확률은 다음과 같다.
정리. |
독립시행의 정리 |
확률 을 가지는 독립사건
가
회 반복시행 중
회 나타나는 확률을
라고 하면
(단,
)
로 주어진다.
정의. |
분할(partition) |
어떤 집합 가 공집합이 아닐 때 집합
의 부분집합
을 원소로 하는 집합족
이 다음 내용을 만족할 때
을 집합
의 분할(partition)이라 한다.
①
②
③
동전
개를 던질 때 표면이 나오는 개수
의 평균과 분산을 구하여라.
풀이.
주사위 4개를 던질 때 적어도 6이 두 개 나올 확률을 구하여라.
풀이. ,
,
.
적어도 6이 두 번 나오는 경우는 6이 두 번, 세 번, 또는 네 번 나오면 된다. 따라서
[Sage code] http://sagecell.sagemath.org/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
[R code] http://sagecell.sagemath.org/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
▪ 초기하분포(Hypergeometric distribution)
(1) (비복원추출) 모집단 에서 비복원추출하여
개의 표본을 추출할 때, 각 성분의 속성이
을 갖는 것을
형,
을 갖지 않는 것을
형이라 하자. 모집단 가운데
개가
형이고
개가
형일 때,
개의 표본을 추출하여
형의 개수를
라 하면
일 확률은 다음과 같다.
(단,
)
여기서 에 대하여
이므로
는 확률질량함수이다.
그리고 확률변수 는 초기하분포
를 따른다고 한다.
(2) 확률변수 가 초기하분포
를 따르면
의 평균은
의 분산은
분산식에서 을 유한모집단수정계수(finite population correction coefficient)라 하며
이 커질수록 이 값은
에 접근한다.
카드 더미에는 빨간색 카드 6장과 검은색 카드 4장이 있다. 카드를 복원하지 않고 무작위로 5장을 뽑는다고 할 때, 빨간색 카드가 4장이 뽑힐 확률은 얼마인가?
풀이. 를 빨간색 카드의 장수라 하면,
는 검은색 카드의 장수이다. 복원하지 않고 5장을 뽑을 때 빨간색 카드를
장 뽑을 확률은 다음과 같다.
[Sage code] http://sagecell.sagemath.org/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
[R code] http://sagecell.sagemath.org/ http://mathlab.knou.ac.kr/r/ http://sage.skku.edu/
각 분포의 의미는 다음과 같다. 예를 들어, 이항분포는 수강생 중 한 명을 뽑았을 때 남자일 확률을 보여주며, 포아송 분포는 주어진 시간 내에 수업에 들어오는 남학생 수를 보여준다. 초기하(Hypergeometric) 분포는 수강생 중 남자와 여자라는 두 그룹이 있는 경우 한명을 뽑았을 때 남자일 확률을 보여준다.
▪ 각 분포는 샘플의 크기(N)가 커질수록 서로의 분포로 수렴하기도 하고, 어떤 분포는 다른 분포의 부분집합(특별한 경우)이 되기도 한다. 예를 들어, 초기하 분포는 (수강생 전체 인원수)과
(남자의 수)을 고정시키고,
,
으로 보낼 때
로 수렴한다고 하면, 직관적으로 <수강생 중 한 명을 뽑았을 때 남자일 확률을 보여주는> 이항분포에 가까워지게 된다. 그리고 이항분포에서는
(수강생의 수)이 고정되는데, 만일 이항분포에서
,
로 보내고, 평균은 유지된다고 가정하면 (
), 이는 포아송 분포에 가까워지게 된다. 이를 도식화 하면 다음과 같다.
Hypergeometric 분포 Binomial 분포
Poisson 분포
■ Gamma 분포(Gamma distribution)
(1) Gamma함수의 정의
반복하여
가 양의 정수
이면
과
에서
Gamma함수 에서
라면
에서
에서 Gamma분포의 확률밀도함수를 정의한다.
(2) Gamma분포의 확률밀도함수
Gamma함수에서 확률변수 의 확률밀도함수가
에 대하여 다음과 같을 때,
는 Gamma분포를 따른다고 하며,
로 표시한다.
일 때 에 대하여
에서
는 확률밀도함수이다.
(3) Gamma분포는 신뢰성 이론, 기대 시간, 수명 시간 등의 분포에서 이용된다. 의 특별한 값에 대하여 감마분포의 확률밀도함수를 그래프로 표현하면 다음과 같다.
(4) 확률변수 가 Gamma분포
를 따르면
의 평균은
의 분산은
■ Beta분포
(1) Beta함수
(2) Beta함수와 Gamma함수의 관계
(3) Beta분포 의 확률밀도함수
확률변수 의 확률밀도함수가
에 대하여 다음과 같을 때,
는 Beta분포를 따른다.
(4) Beta분포는 제품의 불량률이나 총 작업시간 중 휴업한 시간의 비율 등과 같은 비율에 대한 모형으로 사용되는 분포이다. 의 특별한 값에 대하여 베타분포의 확률밀도함수를 그래프로 표현하면 다음과 같다.
(5) 확률변수 가 베타분포
를 따를 때,
의 평균과 분산은 다음과 같다.
■ 분포
(1) 분포의 확률밀도함수
Gamma분포에서 일 때
분포의 확률밀도함수이다. 따라서 확률변수
의 확률밀도함수가
일 때, 는 자유도(degree of freedom)가
인
분포(chi-square distribution)라 한다.
(2) 분포에서
의 크기에 따라 분포의 모양이 변하며, 자유도가 커지면 대칭에 가까워지며 여러 집단들 사이의 독립성 검정과 적합성 검정에 이용된다.
분포의 확률밀도함수를 그래프로 표현하면 다음과 같다.
(3) 확률변수 가 자유도
인
분포일 때,
의 평균
의 분산
정리. |
|
(1) 확률변수 가
인 정규분포일 때,
은 자유도
인
분포를 따른다.
(2) 확률변수 가
인 정규모집단에서 서로 독립인
개의 확률표본
을 추출할 때
은 자유도
인
분포를 따른다.
(3) 확률변수 가
인 정규모집단에서 크기가
개인 독립인 표본
에 대한 통계량은
은 자유도
인
분포를 따른다.
(4) 확률변수 가
인 정규모집단에서 크기가
개인 확률표본
의 표본평균
에 대한 통계량은
은 자유도
인
분포를 따른다.
(5) 확률변수 가
인 정규모집단에서 서로 독립인
개의 확률표본
을 추출할 때
은 자유도
인
분포를 따른다.
(6) 확률변수 가
인 정규모집단에서 서로 독립인
개의 확률표본
의 자유도가
인
분포를 하는 확률변수라면 확률변수
의 자유도는
인
분포를 따른다.
■ 분포
(1) 분포의 확률밀도함수
를 표준정규분포의 확률변수라 하고
를 자유도
인
분포를 하는 확률변수라 하고
와
가 독립아라면 확률변수
의 분포는
자유도가 인
분포라 하고
로 나타낸다.
(2) 표본의 크기 이 작을 때, 즉
일 경우에 주로
분포를 이용하며, 모평균, 모평균의 차 또는 회귀계수의 추정이나 검정에 사용한다.
(3) 확률변수 가 자유도
인
분포일 때
의 평균
의 분산
(4) 분포의 확률밀도함수를 그래프로 표현하면 다음과 같다.
정리. |
|
(1) 확률변수 가
인 정규분포에서
가 자유도
인
분포일 때
와
가 독립이면 확률변수
은 자유도
인
분포를 따른다.
(2) 확률변수 가
인 정규모집단에서 크기가
개인 임의표본의 표본평균과 표본분산을
에 대한 통계량은
은 자유도
인
분포를 따른다.
■ 분포
(1) 를 각각 자유도가
과
인
분포를 하는 독립인 확률변수이라면 확률변수
의 분포는
자유도가 과
인
분포를 따른다.
(2) 분포는 두 모분산의 비를 추론하거나 분산분석, 실험계획법 등에서 사용된다.
(3) 분포의 확률밀도함수를 그래프로 그리면 다음과 같다.
(4) 확률변수 가 자유도
과
인
분포일 때
의 평균
의 분산
정리. |
|
(1) 와
의 자유도가
과
인
분포를 하는 확률변수가 서로 독립인 통계량
은 자유도가
인
분포를 따른다.
(2) 자유도가 인
분포의
점이
일 때
이다.
(3) 두 정규모집단 와
에서 추출한 표본의 크기가
인 독립확률 표본의 평균의 분산은
라면 통계량
은 자유도가
인
분포를 따른다.
(4) 가 자유도
인
분포일 때
은 자유도
인
분포를 따른다.
[분포 간의 관계도 by 이우영]
■ [End of Part 3]
[이산수학 내용 설명과 코드가 필요한 학생은 아래 강의록과 실습실을 참고하면 된다.]
○ Discrete Mathematics (이산수학) Lectures:
Ch. 1, Sets and Logic
http://matrix.skku.ac.kr/2018-DM/DM-Ch-1-Lab.html
Ch 0 Introduction https://youtu.be/9ahFnOFTWNQ Ch 1 https://youtu.be/J75uuYR-NTs
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch1/
Ch. 2, Proofs
http://matrix.skku.ac.kr/2018-DM/DM-Ch-2-Lab.html
Ch 2 Proofs (1) https://youtu.be/3LelrqADYUo Ch-2-Proofs (2) https://youtu.be/Xqa1eylod10
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch1/
Ch. 3, Functions, Sequences, and Relations,
http://matrix.skku.ac.kr/2018-DM/DM-Ch-3-Lab.html
Ch 3-1 Functions https://youtu.be/Y_hAaUxEpq0
Ch 3-2, 3-3, String, Relation https://youtu.be/c73e13Otzng
Ch 3-4, 3-5, Equivalence Relations https://youtu.be/hwXAleCV4lA
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch3/
Ch 4, Algorithms, Lecture Note
http://matrix.skku.ac.kr/2018-DM/DM-Ch-4-Lab.html https://youtu.be/Dtv-9ykjFFA
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch4/
Ch 5, Number Theory
http://matrix.skku.ac.kr/2018-DM/DM-Ch-5-Lab.html
Sec 5 1, 정수론 1 https://youtu.be/yJL6lP4k0Bg Sec 5.2, 5.3 정수론 2 https://youtu.be/-3BeY2_CBDk
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch5/
Ch 6, Counting Methods and the Pigeonhole Principle
http://matrix.skku.ac.kr/2018-DM/DM-Ch-6-Lab.html
Ch 6 일반화된 순열조합과 비둘기집 https://youtu.be/I6XW6DKLoCU
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch6/
Ch 7, Recurrence Relations
http://matrix.skku.ac.kr/2018-DM/DM-Ch-7-Lab.html
Ch 7 https://youtu.be/1n0dC_ICo4U Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch7/
Ch 8, Graph Theory
http://matrix.skku.ac.kr/2018-DM/DM-Ch-8-Lab.html
*Graph Terminology and Lab http://matrix.skku.ac.kr/2014-Album/Graph-Project.html
8.1 Graph Theory https://youtu.be/TSFIJBU2dX8 8.2 Path and Cycle https://youtu.be/iqUTT5C1TOs
8.3 Hamiltonian cycle https://youtu.be/at7Hx5wxnYk
8.4, 8.5, 8.6. 8.7 https://youtu.be/MHDJ3rALtEU
이산수학 Ch 8 Graph 이론 part2 다익스트라알고리즘 (한국어강의) https://youtu.be/Pe13RXWiuQE
Solutions http://matrix.skku.ac.kr/2018-DM-Sol/Ch8/
Ch 9, Trees
http://matrix.skku.ac.kr/2018-DM/DM-Ch-9-Lab.html
Ch 9, Part 1 https://youtu.be/v6wQeWmMBq8 Ch 9, Part 2 https://youtu.be/gl1cD6-0prs
Final 학생 PBL 발표:
1. https://youtu.be/i9FPdZdrFJw 2. https://youtu.be/nvwYSFwCoFo 3. https://youtu.be/DzMo4cfDLFY
Midterm: http://matrix.skku.ac.kr/2018-album/2018-F-DM-Midterm-Exam-Sol-F2-marked.pdf
Final Exam: http://matrix.skku.ac.kr/2019-album/2019-S-DM-Final-Sol-Final-5.pdf
[공학수학 설명과 코드가 필요한 학생은 아래 강의록과 실습실을 참고하면 된다.]
○ Engineering Math with Sage (공학수학)
http://www.hanbit.co.kr/EM/sage/
http://matrix.skku.ac.kr/2019-EM/EM-1-Labs.htm
http://matrix.skku.ac.kr/2019-EM/EM-2-Labs.htm ■
[수치적 선형대수학과 수학적모델링 지식을 더 알고 싶은 학생은 저자의 아래 강의록과 동영상 강의를 참고하면 된다.]
Numerical Linear Algebra (수치적 선형대수)
Math Modeling (수학적 모델링)
[강의 동영상]
http://matrix.skku.ac.kr/SOCW-Math-Modelling.htm
Growth Models (exponential and logistic growth model) http://youtu.be/9a7HumXe9To
Component Analysis: population, Extended Growth Model http://youtu.be/f7gjM-AoVhc
Mathematical Modeling with Computational tools http://youtu.be/ikXn20pp9Yw
Physical Models: Projectile Motion(Moon's Orbit) http://youtu.be/AFuJnIVZIZI
Projectile Motion with Air Resistance http://youtu.be/5UMW-tq7Tbk
Predator-Prey model: Lotka-Volterra model http://youtu.be/kQtKSOIGSgo
Equilibrium: Supply-Demand Model, Harvest Model http://youtu.be/PfBgfbSCAhM
Epidemic Models (SIR, SIS, SEIR) http://youtu.be/s1jn0dkZd6I
[실습실]
http://matrix.skku.ac.kr/SOCW-Math-Modelling.htm
http://matrix.skku.ac.kr/MathModeling/Bank-Interest.html
http://matrix.skku.ac.kr/MathModeling/Power-method.html
http://matrix.skku.ac.kr/MathModeling/Markov-Chain.html
http://matrix.skku.ac.kr/MathModeling/Fibonacci-Numbers.html
http://matrix.skku.ac.kr/MathModeling/Growth-Model.html
http://matrix.skku.ac.kr/MathModeling/Exponential-Growth-Model.html
http://matrix.skku.ac.kr/MathModeling/Supply-Demand-Model.html
http://matrix.skku.ac.kr/MathModeling/Accelerator-multiplier-Model.html
http://matrix.skku.ac.kr/MathModeling/SIR-Model.html
Copyright @ 2020 SKKU Matrix Lab. All rights reserved.
Made by Manager: Prof. Sang-Gu Lee and Dr. Jae Hwa Lee
*This research was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (2017R1D1A1B03035865).