[일반인을 위한]  K-MOOC

 인공지능을 위한 기초수학 입문

      (Introductory Mathematics for Artificial Intelligence)


                          이상구  with  이재화, 함윤미, 박경은


IV.  인공지능과 통계


 Week 11.  통계, 기댓값, 분산, 공분산, 상관계수, 공분산 행렬


  11.1 기댓값, 분산, 표준편차

확률변수의 기댓값(expectation)은 확률적 사건에 대한 평균값으로, 사건이 일어나서 얻는 값과 그 사건이 일어날 확률을 곱한 것을 모든 사건에 대해 합한 값이다.

이것은 어떤 확률적 사건에 대한 평균의 의미를 갖는다. 확률변수의 분산(variance)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 수이고,

표준편차(standard deviation)는 분산의 양의 제곱근으로 정의된다.

이산확률변수 의 기댓값과 분산, 표준편차는 다음과 같이 계산한다.

  (1) 기댓값 : 

  (2) 분산 : 

  (3) 표준편차 : 


예제 1. 확률변수 의 확률분포가 다음과 같을 때, 기댓값과 분산, 표준편차를 구하시오.

         

0

1

2

3

합(sum)

확률

0.010

0.840

0.145

0.005

1

    [출처]  http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html

풀이. 기댓값과 분산, 표준편차의 정의를 이용하여 아래와 같이 R코드로 구하면 된다.



■ 연속확률변수 의 기댓값과 분산, 표준편차는 다음과 같이 계산한다.

  (1) 기댓값 : 

  (2) 분산 : 

  (3) 표준편차 : 

기댓값, 분산에 대하여 다음 성질이 만족한다.

  ⓵

  ⓶

  ⓷ 확률변수 에 대하여 새로운 확률변수 로 정의하면, 위의 성질 ⓵, ⓶에 의해 평균과 분산이 항상 이다.

따라서 이 확률변수 를 확률변수 표준화 확률변수(standardized random variable)라 한다.


예제 2. 확률변수 의 확률밀도함수가 일 때, 의 분산을 구하시오.

풀이.     

     

      

      [답]



[열린문제] 다른 교재에서 찾은  연속확률변수 의 기댓값과 분산, 표준편차를 구하시오.


  11.2 결합 확률분포

확률변수가 두 개 이상 있는 경우에는 각각의 확률변수에 대한 확률분포 이외에도 확률분포 쌍이 가지는 복합적인 확률분포를 살펴보아야 한다.

두 확률변수 값의 쌍이 어떤 확률분포를 가지는지 안다면 둘 중 하나의 확률분포의 값을 알고 있을 때 다른 확률분포가 어떻게 되는지도 알 수 있다.

이를 위하여 결합 확률분포(또는 결합분포)에 대한 개념이 필요하다. 먼저 이산확률변수인 경우를 살펴보자.

(1) 가 이산확률변수이면, 결합 확률함수(joint probability function)는 다음과 같다.            

      

(2) 의 가능한 모든 값에 대하여 의 값을 나타낸 것을 결합 확률분포(joint probability distribution)라 한다. 이를 표로 나타내면 다음과 같다.

 

     

 

 

 

 

관한

 

주변

확률

분포

 

 

 

 

 

에 관한 주변확률분포

 

 

 

(3) , 의 결합분포가 주어져 있을 때 주변확률분포(marginal probability distribution)는 다음과 같이 정의된다.

      

      

즉, 주변분포란 결합 확률분포에서 하나의 확률변수만 고려한 확률분포를 뜻한다.


결합 확률분포에 관하여 다음이 성립한다.

 ⓵ 모든 에 대하여  

 ⓶ 모든 에 대하여 의 합은 이다. 즉,

 ⓷ 모든 에 대하여


예제 3. 크기가 같은 파란 색 공 개와 붉은 색 공 개와 녹색 공 개가 한 주머니 안에 들어 있다. 이 주머니에서 임의로 개의 공을 꺼낸다.

꺼낸 공(ball) 중 파란색 공의 수를 , 붉은 색 공의 수를 라 할 때 다음 물음에 답하시오.

 ① 의 결합 확률함수를 구하여라.

 ② 결합 확률분포를 작성하여라.

 ③ 을 구하여라.

 ④ 의 주변분포를 구하여라.

 ⑤ 의 주변분포를 구하여라.

풀이. 결합분포, 주변분포의 정의에 의해 계산하면 다음과 같다.

   

   

   

                     

 

     

   

   

      

   

   

      


■ 여러 개의 연속확률변수에 대하여는 다음과 같은 결합밀도함수를 이용하여 결합 확률분포를 나타낸다. (여기서 중적분의 지식이 필요하다.)

연속확률변수 결합밀도함수(joint density function) 는 다음과 같이 정의된다.

 ⓵ 모든 에 대하여 이다.

 ⓶ 모든 에 대하여 이다.

 ⓷ 모든 에 대하여 이다.

 ⓸ 평면상의 임의의 영역 에 들어갈 확률은

                   

로 주어진다.

 ⓹ 의 주변확률밀도함수(marginal probability density function)는 각각 다음과 같이 정의된다.

              


*예제 4. 두 확률변수 , 의 결합밀도함수가 다음과 같이 주어져 있다고 하자.

      

의 주변밀도함수를 각각 구하시오.

풀이. 정의에 의해 구하면 다음과 같다.

      

      



  *11.3 공분산, 상관계수

하나의 확률변수 가 갖는 분포를 이해하기 위해서 첫 번째로 사용하는 것은 평균이다. 평균을 이용하면 분포에 관한 정보를 하나의 숫자(분포의 중간부분)로 나타낼 수 있다.

두 번째로 사용하는 개념은 분산이다. 분산을 이용하면 분포가 평균으로부터 얼마나 퍼져있는지를 나타낸다.

그렇다면 확률변수가 2개일 때, 이 확률분포들이 어떤 모양으로 되어있는지를 어떻게 알 수 있는가? 가장 먼저 의 평균과 의 평균을 생각할 수 있다.

그 다음으로 분산을 이용하여 각 확률변수가 얼마나 퍼져 있는지를 알 수 있다. 그러나 확률변수 간의 상관관계를 알기위해서는 공분산(covariance)의 개념이 필요하다.

확률변수 의 공분산은 다음과 같이 정의된다.

        

즉 공분산은 의 편차와 의 편차를 곱한 것의 평균이다. 그런데 공분산에도 의 단위의 크기에 영향을 받는다는 문제점이 있다.

이것을 보완하기 위해 상관계수(correlation)를 사용한다. 상관계수라는 개념은 확률변수의 절대 크기에 영향을 받지 않도록 각 확률변수의 표준편차로 나누어 표준화 시킨 것이라고 생각하면 된다.

확률변수 사이의 상관계수는 다음과 같이 정의된다.

        


  11.4 공분산 행렬(covariance matrix)

행렬을 이용하면 여러 개의 확률변수가 서로 어떤 관계를 가지는지를 쉽게 표현할 수 있다. 특히, 각 데이터의 분산과 공분산을 이용해 만드는 공분산 행렬이 이에 해당한다.

개의 확률변수 {, , }에 대한 공분산 행렬(covariance matrix)성분이 일 때는 번째 확률변수 번째 확률변수 사이의 공분산 으로,

일 때는 번째 확률변수의 분산 으로 하는 행렬로 정의하고 로 표기한다.

    

쉽게 말하면, 정사각행렬의 성분을 각 변수의 분산(주대각선)과 공분산으로 채운 것이 바로 공분산 행렬이다.

공분산 행렬은 아래 그림과 같이 데이터의 분포를 나타낸다고 볼 수 있다.

묶음 개체입니다.

  [그림 출처] https://www.ritchieng.com/machine-learning-anomaly-detection/ 


*공분산 행렬을 생성하는 R 코드 실습 : https://stats.seandolinar.com/making-a-covariance-matrix-in-r/ 또는 http://matrix.skku.ac.kr/KOFAC/   에서 실습하세요.



[열린문제] 다른 교재에서 찾은 데이터의 공분산행렬을 구하시오.


[참고]  공분산 행렬은 고차원 데이터의 분포를 최대한 유지하면서 차원을 효과적으로 줄이는 차원축소(dimension reduction)에서 중요한 역할을 한다.

대표적인 기법으로는 주성분 분석(principal component analysis, PCA)이 있다. 주성분을 계산할 때는 특잇값 분해(SVD)가 주로 사용된다. (자세한 내용은 대학수학에서 다룬다.)


Copyright @ 2020 SKKU Matrix Lab. All rights reserved.
Made by Manager: Prof. Sang-Gu Lee and Dr. Jae Hwa Lee