[일반인을 위한]  K-MOOC

 인공지능을 위한 기초수학 입문

      (Introductory Mathematics for Artificial Intelligence)


                          이상구  with  이재화, 함윤미, 박경은


IV.  인공지능과 통계


 Week 10.  순열과 조합, 확률, 확률변수, 확률분포, 베이지안


  10.1 순열과 조합

경우의 수를 세는 방법에는 크게 두 가지 경우가 있다. 먼저 순열(permutation)순서를 고려하여 나열하는 경우의 수를 의미한다.

예를 들어, 1, 2, 3, 4, 5가 적힌 5장의 카드에서 세 장을 택하여 순서대로 나열하는 경우의 수는 다음과 같다.

                                       

            그림입니다.
원본 그림의 이름: CLP00002fb40003.bmp
원본 그림의 크기: 가로 412pixel, 세로 122pixel

              5카드 중 하나  × 남은 4카드 중 하나 × 남은 3카드 중 하나

그 이유는 다음과 같이 설명할 수 있다. 예를 들어, 위와 같이 카드 세 장을 순서대로 나열한다고 할 때 ⓵번 카드에 올 수 있는 숫자는 1, 2, 3, 4, 5 이렇게 5개가 있고,

⓶번 카드에 올 수 있는 숫자는 ⓵번 카드에 사용된 숫자를 제외하고 모두 4개가 있다. 마찬가지로 ⓷번 카드에 올 수 있는 숫자는 ⓵번과 ⓶번 카드에 사용된 2개의 숫자를 제외한 숫자 3개가 있다.

따라서 이들을 모두 곱하면 가지나 된다.


이와 같이 서로 다른 개에서 개를 택하여 순서대로 나열한 순열의 수를 로 쓰고 다음 공식에 의해 계산한다.

            ()

특히 일 때 로 나타낸다. 이를 계승(factorial)이라 한다. 를 계승을 이용하여 표현하면 다음과 같다.

      


예제 1.  1부터 9까지의 숫자 중에서 서로 다른 3개를 선택하여 3자리 수를 만들려고 한다. 만들 수 있는 자연수의 개수를 구하시오.

풀이. 이다.



조합(combination)순서와 상관없이 선택하는 경우의 수를 말한다. 예를 들어, 1, 2, 3, 4, 5가 적힌 5장의 카드에서 세 장을 택하는 경우의 수는 다음과 같다.

      

그 이유는 다음과 같이 설명할 수 있다. 앞서 순열에서는 세 장을 택하는 경우마다 그 순서를 달리하면 모두 다른 경우로 여긴다.

그러나 조합에서는 이미 택한 세 장에 대하여 순서대로 나열하는 것은 모두 같은 경우로 판단하므로 순열의 수를 세 장을 배열하는 수(3!)로 나누어주어야 한다.


이와 같이 서로 다른 개에서 개를 택하는 조합의 수를 와 같이 나타내고 다음 공식에 의해 계산한다.

          ()


예제 2.  500개의 넥타이로부터 5개의 넥타이를 택하는 방법의 개수는 이다.



다음과 같이 Sage 내부 명령어를 이용하여 계산할 수도 있다.



■ 지금까지는 선택할 때 중복을 허락하지 않은 경우를 소개하였다. 만일 중복을 허락한다면 다음과 같이 중복순열중복조합을 계산할 수 있다.

(1) 서로 다른 개에서 중복을 허락하여 개를 택하여 순서대로 나열한 경우의 수는 와 같이 나타내고 다음 공식에 의해 계산한다.

        

(2) 서로 다른 개에서 중복을 허락하여 개를 택하는 방법의 수 는 다음 공식에 의해서 계산할 수도 있다.

        


예제 3. 숫자 1, 2, 3, 4, 5 중에서 중복을 허락하여 세 개를 택해 일렬로 나열하여 만든 세 자리의 자연수가 5의 배수인 경우의 수를 구하시오.

풀이. 일의 자리를 5로 고정시키면 되므로, 나머지 두 자리를 1, 2, 3, 4, 5 중에서 중복을 허락하여 나열하는 경우의 수와 같다. 따라서 다음을 얻는다.

        


예제 4. 4명의 사람이 A, B, C 중 한 명에게 무기명으로 투표를 할 때, 나올 수 있는 경우의 수를 구하시오.

풀이. 4명이 무기명으로 투표하는 방법은 AAAA, AAAB, ..., BCCC, CCCC 이므로 이다.


  10.2 확률

특정 사건(event)이 일어날 가능성을 0과 1 사이의 값으로 나타낸 것을 확률(probability)이라고 한다.

확률이 0임은 사건이 절대로 일어날 수 없음을 의미하며, 1은 사건이 반드시 일어남을 의미한다. 예를 들어, 동전 던지기를 한 번 했을 때 앞면이 나올 확률은 이다.

사건이 일어날 확률을 수학적으로 분석하기 위해서는, 먼저 어떠한 사건들이 발생 가능한지를 명확히 알아야 한다.

예를 들어, 동전 던지기의 경우 발생가능한 사건들은 {앞면, 뒷면} 으로 나타낼 수 있으며, 정육면체 주사위의 경우 {1, 2, 3, 4, 5, 6} 으로 나타낼 수 있다. 이러한 사건들의 집합을 표본공간(Sample Space)이라고 한다.

이제 확률을 정의해보자. 를 전체 사건의 집합(표본공간)이라 하고, 를 특정 사건의 집합이라 하자.

그러면 사건 가 일어나는 가능성을 수로 나타낸 확률 가 일어나는 경우의 수 를 전체 경우의 수 로 나누어서 구한다.


(1) 수학적 확률

        

(2) 기하학적 확률

        인 영역 에 속하는 확률은

        

(3) 통계적 확률과 대수의 법칙(Law of large number)

번의 시행 동안, 특정 사건 가 일어난 횟수가 번이면, 의 통계적 확률을 라 말할 수 있다. 그러나 시행 횟수 이 충분히 커지면 통계적 확률은 수학적 확률과 같아진다.

이다.


확률은 다음 성질을 만족한다. 사건 의 확률을 라 하면

① 표본공간 에서 임의의 사건 에 대하여 이 성립한다.

② 표본공간 에 대하여 (표본공간 전체의 확률은 1)이 성립한다.

③ 공사건 에 대하여 이 성립한다.

④ 두 사건 , 가 동시에 발생하지 않는 배반사건이면 다음이 성립한다.

        

⓹ 사건 가 일어나지 않는 경우를 이라 하면 이 성립한다.


예제 5.  박스 안에 빨간 공 6개와 파란 공 4개가 들어 있다. 처음 빨간 공을 꺼내고, 두 번째 파란 공을 꺼낼 확률은 다음과 같다.

        .



예제 6. 아래의 R 명령어로 동전 한 개를 10회 던져 보고, 뒷면의 수와 앞면의 수를 기록해 보자. 동일한 방법으로 같은 동전을 100회 던지는 실습을 해 보시오.

풀이. R 명령어를 직접 입력한 후, Sage 셀 오른쪽 하단의 Language를 R로 지정하여 실행하면 결과가 나타난다.



위의 코드에서 coin 대신에 table(coin) 명령어를 사용하면 다음과 같이 표로 나타내준다.



http://matrix.skku.ac.kr/2018-album/R-Sage-Stat-Lab-2.html 


*시행의 횟수를 아주 크게 늘려 가면, 앞서 대수의 법칙에서 설명한 바와 같이 뒷면과 앞면이 나오는 확률이 (수학적 확률)로 수렴함을 확인할 수 있다.


예제 7. 1000개의 제품 중에 불량품이 3개 있다. 이 제품 중에서 10개의 제품을 구입했을 때 다음 확률을 구하시오.

(1) 구입제품 중 불량품이 한 개도 없는 경우

(2) 구입제품 중 불량품이 적어도 한 개 이상 있는 경우

풀이.  1000개의 제품 중에 10개의 제품을 선택하는 경우의 수는 이다. 따라서 (1) 불량품이 한 개도 없는 경우는 정상 제품인 997개에서 10개를 모두 선택하고,

불량품 3개에서는 하나도 선택하지 않는 경우밖에 없으므로 그 경우의 수는 이다. R코드를 이용하여 계산하면 다음과 같다.



(2) 불량품이 적어도 한 개 이상 있을 확률은, 1에서 불량품이 한 개도 없는 확률을 빼면 되므로, 구하고자 하는 확률은 / 이 된다.

R코드를 이용하여 계산하면 다음과 같다.



  10.3 조건부확률

조건부확률은 확률과 데이터 분석에서 사용되는 아주 중요한 개념이다.

어떤 사건 가 일어났다는 조건하에서 사건 가 일어날 확률을 사건 에 대한 사건 조건부확률(conditional probability)이라 하고 로 표시하며 다음과 같이 정의한다.

            (단, )

             그림입니다.
원본 그림의 이름: 조건부확률.png
원본 그림의 크기: 가로 254pixel, 세로 198pixel

    [그림출처]  https://blog.naver.com/alwaysneoi/100148922781


조건부 확률의 정의로부터 다음의 곱셈정리(관계식)를 얻을 수 있다.

        

또한, 일반적으로 사건 에 대하여 다음이 성립한다.

        

      

      


예제 8. 두 사건 , 에 대하여 , 일 때, 의 값을 구하시오.

풀이. 에서 다음과 같이 구할 수 있다.

        


  10.4 베이즈 정리

베이즈 정리(Bayes’ theorem)는 주어진 조건에서 어떠한 현상이 실제로 나타날 확률을 구하는 방법으로, 불확실성 하에서 의사결정 문제를 수학적으로 다룰 때 중요하게 이용된다.

특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다. 베이즈 정리를 설명하기 위해 먼저 용어를 정리해보자.

먼저 사전확률(prior probability)은 관측자가 이미 알고 있는 사건으로부터 나온 확률을 말한다. 에 대한 사전확률을 나타낸다.

그리고 사후확률(posteriori probability)은 사전확률과 대비되는 개념으로 실제의 데이터나 조건이 부과되었을 때 기대되는 조건부 확률을 말한다.

즉 어떤 특정사건이 이미 발생하였는데, 이 특정사건이 나온 이유가 무엇인지 불확실한 상황을 식으로 나타낸 것이며 로 표현될 수 있다.

여기서 는 이미 일어난 사건이고, 사건 를 관측한 후에 그 원인이 되는 사건 의 확률을 따졌다는 의미로 사후확률이라고 정의한다.

베이즈 정리는 사전확률과 사건으로부터 얻은 자료를 사용하여 사후확률을 추출해내는 것이다. 사전확률과 사후확률의 관계를 조건부 확률을 이용하여 계산하는 이론이다.


이 표본공간 의 분할(partition)을 이룬다고 하자. 그러면 임의의 사건 에 대하여 다음이 성립한다.


      

        그림입니다.
원본 그림의 이름: CLP000047dc0001.bmp
원본 그림의 크기: 가로 601pixel, 세로 416pixel

이때 는 서로 배반(exclusive) 이다. 따라서

      

이다. 한편, 확률의 곱셈정리로부터 아래 전확률 공식(Law of Total Probability)을 얻을 수 있다.

      

또한, 임의의 에 대한 조건부확률

와 위의 전확률 공식을 대입하면 다음 식을 얻을 수 있는데 이를 베이즈 정리(Bayes’ theorem)라고 한다.

     

베이즈 정리에서 를 사건 의 사전확률, 를 사건 의 사후확률이라 한다.


예제 9. 3대의 기계 가 각각 이 공장의 생산품 전체의 를 생산한다. 그리고 이들 기계가 불량품을 생산할 비율은 각각 이다.

한 제품을 임의로 선택할 때 그 제품이 불량품일 확률을 구하여라. 또한 불량품이 기계 에 의하여 생산될 확률을 구하시오.

풀이. 구입한 개의 제품이 기계 로 생산된 제품인 사건을 로 나타내고, 그것이 불량품이라는 사건을 로 나타내면,

 (제품을 생산하는 사건) 이고, .

 (불량품을 생산하는 사건)

 (불량품을 생산하는 확률)

이므로 전확률 공식에 의해 다음을 얻는다.

      

               

따라서 베이즈 정리에 의하여 불량품 중 기계 가 생산한 제품이 불량품일 확률은 다음과 같다.

      

                            


[열린문제] 베이즈 정리(Bayes’ theorem)가 적용되는 예의 하나인 조건부 확률에 관한 몬티홀(Monty Hall) 문제에 대하여 토론하시오.                  

https://destrudo.tistory.com/5 


인공지능을 위한 기초수학의 (순열, 조합, 확률) 설명: https://youtu.be/KQXO-XbJauU

            그림입니다.
원본 그림의 이름: 1200px-Monty_open_door.jpg
원본 그림의 크기: 가로 1200pixel, 세로 667pixel
사진 찍은 날짜: 2011년 04월 04일, 오후 10:11 

            https://ko.wikipedia.org/wiki/몬티_홀_문제


  10.5. 확률변수

동전 2개를 동시에 던져보자. 그러면 발생할 수 있는 사건들은 다음과 같다.

        (앞면, 앞면), (앞면, 뒷면), (뒷면, 앞면), (뒷면, 뒷면)

그리고 이들 각각의 사건이 일어나는 확률은 이다. 이때 뒷면이 나오는 동전의 개수를 라 하면, 다음 그림과 같이 각 사건은 숫자 0, 1, 2에 대응시킬 수 있다.

예를 들어, 은 (앞면, 앞면)에 대응된다.

        그림입니다.
원본 그림의 이름: CLP000047dc0004.bmp
원본 그림의 크기: 가로 690pixel, 세로 376pixel

확률변수(random variable)란 컴퓨터 프로그래밍에서의 변수와 같은 것인데, 어떤 값을 취하느냐가 확률적으로 결정되는 변수이다.

그래서 확률변수 또는 간략하게 '변수'라고 기술하기로 한다. 즉 표본 공간의 모든 표본에 대해 어떤 실수 값을 대응시킨(할당한) 것이다.

따라서 확률변수를 사용하게 되면 구체적인 각 사건 대신에 이를 수치(數値)로 표현할 수 있어 여러 가지 계산과 분석이 가능해진다.

확률변수는 영문자 대문자로 쓰고 그 변수가 취할 수 있는 값 하나하나에 대해서는 소문자로 쓴다.


  10.6 이산확률분포

확률변수 가 연속적이지 않은 값 을 취할 때, 이산확률변수라 하고, 각각의 에 대하여 일 확률 을 할당한 것을 이산확률분포라 한다.

다음과 같이 표로 나타낼 수 있다.

   

합(sum)

확률

1

예를 들어, 앞서 언급한 동전 2개를 동시에 던지는 시행에서, 뒷면이 나오는 동전의 개수 의 확률분포를 그림으로 나타내면 다음과 같다.

        그림입니다.
원본 그림의 이름: CLP000047dc0005.bmp
원본 그림의 크기: 가로 781pixel, 세로 428pixel

이때, 이산확률변수 , , ..., 의 값을 취할 때 확률 을 대응시키는 함수 를 확률변수 확률질량함수(probability mass function)라 한다. 즉

         

이다. 확률질량함수는 다음과 같은 성질이 있다.

 ⓵   

 ⓶

 ⓷ 가 이산확률변수일 때 일 확률은 이다.


  10.7 연속확률분포 (여기서 적분의 지식이 필요하다.)

확률변수 가 어떤 범위에 속하는 모든 실수를 취할 때, 연속확률변수라 한다.

연속확률변수의 경우, 특정한 값을 취할 확률 가 항상 0이므로, 확률질량함수를 이용하여 확률분포를 나타내는 것은 아무 의미가 없다.

그래서 확률밀도함수(probability density function)를 새로 정의하여 연속확률분포를 나타낸다.

연속확률변수 에 대하여 함수 가 다음 성질을 만족하면 의 확률밀도함수라 한다. (확률질량함수의 성질에 대응되는 개념이라고 이해할 수 있다.)

 ⓵ 모든 실수 에 대하여 이다.

 ⓶

 ⓷

따라서 확률 는 아래 그림에서 색깔로 표시한 부분의 넓이와 같다. 이때 구간의 끝점()이 범위에 포함되는지의 여부는 관계가 없다.

         그림입니다.


[참고]  여기서 ‘밀도(density)’라는 단어가 어떻게 쓰이게 되었을까? 확률을 일종의 양(질량)으로 보고, 구간의 길이를 일종의 부피로 본다면,

[확률/구간의 길이][구간의 길이] [확률]이므로 [확률/구간의 길이]는 [질량/부피]가 되므로 '밀도'를 의미하게 된다. 이런 이유로 '확률밀도함수'라는 용어가 사용되었다.


Copyright @ 2020 SKKU Matrix Lab. All rights reserved.
Made by Manager: Prof. Sang-Gu Lee and Dr. Jae Hwa Lee