⚡️ 전공수업/R

[R통계분석] R을 활용한 확률과 통계1 - 기초 확률, 확률분포1

aaahyunseo 2024. 12. 3. 03:26

01. 기초 확률

통계 시행(trial, 통계적 실험 statical experiment)
: 당장 어떤 결과가 나올지 모르지만, 나올 수 있는 모든 경우를 알고 있고, 동일한 작업을 여러 번 반복할 수 있는 실험

 

표본공간(sample space)
: 어떤 시행에서 출현 가능한 결과를 모두 모은 집합

 

사건(event)
: 표본공간의 부분집합이며, 시행 결과 중 관심을 둔 결과를 원소로 하는 집합

 

사건의 연산

임이의 두 사건 A, B에 대해

 

합사건: 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 사건

곱사건: 사건 A와 사건 B에서 동시에 일어나는 사건

여사건: 사건 A가 발생하지 않을 사건

배반사건: 두 사건이 겹치는 부분이 없음. 즉 동시에 발생하지 않는 사건(공집합)

 

확률(probability)
: 어떤 사건 A가 발생할 가능성의 정도

 

원소의 개수로 정의한 확률 : P(A) = (사건 A 원소의 개수) / (표본공간 전체 원소의 개수) = n(A) / n(S)

 

확률 공리(probability axiom)
: 표본공간 S에 정의된 함수 P가 다음을 만족할 때 함수 P를 확률로 정의한다.

1) 임의의 사건 A가 일어날 확률은 0 이상의 실수. P(X) >= 0
2) 표본공간 전체의 확률은 1. P(X) = 1
3) 표본공간에서 서로 배타적인 n개의 사건에 대하여 합사건의 확률은 각 사건이 발생할 확률의 합과 같음.

 

조건부 확률

: 두 사건 A, B에서 어떤 사건이 발생할 때 다른 사건이 발생할 확률

  • 사건 A에 대한 사건 B의 조건부 확률 : P(A|B) = P(A B) / P(B)
  • 사건 B에 대한 사건 A의 조건부 확률 : P(B|A) = P(A B) / P(A)
  • P(A B) = P(A) · P(B|A) = P(B) · P(A|B)

 

사건의 독립(independency)
: 두 사건 A, B가 서로 사건 발생에 영향을 미치지 않는 경우 두 사건을 서로 독립이라고 한다.
  • P(A|B) = P(A), · P(A ∩ B) =  P(A) · P(B)
  • P(B|A) = P(B), · P(A ∩ B) =  P(A) · P(B)

 

R 함수

sample(샘플링 대상 벡터, size = 표본 수, replace = TRUE / FALSE) : 첫 인수(x, 벡터)로 부터 두 번째 인수(size)만큼의 표본 추출. replace 인수의 기본 값은 FALSE로 비복원추출을 나타냄. TRUE로 설정하면 복원추출.

 


02. 확률변수

확률변수(X, random variable)
: 표본공간(S)을 정의역으로 하고, 실수 공간(R)을 공역으로 하는 함수.

 

확률변수가 가지는 값에 따라 이산형 확률변수와 연속형 확률변수가 있다.

 

확률함수
: 확률변수 X가 가질 수 있는 값 x가 출현할 확률을 구하는 함수 P(X=x)

 

확률변수 X의 평균

  • 산술평균(arithmetic mean) : 가중평균의 가중치가 1/(데이터의 개수) 로 모두 동일한 경우.
  • 가중산술평균(weighted arithmetic mean) : 확률변수 x에 각 가중값을 곱해 더한 값.
  • 이산형 확률 변수의 평균 : 확률변수 X가 가질 수 있는 각 값의 확률 P(X=x)를 가중값으로 사용하는 가중평균.

기댓값(expected value)라고 하고 E(X)로 표기한다.

 

확률변수 X의 분산

  • 확률변수 X의 편차 : X - E(X)
  • 확률변수 X의 편차제곱 : { X - E(X) }^2
  • 확률변수 X의 편차제곱의 평균(기댓값) = 확률변수 X의 분산 : E( { X - E(X) }^2 )
  • 분산 간편식 : Var(X) = E(X^2) - {E(X)^2}

03.확률분포

확률 분포

: 확률변수 x가 가질 수 있는 값의 모양

  • 이산형 확률분포 : 이항분포, 푸아송분포
  • 연속형 확률분포 : 정규분포, 지수분포

이항분포(Binomial distribution)

: 성공 확률이 p인 실험을 n번 독립시행 했을 때 성공 횟수의 분포

  • X~B(n,p)
  • n,p : 분포의 모양을 결정하는 모수(parameter)
  • 이항분포의 확률질량함수(PMF : Probability Mass Function) : 확률변수 X가 가질 수 있는 값이 이산형 값일 때 확률을 구하는 확률함수. → f(x) = P(X=x)
  • 기댓값과 분산
    • E(X) = np
    • Var(X) = np(1-p)
  • 누적분포함수(CDF : Cumulative distribution Function) : 확률의 누적값을 구하며, 확률분포를 결정하는 함수.
    → F(x) = P(X<=x)
  • R에서의 확률분포 함수 → "함수구분문자" + "분포의 이름" 의 형태

R의 분포관련 함수
R 분포관련 함수 인수

 

 

정규분포(Normal distribution)

: 연속형 확률 분포의 한 종류

  • 모수는 평균( μ )과 분산( σ^2 )
  • X~N(μ,σ^2)
  • 확률밀도함수(PDF : Probability Density Function) : f(x) = P(X=x)
  • 누적분포함수(CDF) : F(x) = P(X<=x)

정규분포 PDF와 CDF

  • 확률변수가 될 수 있는 값이 -∞ ~ ∞ 까지이다. 따라서 정규분포 확률도표는 종 모양을 띤다.
  • 정규분포 확률도표는 평균을 중심으로 좌우대칭이다.

R의 정규분포 관련 함수