01. 기초 확률
통계 시행(trial, 통계적 실험 statical experiment)
: 당장 어떤 결과가 나올지 모르지만, 나올 수 있는 모든 경우를 알고 있고, 동일한 작업을 여러 번 반복할 수 있는 실험
표본공간(sample space)
: 어떤 시행에서 출현 가능한 결과를 모두 모은 집합
사건(event)
: 표본공간의 부분집합이며, 시행 결과 중 관심을 둔 결과를 원소로 하는 집합
사건의 연산
임이의 두 사건 A, B에 대해
합사건: 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 사건
곱사건: 사건 A와 사건 B에서 동시에 일어나는 사건
여사건: 사건 A가 발생하지 않을 사건
배반사건: 두 사건이 겹치는 부분이 없음. 즉 동시에 발생하지 않는 사건(공집합)
확률(probability)
: 어떤 사건 A가 발생할 가능성의 정도
원소의 개수로 정의한 확률 : P(A) = (사건 A 원소의 개수) / (표본공간 전체 원소의 개수) = n(A) / n(S)
확률 공리(probability axiom)
: 표본공간 S에 정의된 함수 P가 다음을 만족할 때 함수 P를 확률로 정의한다.
1) 임의의 사건 A가 일어날 확률은 0 이상의 실수. P(X) >= 0
2) 표본공간 전체의 확률은 1. P(X) = 1
3) 표본공간에서 서로 배타적인 n개의 사건에 대하여 합사건의 확률은 각 사건이 발생할 확률의 합과 같음.
조건부 확률
: 두 사건 A, B에서 어떤 사건이 발생할 때 다른 사건이 발생할 확률
- 사건 A에 대한 사건 B의 조건부 확률 : P(A|B) = P(A ∩ B) / P(B)
- 사건 B에 대한 사건 A의 조건부 확률 : P(B|A) = P(A ∩ B) / P(A)
- P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B)
사건의 독립(independency)
: 두 사건 A, B가 서로 사건 발생에 영향을 미치지 않는 경우 두 사건을 서로 독립이라고 한다.
- P(A|B) = P(A), · P(A ∩ B) = P(A) · P(B)
- P(B|A) = P(B), · P(A ∩ B) = P(A) · P(B)
R 함수
sample(샘플링 대상 벡터, size = 표본 수, replace = TRUE / FALSE) : 첫 인수(x, 벡터)로 부터 두 번째 인수(size)만큼의 표본 추출. replace 인수의 기본 값은 FALSE로 비복원추출을 나타냄. TRUE로 설정하면 복원추출.
02. 확률변수
확률변수(X, random variable)
: 표본공간(S)을 정의역으로 하고, 실수 공간(R)을 공역으로 하는 함수.
확률변수가 가지는 값에 따라 이산형 확률변수와 연속형 확률변수가 있다.
확률함수
: 확률변수 X가 가질 수 있는 값 x가 출현할 확률을 구하는 함수 P(X=x)
확률변수 X의 평균
- 산술평균(arithmetic mean) : 가중평균의 가중치가 1/(데이터의 개수) 로 모두 동일한 경우.
- 가중산술평균(weighted arithmetic mean) : 확률변수 x에 각 가중값을 곱해 더한 값.
- 이산형 확률 변수의 평균 : 확률변수 X가 가질 수 있는 각 값의 확률 P(X=x)를 가중값으로 사용하는 가중평균.
기댓값(expected value)라고 하고 E(X)로 표기한다.
확률변수 X의 분산
- 확률변수 X의 편차 : X - E(X)
- 확률변수 X의 편차제곱 : { X - E(X) }^2
- 확률변수 X의 편차제곱의 평균(기댓값) = 확률변수 X의 분산 : E( { X - E(X) }^2 )
- 분산 간편식 : Var(X) = E(X^2) - {E(X)^2}
03.확률분포
확률 분포
: 확률변수 x가 가질 수 있는 값의 모양
- 이산형 확률분포 : 이항분포, 푸아송분포
- 연속형 확률분포 : 정규분포, 지수분포
이항분포(Binomial distribution)
: 성공 확률이 p인 실험을 n번 독립시행 했을 때 성공 횟수의 분포
- X~B(n,p)
- n,p : 분포의 모양을 결정하는 모수(parameter)
- 이항분포의 확률질량함수(PMF : Probability Mass Function) : 확률변수 X가 가질 수 있는 값이 이산형 값일 때 확률을 구하는 확률함수. → f(x) = P(X=x)
- 기댓값과 분산
- E(X) = np
- Var(X) = np(1-p)
- 누적분포함수(CDF : Cumulative distribution Function) : 확률의 누적값을 구하며, 확률분포를 결정하는 함수.
→ F(x) = P(X<=x) - R에서의 확률분포 함수 → "함수구분문자" + "분포의 이름" 의 형태
정규분포(Normal distribution)
: 연속형 확률 분포의 한 종류
- 모수는 평균( μ )과 분산( σ^2 )
- X~N(μ,σ^2)
- 확률밀도함수(PDF : Probability Density Function) : f(x) = P(X=x)
- 누적분포함수(CDF) : F(x) = P(X<=x)
- 확률변수가 될 수 있는 값이 -∞ ~ ∞ 까지이다. 따라서 정규분포 확률도표는 종 모양을 띤다.
- 정규분포 확률도표는 평균을 중심으로 좌우대칭이다.
'⚡️ 전공수업 > R' 카테고리의 다른 글
[R통계분석] R을 활용한 확률과 통계 3 - 통계적 추론 2 (0) | 2024.12.03 |
---|---|
[R통계분석] R을 활용한 확률과 통계2 - 확률분포2, 통계적 추론1 (0) | 2024.12.03 |
[R통계분석] R 데이터 시각화1 - ggplot2 기본 (0) | 2024.10.13 |
[R통계분석] R 프로그래밍 - 반복문, 조건문 (0) | 2024.10.13 |
[R통계분석] R 데이터 처리2 - 주요함수 (0) | 2024.10.12 |