[R통계분석] R을 활용한 확률과 통계1

⚡️ 전공수업/R

[R통계분석] R을 활용한 확률과 통계1 - 기초 확률, 확률분포1

aaahyunseo 2024. 12. 3. 03:26

01. 기초 확률

통계 시행(trial, 통계적 실험 statical experiment)
: 당장 어떤 결과가 나올지 모르지만, 나올 수 있는 모든 경우를 알고 있고, 동일한 작업을 여러 번 반복할 수 있는 실험

표본공간(sample space)
: 어떤 시행에서 출현 가능한 결과를 모두 모은 집합

사건(event)
: 표본공간의 부분집합이며, 시행 결과 중 관심을 둔 결과를 원소로 하는 집합

사건의 연산

임이의 두 사건 A, B에 대해

합사건: 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 사건

곱사건: 사건 A와 사건 B에서 동시에 일어나는 사건

여사건: 사건 A가 발생하지 않을 사건

배반사건: 두 사건이 겹치는 부분이 없음. 즉 동시에 발생하지 않는 사건(공집합)

확률(probability)
: 어떤 사건 A가 발생할 가능성의 정도

원소의 개수로 정의한 확률 : P(A) = (사건 A 원소의 개수) / (표본공간 전체 원소의 개수) = n(A) / n(S)

확률 공리(probability axiom)
: 표본공간 S에 정의된 함수 P가 다음을 만족할 때 함수 P를 확률로 정의한다.

1) 임의의 사건 A가 일어날 확률은 0 이상의 실수. P(X) >= 0
2) 표본공간 전체의 확률은 1. P(X) = 1
3) 표본공간에서 서로 배타적인 n개의 사건에 대하여 합사건의 확률은 각 사건이 발생할 확률의 합과 같음.

조건부 확률

: 두 사건 A, B에서 어떤 사건이 발생할 때 다른 사건이 발생할 확률

사건 A에 대한 사건 B의 조건부 확률 : P(A|B) = P(A ∩ B) / P(B)
사건 B에 대한 사건 A의 조건부 확률 : P(B|A) = P(A ∩ B) / P(A)
P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B)

사건의 독립(independency)
: 두 사건 A, B가 서로 사건 발생에 영향을 미치지 않는 경우 두 사건을 서로 독립이라고 한다.

P(A|B) = P(A), · P(A ∩ B) = P(A) · P(B)
P(B|A) = P(B), · P(A ∩ B) = P(A) · P(B)

R 함수

sample(샘플링 대상 벡터, size = 표본 수, replace = TRUE / FALSE) : 첫 인수(x, 벡터)로 부터 두 번째 인수(size)만큼의 표본 추출. replace 인수의 기본 값은 FALSE로 비복원추출을 나타냄. TRUE로 설정하면 복원추출.

02. 확률변수

확률변수(X, random variable)
: 표본공간(S)을 정의역으로 하고, 실수 공간(R)을 공역으로 하는 함수.

확률변수가 가지는 값에 따라 이산형 확률변수와 연속형 확률변수가 있다.

확률함수
: 확률변수 X가 가질 수 있는 값 x가 출현할 확률을 구하는 함수 P(X=x)

확률변수 X의 평균

산술평균(arithmetic mean) : 가중평균의 가중치가 1/(데이터의 개수) 로 모두 동일한 경우.
가중산술평균(weighted arithmetic mean) : 확률변수 x에 각 가중값을 곱해 더한 값.
이산형 확률 변수의 평균 : 확률변수 X가 가질 수 있는 각 값의 확률 P(X=x)를 가중값으로 사용하는 가중평균.

기댓값(expected value)라고 하고 E(X)로 표기한다.

확률변수 X의 분산

확률변수 X의 편차 : X - E(X)
확률변수 X의 편차제곱 : { X - E(X) }^2
확률변수 X의 편차제곱의 평균(기댓값) = 확률변수 X의 분산 : E( { X - E(X) }^2 )
분산 간편식 : Var(X) = E(X^2) - {E(X)^2}

03.확률분포

확률 분포

: 확률변수 x가 가질 수 있는 값의 모양

이산형 확률분포 : 이항분포, 푸아송분포
연속형 확률분포 : 정규분포, 지수분포

이항분포(Binomial distribution)

: 성공 확률이 p인 실험을 n번 독립시행 했을 때 성공 횟수의 분포

X~B(n,p)
n,p : 분포의 모양을 결정하는 모수(parameter)
이항분포의 확률질량함수(PMF : Probability Mass Function) : 확률변수 X가 가질 수 있는 값이 이산형 값일 때 확률을 구하는 확률함수. → f(x) = P(X=x)
기댓값과 분산
- E(X) = np
- Var(X) = np(1-p)
누적분포함수(CDF : Cumulative distribution Function) : 확률의 누적값을 구하며, 확률분포를 결정하는 함수.
→ F(x) = P(X<=x)
R에서의 확률분포 함수 → "함수구분문자" + "분포의 이름" 의 형태

정규분포(Normal distribution)

: 연속형 확률 분포의 한 종류

모수는 평균( μ )과 분산( σ^2 )
X~N(μ,σ^2)
확률밀도함수(PDF : Probability Density Function) : f(x) = P(X=x)
누적분포함수(CDF) : F(x) = P(X<=x)

확률변수가 될 수 있는 값이 -∞ ~ ∞ 까지이다. 따라서 정규분포 확률도표는 종 모양을 띤다.
정규분포 확률도표는 평균을 중심으로 좌우대칭이다.

'⚡️ 전공수업 > R' 카테고리의 다른 글

[R통계분석] R을 활용한 확률과 통계 3 - 통계적 추론 2 (0)	2024.12.03
[R통계분석] R을 활용한 확률과 통계2 - 확률분포2, 통계적 추론1 (0)	2024.12.03
[R통계분석] R 데이터 시각화1 - ggplot2 기본 (0)	2024.10.13
[R통계분석] R 프로그래밍 - 반복문, 조건문 (0)	2024.10.13
[R통계분석] R 데이터 처리2 - 주요함수 (0)	2024.10.12

현재글[R통계분석] R을 활용한 확률과 통계1 - 기초 확률, 확률분포1

새싹's tistoryʕ•ᴥ•ʔ

https://github.com/aaahyunseo

오블완, 딥러닝, 알고리즘, 백준, R통계분석, inflearn, mysql, java, RStudio, BFS, db, Baekjoon, spring, Kotlin, dp, DataScience, 티스토리챌린지, 데이터베이스, DFS, R,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

새싹's tistoryʕ•ᴥ•ʔ