R 9

[R통계분석] R을 활용한 확률과 통계 3 - 통계적 추론 2

01. 점추정과 구간추정추정 방법점추정(poing estimation): 표본으로부터 추정량을 이용하여 모수를 추정하는 방법. 표본추출에 따라 추정치가 달라지는 단점이 존재한다.점추정 예시로는 표본평균 구하기가 있다. 구간추정(interval estimation): 점추정을 중심에 두고 하한과 상한을 구하는 방법. 표준오차와 해당 추정치가 따르는 분포함수의 확률을 이용하여 신뢰구간을 구하는 과정이다.구간추정의 예시로는 ∝=0.05 : 95% 신뢰구간을 구하는 것이 있다. 중심극한정리에 의해 모집단이 𝑁(𝜇, 𝜎^2)인 정규분포를 따를 때, 표본평균은 𝑁( 𝜇, (𝜎 / sqr(𝑛))^2 ) 인 분포를 따르는 것을 확인할 수 있다. (표본평균의 표준오차 ≒ 표준편차) 모비율의 추정표본비율 : ..

[R통계분석] R을 활용한 확률과 통계2 - 확률분포2, 통계적 추론1

01. 확률분포표준정규분포표준화 변환(Standardization): 데이터의 값들을 정규화하여 평균이 0이고 분산이 1이 되도록 변환하는 것. Z = (X - μ) / σ → Z~N(0,1) : 표준화 변환표준정규분포(Standard Nomal Distribution):평균이 0이고 분산이 1인 정규분포 정규화(Normalization)표준화(Standardization)- 데이터의 범위를 특정 구간으로 맞추는 과정- 데이터의 크기를 줄여 비교가 쉬움- 계산 성능(효율성)을 높임- 거리 기반 알고리즘 적용 시 성능 향상에 도움- 변수 간 상대적인 크기 비교가 쉬워짐- 데이터의 평균을 0, 표준편차를 1로 맞추는 과정- 변수가 서로 다른 단위를 가지고 있어도, 공평한 기준에서 비교할 수 있게함- 데이터 ..

[R통계분석] R을 활용한 확률과 통계1 - 기초 확률, 확률분포1

01. 기초 확률통계 시행(trial, 통계적 실험 statical experiment): 당장 어떤 결과가 나올지 모르지만, 나올 수 있는 모든 경우를 알고 있고, 동일한 작업을 여러 번 반복할 수 있는 실험 표본공간(sample space): 어떤 시행에서 출현 가능한 결과를 모두 모은 집합 사건(event): 표본공간의 부분집합이며, 시행 결과 중 관심을 둔 결과를 원소로 하는 집합 사건의 연산임이의 두 사건 A, B에 대해 합사건: 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 사건곱사건: 사건 A와 사건 B에서 동시에 일어나는 사건여사건: 사건 A가 발생하지 않을 사건배반사건: 두 사건이 겹치는 부분이 없음. 즉 동시에 발생하지 않는 사건(공집합) 확률(probability): 어떤 사건 A..

[R통계분석] R 데이터 시각화1 - ggplot2 기본

6.1 데이터 시각화​데이터 시각화의 이유데이터셋으로 평균과 표준편차가 비슷해보이지만, 데이터를 그려보면 차이를 한 눈에 알아볼 수 있음.데이터셋 : anscombe평균과 표준편차가 동일한 데이터 네쌍의 산점도​6.2 ggplot2 기본​ggplot2로 시각화llibrary(tidyverse) 패키지 설치 및 부착기하학적 요소로 표현(도표)기존에 생성한 도표 영영 위에 기하학적 요소 추가: + 연산자 사용기하학적 요소는 함수명이 geom_xxx() 형태함수의 인수로 aes() 함수를 이용해 산점도(geom_point())의 두 좌표를 담은 열 지정.산점도를 열(속성) 종류마다 다른 색으로 지정할 수 있음.geom_text() : 도표 포인트 에 이름표 추가​여러 도표로 나누기 - 데이터 선택dplyr 라..

[R통계분석] R 프로그래밍 - 반복문, 조건문

5.1 코드 덩어리(Code Block)​코드 덩어리(Code Block)중괄호 쌍 "{}" 으로 구분한 코드하나의 실행 단위하나의 결과를 얻기 위해 모아 놓은 코드들의 모임​출력 함수print() : 벡터로 출력. 데이터 타입에 따라 데이터를 형식적으로 출력. 자동 개행.cat() : 데이터를 하나의 문자열로 이어서 출력. 자동 개행이 이루어지지 않음.paste0() : 문자열 결합 함수. 구분자 없이 문자열 결함. paste()와 비교.​* paste() vs. paste0()paste(): 기본적으로 문자열 사이에 공백(" ")을 구분자로 사용하여 결합paste0(): 구분자를 사용하지 않고 문자열을 바로 붙여 결합. 즉, 기본적으로 sep = ""와 동일한 동작​5.2 반복문​특정 코드를 반복 실..

[R통계분석] R 데이터 처리2 - 주요함수

4.1 csv​패키지 별 다양한 데이터 파일 읽기 및 쓰기 함수가 존재함.  외부 데이터 파일 읽어오기 : csv 파일read.csv() 함수csv 파일을 읽기 위한 함수주요 인수 - 읽어올 파일의 경로와 파일 이름, header, skipheader : 데이터셋의 첫 줄을 열 이름인 헤더로 읽을 것인지의 여부를 TRUE와 FALSE 중 하나로 설정.(default는 TRUE)skip : 건너뛸 줄 수를 지정. 데이터 파일이 첫 줄부터 데이터셋으로 시작하지 않는 경우에 사용함.​​4.2 함수를 활용한 데이터 분석​특성 찾기 함수mean(), median(), var(), sd() : 평균, 중앙값, 분산, 표준편차 구하기 함수fivenum(), diff() : 다섯자리 숫자요약과 사분위수 간의 거리 구하..

[R통계분석] R 데이터 처리1 - 형태, 구조, 특성

3.1 데이터 형태​정수와 문자 저장1Byte = 8bits비트는 전기가 흐르면 1, 그렇지 않으면 0 저장​데이터형값을 사용하는 방법으로 사용자가 사용할 데이터형 결정R에서는 값을 통해 데이터형 결정R에서 사용하는 데이터형문자형운영체제가 지원하는 문자와 숫자 대조표를 이용하여 데이터 저장.​데이터형 관련 함수데이터형이 무엇인지 확인하는 함수는 다른 프로그래밍 언어와 동일하게 typeof() 함수를 사용.데이터형 판단 함수는 is.{확인하고자하는 데이터형}() 의 형태의 함수명을 가지고 논리값을 결과값으로 출력.데이터형 변환 함수는 as.{변환하고자하는 데이터형}() 의 형태의 함수명을 가짐.logical → numeric → charater 방향으로만 변환 가능.logical을 charater로 변환하..

[R통계분석] R 기본 문법

2.1 R과 RStudio​R통계 및 데이터 시각화를 위한 프로그래밍 언어이자 소프트웨어 환경주요 특징Dynamic : 변수 타입이 고정되지 않고 런타임 시점에 결정됨.Lazy Evaluation : 인수 결정이 실제 사용되는 시점에 이루어짐.Functional : 함수가 다른 함수의 인수/반환값으로 전달 가능.Object-Oriented : OOP, 클래스, 메소드 정의하여 객체를 다룸.Unusual Combination : 통계 분석에 특화되어 있으나, 유연/강렬한 다른 기능 또한 제공함.​2.2 R의 연산자​연산자(operator) : 계산과 특정한 행위를 지시하는 기호R의 대표적인 연산자로는 숫자 연산자, 논리 연산자, 행위 연산자 세 가지가 있음.​(1) 숫자 연산자 : 숫자를 피연산자로 하여 ..

[R통계분석] 데이터 과학 개요

1.1 데이터: 넓은 의미에서 데이터는 의미 있는 정보를 가진 모든 값, 사람이나 자동 기기가 생성 또는 처리하는 형태로 표시된 것.-> 데이터 분석은 사회에 대한 관심과 지식이 필요하다.​1.2 데이터 과학컴퓨터 과학 역량디지털화 되어 있는 데이터를 이해하는 데 꼭 필요한 컴퓨터 과학 역량수학과 통계학 지식수학과 통계학을 이용해 데이터의 특성을 도출하고 데이터가 무엇을 나타내는 지 이해하는 능력분야별 전문지식데이터를 접하는 사람 혹은 집단이 갖고 있는 해당 분야의 전문성으로 가설을 수립하고 질문하는 능력 * 위험지대 : 해당분야의 지식도 많고 컴퓨터 과학 역량이 뛰어나 R과 같은 도구로 쉽게 정보를 추출하지만, 그 의미에 대한 이해가 부족한 경우.​ ​1.3 데이터 과학의 과정​(1) 데이터 가져오기분..