6.1 데이터 시각화
데이터 시각화의 이유
- 데이터셋으로 평균과 표준편차가 비슷해보이지만, 데이터를 그려보면 차이를 한 눈에 알아볼 수 있음.
데이터셋 : anscombe
평균과 표준편차가 동일한 데이터 네쌍의 산점도
6.2 ggplot2 기본
ggplot2로 시각화
- llibrary(tidyverse) 패키지 설치 및 부착
- 기하학적 요소로 표현(도표)
- 기존에 생성한 도표 영영 위에 기하학적 요소 추가: + 연산자 사용
- 기하학적 요소는 함수명이 geom_xxx() 형태
- 함수의 인수로 aes() 함수를 이용해 산점도(geom_point())의 두 좌표를 담은 열 지정.
- 산점도를 열(속성) 종류마다 다른 색으로 지정할 수 있음.
- geom_text() : 도표 포인트 에 이름표 추가
여러 도표로 나누기 - 데이터 선택
- dplyr 라이브러리의 다섯가지 함수 사용
- facet_wrap() : 도표 분할 함수
- 분할에 사용할 변수를 vars() 함수로 전달, 열의 수를 ncol 인수로 전달
테마와 제목, 축 변경하기
- theme_minimal() 함수 사용
- 도표의 제목 요소 : 도표 제목, 축 제목 등
- labs() 함수의 인수 title(도표 제목), 인수 x(x축 제목), 인수 y(y축 제목)
- x축의 값 변경하기: scale_x_xxx() 계열 함수
- x축 값이 연속형이면 천단위 콤마로 표시
한글 글꼴 사용하기
- https://fonts.google.com
- showtext 패키지 사용(구글 글꼴 이용)
- 글꼴 가져오기 : font_add_google("글꼴 이름", "사용자 정의 이름")
- 글꼴 사용 준비하기 : showtext_auto()
- ggplot에서 사용하기
- element_text() 함수의 family 인수에 지정한 사용자 정의 이름 사용가능.
ggplot2 패키지의 구성 요소
- 필수 구성 요소
- 도표 영영 생성
- 기하학적 요소 추가
- 추가 구성 요소
- 축 사용자화
- 축 변환
- 세부 설정 요소
- 테마 설정
- 분할 설정
매핑 : ggplot으로 표현하려는 데이터프레임에서 각 열의 값을 이용하는 방법
- aes() 함수의 인수로 전달. x축, y축 매핑.
'전공수업 > R' 카테고리의 다른 글
[R통계분석] R을 활용한 확률과 통계2 - 확률분포2, 통계적 추론1 (0) | 2024.12.03 |
---|---|
[R통계분석] R을 활용한 확률과 통계1 - 기초 확률, 확률분포1 (0) | 2024.12.03 |
[R통계분석] R 프로그래밍 - 반복문, 조건문 (0) | 2024.10.13 |
[R통계분석] R 데이터 처리2 - 주요함수 (0) | 2024.10.12 |
[R통계분석] R 데이터 처리1 - 형태, 구조, 특성 (0) | 2024.10.12 |