1.1 데이터
: 넓은 의미에서 데이터는 의미 있는 정보를 가진 모든 값, 사람이나 자동 기기가 생성 또는 처리하는 형태로 표시된 것.
-> 데이터 분석은 사회에 대한 관심과 지식이 필요하다.
1.2 데이터 과학
- 컴퓨터 과학 역량
- 디지털화 되어 있는 데이터를 이해하는 데 꼭 필요한 컴퓨터 과학 역량
- 수학과 통계학 지식
- 수학과 통계학을 이용해 데이터의 특성을 도출하고 데이터가 무엇을 나타내는 지 이해하는 능력
- 분야별 전문지식
- 데이터를 접하는 사람 혹은 집단이 갖고 있는 해당 분야의 전문성으로 가설을 수립하고 질문하는 능력

* 위험지대 : 해당분야의 지식도 많고 컴퓨터 과학 역량이 뛰어나 R과 같은 도구로 쉽게 정보를 추출하지만, 그 의미에 대한 이해가 부족한 경우.

1.3 데이터 과학의 과정
(1) 데이터 가져오기
- 분석하고자 하는 open API, 파일, 데이터 베이스 등 다양한 데이터 소스를 분석 시스템으로 가져와 읽어 들이는 단계
(2) 정리하기 (데이터 정제)
- 가져온 데이터를 일관된 형태로 재구조화 하는 단계 : "깔끔한 데이터(tidy data)"
(3) 변환하기 (데이터 가공)
- 정리한 데이터에서 필요로 하는 새로운 값을 구하거나, 분석에 필요한 데이터로 변환하는 과정
- 데이터 분석을 위한 데이터 처리 과정
- 데이터 정리 단계와 데이터 변환 단계를 통틀어 랭글링(wrangling)이라 표현함.
(4) 시각화
- 데이터에서 의미를 도출하는 과정 중 하나
- 시각화를 통해 의미를 전달함.
- 좋은 시각화 - 예상치 못한 것을 보여주거나 데이터를 잘 이해할 수 있도록 만들어 한 차원 높은 질문을 이끌어 낼 수 있게 함.
(5) 모델링
- 데이터를 통해 수립한 모델을 이용하여 예측 등의 과정을 수행하는 단계
- 향후 머신러닝으로 확장되기도 함.
(6) 소통하기
- 다른 사람들에게 공유하는 과정

1.4 공공데이터 취득
공공데이터
: 공공기관(중앙 정부 및 지자체와 이들이 출연, 출자하거나 재정 지원 등으로 설립 혹은 운영되는 기관이나 기업)이 제공하는 데이터
-> 공공데이터의 제공 및 이용 활성화에 관한 법률에 따라 공공기관이 생성하거나 취득하여 관리하는 전자 정보.
공공데이터 포털 - https://www.data.go.kr
서울 열린 데이터 광장 - https://data.seoul.go.kr
행정안전부 지방행정 인허가 데이터 - https://www.localdata.go.kr
통계청 마이크로데이터 통합 서비스 - https://mdis.kostat.go.kr
기상청 기상자료 개방포털 - https://data.kma.go.kr
대기정보 데이터(에어코리아) - https://airkorea.or.kr
1.5 데이터 과학 입문 배경지식
데이터 파일 구조
- CSV(Comma Separated Value) 파일 구조
- 행(row) : 데이터를 수집하는 대상(레코드, 관찰 대상)
- 열(column): 관찰 대상으로부터 측정(혹은 관찰)한 특성
- 데이터 구조를 결정하며 변수, 속성 등으로 부름
- 헤더(header): 각 열의 이름을 저장하는 행으로 데이터 구조에 대한 정보 저장
기타 파일 구조
- tsv: tab separated value
- ssv: space separated value
- csv: character separated value
- dsv: delimiter separated value
파일 경로
- 절대경로
- 찾으려는 위치를 최상위 디렉토리부터 파일이 위치한 디렉토리까지 모두 나타낸 경로
- 절대경로를 알면 현재 위치와 상관없이 해당 디렉토리를 바로 이동 가능
- 상대경로
- 현재 위치를 중심으로 찾으려는 위치를 표현한 경로
- . : 현재 디렉토리
- .. : 상위 디렉토리
*pwd : 현재 위치 확인 / cd : 경로 변경
'전공수업 > R' 카테고리의 다른 글
[R통계분석] R 데이터 시각화1 - ggplot2 기본 (0) | 2024.10.13 |
---|---|
[R통계분석] R 프로그래밍 - 반복문, 조건문 (0) | 2024.10.13 |
[R통계분석] R 데이터 처리2 - 주요함수 (0) | 2024.10.12 |
[R통계분석] R 데이터 처리1 - 형태, 구조, 특성 (0) | 2024.10.12 |
[R통계분석] R 기본 문법 (1) | 2024.10.12 |