전공수업/R

[R통계분석] 데이터 과학 개요

aaahyunseo 2024. 10. 12. 03:55

1.1 데이터

: 넓은 의미에서 데이터는 의미 있는 정보를 가진 모든 값, 사람이나 자동 기기가 생성 또는 처리하는 형태로 표시된 것.

-> 데이터 분석은 사회에 대한 관심과 지식이 필요하다.

1.2 데이터 과학

  • 컴퓨터 과학 역량
    • 디지털화 되어 있는 데이터를 이해하는 데 꼭 필요한 컴퓨터 과학 역량
  • 수학과 통계학 지식
    • 수학과 통계학을 이용해 데이터의 특성을 도출하고 데이터가 무엇을 나타내는 지 이해하는 능력
  • 분야별 전문지식
    • 데이터를 접하는 사람 혹은 집단이 갖고 있는 해당 분야의 전문성으로 가설을 수립하고 질문하는 능력
드류 콘웨이의 데이터 과학

 

* 위험지대 : 해당분야의 지식도 많고 컴퓨터 과학 역량이 뛰어나 R과 같은 도구로 쉽게 정보를 추출하지만, 그 의미에 대한 이해가 부족한 경우.

데이터과학 구성 요소(Components of Data Science)

 

1.3 데이터 과학의 과정

(1) 데이터 가져오기

  • 분석하고자 하는 open API, 파일, 데이터 베이스 등 다양한 데이터 소스를 분석 시스템으로 가져와 읽어 들이는 단계

(2) 정리하기 (데이터 정제)

  • 가져온 데이터를 일관된 형태로 재구조화 하는 단계 : "깔끔한 데이터(tidy data)"

(3) 변환하기 (데이터 가공)

  • 정리한 데이터에서 필요로 하는 새로운 값을 구하거나, 분석에 필요한 데이터로 변환하는 과정
  • 데이터 분석을 위한 데이터 처리 과정
  • 데이터 정리 단계와 데이터 변환 단계를 통틀어 랭글링(wrangling)이라 표현함.

(4) 시각화

  • 데이터에서 의미를 도출하는 과정 중 하나
  • 시각화를 통해 의미를 전달함.
  • 좋은 시각화 - 예상치 못한 것을 보여주거나 데이터를 잘 이해할 수 있도록 만들어 한 차원 높은 질문을 이끌어 낼 수 있게 함.

(5) 모델링

  • 데이터를 통해 수립한 모델을 이용하여 예측 등의 과정을 수행하는 단계
  • 향후 머신러닝으로 확장되기도 함.

(6) 소통하기

  • 다른 사람들에게 공유하는 과정

해들리 위컴이 제시한 데이터 과학의 과정

 

1.4 공공데이터 취득

공공데이터

: 공공기관(중앙 정부 및 지자체와 이들이 출연, 출자하거나 재정 지원 등으로 설립 혹은 운영되는 기관이나 기업)이 제공하는 데이터

-> 공공데이터의 제공 및 이용 활성화에 관한 법률에 따라 공공기관이 생성하거나 취득하여 관리하는 전자 정보.

공공데이터 포털 - https://www.data.go.kr

서울 열린 데이터 광장 - https://data.seoul.go.kr

행정안전부 지방행정 인허가 데이터 - https://www.localdata.go.kr

통계청 마이크로데이터 통합 서비스 - https://mdis.kostat.go.kr

기상청 기상자료 개방포털 - https://data.kma.go.kr

대기정보 데이터(에어코리아) - https://airkorea.or.kr

1.5 데이터 과학 입문 배경지식

데이터 파일 구조

  • CSV(Comma Separated Value) 파일 구조
    • 행(row) : 데이터를 수집하는 대상(레코드, 관찰 대상)
    • 열(column): 관찰 대상으로부터 측정(혹은 관찰)한 특성
      • 데이터 구조를 결정하며 변수, 속성 등으로 부름
    • 헤더(header): 각 열의 이름을 저장하는 행으로 데이터 구조에 대한 정보 저장

기타 파일 구조

  • tsv: tab separated value
  • ssv: space separated value
  • csv: character separated value
  • dsv: delimiter separated value

파일 경로

  • 절대경로
    • 찾으려는 위치를 최상위 디렉토리부터 파일이 위치한 디렉토리까지 모두 나타낸 경로
    • 절대경로를 알면 현재 위치와 상관없이 해당 디렉토리를 바로 이동 가능
  • 상대경로
    • 현재 위치를 중심으로 찾으려는 위치를 표현한 경로
    • . : 현재 디렉토리
    • .. : 상위 디렉토리

*pwd : 현재 위치 확인 / cd : 경로 변경