탐색적 데이터 분석
코로나 19가 확산하고 속출하는 가운데 4단계 거리두기로 오늘도 방구석에서 자판을 치고있다. 하루 1000명을 훌쩍 넘은 확진자 수에 또 놀라고 언제쯤 잠잠해 지는지 예측이 되지 않는다. 오늘은 R을 통해 탐색적 데이터 분석에 관련하여 학습하고자 한다. 크게 데이터의 대표값(평균값, 중앙값 등), 분산도를 탐색하고 데이터의 분산도와 데이터간 관계에 대해 살펴보고자 한다.
먼저 분석의 종류에 대해 살펴 보도록 하겠다.
분석에는 기술통계, 탐색적 분석, 추론적 통계 분석 그리고 예측 분석이 있다.
먼저, Descriptive Analysis(기술 통계 분석)은 주어진 데이터를 요약/집계하여 결과를 도출한다. 분석 결과를 따로 해석하지 않고 과거 데이터의 단순 계산과 집계를 하게 된다.
Exploratory Analysis(탐색적 분석)은 여러 변수간 Trend, 패턴, 관계를 찾는 분석이다. 통계적 기법을 사용한 모델링이라기 보다는 그래프를 통한 사실 확인이 주된 작업니다. 주로 프로젝트 초기 가설 수립에 사용된다. 즉, 평균, 분산 등의 기초 통계량을 활용하여 값을 구하거나 그래프를 통해 시각화하고 인사이트를 도출하게 된다.
Inferential Analysis(추론적 통계분석)은 모집단에서 추출한 샘플에서 얻어낸 정보가 모집단에도 적용될 수 있는지 검토하는 작업을 수행한다. 예로, t-검정, ANOVA 등이 있다.
마지막으로, Predictive Analysis(예측 분석) 머신러닝, 의사결정나무 등 다양한 통계적 기법을 사용하여 미래 혹은 발생하지 않은 사건에 대해 예측이 주요 작업이다.
< 데이터의 대표값 >