본문 바로가기

R9

추론통계(귀무가설과 대립가설, 유의 확률, t-검정, 분산분석) 기술 통계(Descriptive statistics)란 측정이나 실험을 통해 수집한 데이터를 그래프나 숫자 등으로 요약하고 표현하여 데이터의 특성을 규명하는 통계적 방법이다. 다시말해, 데이터의 특성을 이해하기 쉽게 기술하는 통계로 평균, 중앙값, 분산, 사분위수 등을 규명하고 파이그래프, 막대그래프, 히스토그램 등의 그래프로 보여준다. 추론 통계란 소수의 대상을 가지고 연구하는 것이 경제적이고 효율적인 경우 모집단에서 추출한 표본 데이터를 가지고 해당 모집단의 특성 등을 추론하는 통계적인 방법이다. 모집단의 전수조사가 가능한 경우 문제가 되지 않지만 그렇지 않은 경우가 많기에 추론 통계가 사용된다. 아래에는 추론 통계와 관련된 다양한 개념에 대해 알아보도록 하겠다. 1. 귀무가설과 대.. 2021. 7. 27.
dplyr 패키지(select, distinct, arrange, group_by, filter, summarise, mutate) dplyr 패키지는 데이터 프레임에 적합한 패키지이다. 비정형 데이터의 요약과 정제 작업에 용이한데 다양한 함수들이 있다. 이 가운데 distinct, select, filter, group_by, summarise, aggregate, arrange, mutate 함수에 대해 알아보도록 하겠다. 1. distinct() 함수 distinct() 함수는 데이터 셋에서 중복된 행을 제거하는데 사용되는 함수이다. 두 가지 예시를 보여줄 것인데, distinct()안에 들어간 매개변수에 따라 다르다. distinct(데이터셋)의 경우 데이터셋의 모든 항목에 대해 중복 체크를 수행하고 행 전체 값이 동일하면 제거를 수행한다. 다음으로, distinct(데이터셋, 중복체크열, 옵션)으로 매개변수가 들어간 경우 특.. 2021. 7. 26.
빈도 분석 실습(지역 별 교통사고 사건 데이터) 지역 별 교통사고 사건 데이터를 가지고 막대그래프도 그려보고 지역별, 주/야간별 교통사고 사건 수와 사상자의 수에 대해 분석해 보고자 한다. 데이터를 불러와 분석에 맞게 구조를 변경하는 것이 중요하므로 이 포인트에 중점을 두고 보면 좋을 것이다. 1. 지역별 교통사고 사상자수 분석 setwd("") # 디렉토리 설정(파일의 위치 경로를 확인하여 기입한다 acc_data 2021. 7. 25.
변수간 관계 탐색(산점도, pairs, 상관계수, 상관행렬, 상관행렬 히트맵) 다양한 변수가 있는 경우 변수간 어떤 관계를 갖고 있는지 살펴볼 필요가 있다. 두 변수간 양의 상관관계, 음의 상관관계 그리고 아무 관련이 없는 변수 관계일 수 있다. 변수 관계를 파악하여 추후 데이터 분석에 활용할 수 있을 것이다. 1. 산점도 그래프 산점도 그래프란 plot() 함수로 데이터를 x축, y축에 점의 형태로 표시한 그래프이다. 양의 선형, 음의 선형, 무관 세가지 변수간 관계를 파악하기에 용이하다. 아래 그래프는 근무년수 대비 연봉의 관계를 파악한 것이다. 양의 선형관계를 가짐을 알 수 있다. A_salary 2021. 7. 25.