본문 바로가기

전체 글120

dplyr 패키지(select, distinct, arrange, group_by, filter, summarise, mutate) dplyr 패키지는 데이터 프레임에 적합한 패키지이다. 비정형 데이터의 요약과 정제 작업에 용이한데 다양한 함수들이 있다. 이 가운데 distinct, select, filter, group_by, summarise, aggregate, arrange, mutate 함수에 대해 알아보도록 하겠다. 1. distinct() 함수 distinct() 함수는 데이터 셋에서 중복된 행을 제거하는데 사용되는 함수이다. 두 가지 예시를 보여줄 것인데, distinct()안에 들어간 매개변수에 따라 다르다. distinct(데이터셋)의 경우 데이터셋의 모든 항목에 대해 중복 체크를 수행하고 행 전체 값이 동일하면 제거를 수행한다. 다음으로, distinct(데이터셋, 중복체크열, 옵션)으로 매개변수가 들어간 경우 특.. 2021. 7. 26.
빈도 분석 실습(지역 별 교통사고 사건 데이터) 지역 별 교통사고 사건 데이터를 가지고 막대그래프도 그려보고 지역별, 주/야간별 교통사고 사건 수와 사상자의 수에 대해 분석해 보고자 한다. 데이터를 불러와 분석에 맞게 구조를 변경하는 것이 중요하므로 이 포인트에 중점을 두고 보면 좋을 것이다. 1. 지역별 교통사고 사상자수 분석 setwd("") # 디렉토리 설정(파일의 위치 경로를 확인하여 기입한다 acc_data 2021. 7. 25.
변수간 관계 탐색(산점도, pairs, 상관계수, 상관행렬, 상관행렬 히트맵) 다양한 변수가 있는 경우 변수간 어떤 관계를 갖고 있는지 살펴볼 필요가 있다. 두 변수간 양의 상관관계, 음의 상관관계 그리고 아무 관련이 없는 변수 관계일 수 있다. 변수 관계를 파악하여 추후 데이터 분석에 활용할 수 있을 것이다. 1. 산점도 그래프 산점도 그래프란 plot() 함수로 데이터를 x축, y축에 점의 형태로 표시한 그래프이다. 양의 선형, 음의 선형, 무관 세가지 변수간 관계를 파악하기에 용이하다. 아래 그래프는 근무년수 대비 연봉의 관계를 파악한 것이다. 양의 선형관계를 가짐을 알 수 있다. A_salary 2021. 7. 25.
데이터 분포 탐색(사분위수, 히스토그램, 도수분포표, 막대그래프, 파이그래프, 정규분포) 데이터의 양이 많은 경우 한눈에 데이터의 분포를 알기 힘들다. 그렇기에 다양한 함수를 통해 데이터의 분포를 한눈에 알 수 있다. 아래에서 다양한 데이터 분포 탐색 방법에 대해 알아보고자 한다. 마지막으로 데이터 분포의 변이에 대해 살펴볼 것이다. 데이터가 평균값와 떨어진 정도를 나타내는 분산, 표준편차에 대해 알아보고 정규 분포에 대해 알아보겠다. 1. 백분위수와 사분위수 사분위수란 자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다. 제1사분위수는 누적 백분율이 25%에 해당하는 점, 제2사분위수는 누적 백분율이 50%에 해당하는 점, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 점수이다. 사분위수는 quantile() 함수를 사용하여 구할 수 있다. A_.. 2021. 7. 25.