dplyr 패키지(select, distinct, arrange, group_by, filter, summarise, mutate)
dplyr 패키지는 데이터 프레임에 적합한 패키지이다. 비정형 데이터의 요약과 정제 작업에 용이한데 다양한 함수들이 있다. 이 가운데 distinct, select, filter, group_by, summarise, aggregate, arrange, mutate 함수에 대해 알아보도록 하겠다. 1. distinct() 함수 distinct() 함수는 데이터 셋에서 중복된 행을 제거하는데 사용되는 함수이다. 두 가지 예시를 보여줄 것인데, distinct()안에 들어간 매개변수에 따라 다르다. distinct(데이터셋)의 경우 데이터셋의 모든 항목에 대해 중복 체크를 수행하고 행 전체 값이 동일하면 제거를 수행한다. 다음으로, distinct(데이터셋, 중복체크열, 옵션)으로 매개변수가 들어간 경우 특..
2021. 7. 26.
데이터 분포 탐색(사분위수, 히스토그램, 도수분포표, 막대그래프, 파이그래프, 정규분포)
데이터의 양이 많은 경우 한눈에 데이터의 분포를 알기 힘들다. 그렇기에 다양한 함수를 통해 데이터의 분포를 한눈에 알 수 있다. 아래에서 다양한 데이터 분포 탐색 방법에 대해 알아보고자 한다. 마지막으로 데이터 분포의 변이에 대해 살펴볼 것이다. 데이터가 평균값와 떨어진 정도를 나타내는 분산, 표준편차에 대해 알아보고 정규 분포에 대해 알아보겠다. 1. 백분위수와 사분위수 사분위수란 자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다. 제1사분위수는 누적 백분율이 25%에 해당하는 점, 제2사분위수는 누적 백분율이 50%에 해당하는 점, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 점수이다. 사분위수는 quantile() 함수를 사용하여 구할 수 있다. A_..
2021. 7. 25.