본문 바로가기

전체 글120

예측 모델 - Linear Regression/Decision Tree/Random Forest/Gradient Boosting 모델 예측 모델 선형 회귀 분석 단순 선형 회귀 분석 다중 선형 회귀 분석 규제화 회귀 분석 Ridge 회귀 분석 LASSO 회귀 분석 ElasticNet 회귀 분석 의사결정나무 앙상블 Random Forest Gradient Boosting 모델링 정의 : 대용량 데이터로부터 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 변수들간의 관련성을 찾아 모형화하여 유용한 지식을 추출하는 과정 종류 회귀 : 주어진 데이터에 근거하여 모델을 만들고 새로운 case에 대해 예측 ex) 강도, 온도 분류 : 일련의 범주가 사전에 분류되어 있고 특정 case가 어디에 속하는지 결정 ex) 양품/불량, 스팸/정상 군집 : 여러 속성의 데이터를 비교해 유사 속성을 갖는 데이터를 그룹화시키는 것 ex) 고객 세분화.. 2022. 5. 23.
탐색적 분석 - 통계 분석 기술통계 수집된 데이터로부터 평균, 분산 등의 요약 통계량이나 그래프를 이용하여 정리 요약하여 전반적 특성을 파악하는 기술 기술통계 중심 척도 : 산술평균, 중위값, 최빈치 평균은 이상치에 영향을 받지만 중앙값은 이상치의 영향이 적음 산포 척도 : 분산, 표준편차, 범위 분포 모양 : 빈도, 상대도수, 비대칭도(왜도), 첨도 왜도 : 분포의 치우침 정도로 음수이면 오른쪽으로 치우침 첨도 : 분포의 뾰족한 정도로 양수이면 더 뾰족함 데이터 유형 연속형 데이터 : 연속적을 측정될 수 있는 것 => 사람이 셀 수 없는 것 등간 척도 : 같은 간격을 가지지만 절대 영점이 없는 척도 ex) 온도, 물가지수 비율 척도 : 비율의 개념이 추가되어 절대적 기준값이 존재하는 척도 ex) 중량, 강도 이산형 데이터 : 발.. 2022. 5. 20.
Big Data 분석 - 탐색적 분석(시각화) 탐색적 분석 탐색적 분석 다양한 시각화, 통계 분석을 이용해 데이터의 패턴, 특성, 변수 간의 관계 파악 등 데이터를 종합적으로 이해하는 과정 그래프와 정보를 통합한 인포그래픽스 사용이 증가하는 추세임 자료 형태별 그래프 연속형 : 측정 도구로 측정하는 데이터 등간 척도 : 속성을 평가할 수 있는 균일한 간격을 두고 측정하는 척도, 절대 영점이 없음 비율 척도 : 절대 영점이 있는 등간 척도로 사칙 연산이 가능함 이산형 : 사람이 직접 셀 수 있는 데이터 명목형 : 이름뿐인 척도로 숫자로 표현되지만 수량적 의미를 갖지 않고 카테고리 구분을 위한 용도 순서형 : 관찰 대상이 지니는 속성에 따라 순위를 결정하는 척도 그래프 Y X Z 패키지 함수 Bar Chart 범주형 pandas bar Histogram.. 2022. 5. 19.
Big Data 분석 - 분석 계획 분석 계획 데이터 분석 유형 분석 계획 : 분석에 필요한 분석기법과 활동 내용을 명확히하여 분석 작업의 일관성을 유지 => 무엇을 어떻게 분석할 것인가 데이터 분석 유형 분석 유형 설명 대상 기술적 분석(Descriptive) (과거)데이터 요약/집계 경영자, 관리자 관심 지표 결과에 대한 추가적 해석 불필요 요약 통계 - 매출액, 평균 생산량, 성장률 등 탐색적 분석(Exploratory) 추세, 패턴, 관계 탐색 그래프 등 시각화 중심 분석 초기에 가설 수립을 위해 많이 사용 그래프 분석, 인포그래픽스 추론분석(Inferential) 모집단과 샘플 간의 관계 탐구 샘플 특성 기반으로 모집단 특성 분석 가설 검정 - 평균, 발생 빈도, 그룹 간 유의차 예측적 분석(Predictive) 통계, 기계학습 .. 2022. 5. 19.