본문 바로가기

Big Data7

예측모델 - 주성분 분석/시계열 분석 주성분 분석 주성분 분석 정의 : 변수 간의 관계(공분산, 상관)를 기반으로 정보 손실을 최소화하면서 주요 성분을 확인하고 차원을 축소하는 기법 차원 : 많은 변수를 줄여 변수를 적게 만드는 것에 사용됨 주성분 : 변수 간의 선형 결합으로 특징을 반영하는 주성분 선택 주성분 분석 주의사항 변수 scale이 유사해야함 => scaling이 필요 scale이 유사하면 공분산 행렬, scale 차이가 크면 상관계수를 이용 공분산 : 각 확률변수들이 어떻게 퍼져있는지를 나타내는 것 상관계수 : 확률변수의 절대적 크기에 영향을 받지 않도록 단위화 주성분 점수 : 고유치 및 고유벡터를 계산해 고유 벡터의 계수를 이용해 계산한 결과 활용 용도 변수 Screening : 변수가 많은 경우 주요 특징을 보이는 주성분 선.. 2022. 5. 25.
예측 모델 - Linear Regression/Decision Tree/Random Forest/Gradient Boosting 모델 예측 모델 선형 회귀 분석 단순 선형 회귀 분석 다중 선형 회귀 분석 규제화 회귀 분석 Ridge 회귀 분석 LASSO 회귀 분석 ElasticNet 회귀 분석 의사결정나무 앙상블 Random Forest Gradient Boosting 모델링 정의 : 대용량 데이터로부터 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 변수들간의 관련성을 찾아 모형화하여 유용한 지식을 추출하는 과정 종류 회귀 : 주어진 데이터에 근거하여 모델을 만들고 새로운 case에 대해 예측 ex) 강도, 온도 분류 : 일련의 범주가 사전에 분류되어 있고 특정 case가 어디에 속하는지 결정 ex) 양품/불량, 스팸/정상 군집 : 여러 속성의 데이터를 비교해 유사 속성을 갖는 데이터를 그룹화시키는 것 ex) 고객 세분화.. 2022. 5. 23.
탐색적 분석 - 통계 분석 기술통계 수집된 데이터로부터 평균, 분산 등의 요약 통계량이나 그래프를 이용하여 정리 요약하여 전반적 특성을 파악하는 기술 기술통계 중심 척도 : 산술평균, 중위값, 최빈치 평균은 이상치에 영향을 받지만 중앙값은 이상치의 영향이 적음 산포 척도 : 분산, 표준편차, 범위 분포 모양 : 빈도, 상대도수, 비대칭도(왜도), 첨도 왜도 : 분포의 치우침 정도로 음수이면 오른쪽으로 치우침 첨도 : 분포의 뾰족한 정도로 양수이면 더 뾰족함 데이터 유형 연속형 데이터 : 연속적을 측정될 수 있는 것 => 사람이 셀 수 없는 것 등간 척도 : 같은 간격을 가지지만 절대 영점이 없는 척도 ex) 온도, 물가지수 비율 척도 : 비율의 개념이 추가되어 절대적 기준값이 존재하는 척도 ex) 중량, 강도 이산형 데이터 : 발.. 2022. 5. 20.
Big Data 분석 - 탐색적 분석(시각화) 탐색적 분석 탐색적 분석 다양한 시각화, 통계 분석을 이용해 데이터의 패턴, 특성, 변수 간의 관계 파악 등 데이터를 종합적으로 이해하는 과정 그래프와 정보를 통합한 인포그래픽스 사용이 증가하는 추세임 자료 형태별 그래프 연속형 : 측정 도구로 측정하는 데이터 등간 척도 : 속성을 평가할 수 있는 균일한 간격을 두고 측정하는 척도, 절대 영점이 없음 비율 척도 : 절대 영점이 있는 등간 척도로 사칙 연산이 가능함 이산형 : 사람이 직접 셀 수 있는 데이터 명목형 : 이름뿐인 척도로 숫자로 표현되지만 수량적 의미를 갖지 않고 카테고리 구분을 위한 용도 순서형 : 관찰 대상이 지니는 속성에 따라 순위를 결정하는 척도 그래프 Y X Z 패키지 함수 Bar Chart 범주형 pandas bar Histogram.. 2022. 5. 19.