본문 바로가기

R9

주성분 분석(차원 축소, 주성분 분석, 주성분 개수 선택법) 1. 주성분분석 데이터의 변수가 너무 많은 경우 변수의 수를 줄여 분석과 예측에 유리하도록 하는 것을 차원 축소라고 한다. 차원 축소과 관련된 분석이 주성분 분석이다. 주성분 분석(Pincipal Component Analysis, PCA)는 고차원 데이터를 압축하거나 정보가 더 잘 드러나도록 표현하기 위해 주성분 분석을 하는 방법이다. 예를 들어, 3차원 공간 정보를 최대한 유지하면서 2차원 사진을 찍는 것이 차원 축소이다. 여기서 주성분이란 희생되는 정보가 적고 전체 변수의 변동성 대부분을 설명할 수 있는 적은 수의 변수 집합을 의미한다. 2. 주성분 분석 목적 데이터에서 노이즈를 제거하거나 주성분에서 유지되는 정보를 시각화하는데 사용한다 회귀분석 시 독립변수 간에 다중공선성이 존.. 2021. 7. 27.
시계열 분석(시계열 데이터, 정상성, 데이터 전환, 시계열 모델) 1. 시계열 데이터 시간에 따라 관측된 데이터를 시계열 데이터(Timeseries Data)라 한다. 시계열 데이터는 추세를 가진다. 추세요인(trend factor)은 데이터의 값이 시간에 따라 커지거나 작아지거나 수평인 추세로 상향 추세, 하향 추세, 수평 추세가 있다. 또, 시계열 데이터는 계절성을 가진다. 계절 요인(seasonal factor)은 짧은 구간으로 반복되는 트랜드를 의미하는데 일주일, 일년, 사분기, 계절 단위 등으로 명확한 주기에 따라 트랜드가 있는 경우이다. 명확한 이유 없이 알려진 주기를 가지고 변화하는 데이터일 수 있는데 이는 순환 요인을 가진다고 한다. 마지막으로, 위의 추세요인, 계절요인, 순환요인에 해당하지 않는 요인을 불규칙 요인, 노이즈 라고 부른다. 2. 정상성 데.. 2021. 7. 27.
선형회귀 (단순선형회귀, 다중선형회귀) 회귀란 돌아 본래의 자리로 돌아오는 것을 의미한다. 선형회귀(Linear Regression)은 종속변수(반응변수) Y와 한개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법이다. 선형회귀에는 단순선형회귀와 다중선형회귀가 있다. 단순선형회귀는 한개의 독립변수(설명변수)를 다루고 다중선형회귀는 둘 이상의 독립변수(설명변수)를 다루는 경우이다. 1. 단순선형회귀 하나의 종속변수와 하나의 독립변수에 대해 다루는 것이 단순선형회귀이다. 종속변수와 독립변수간 산점도 그래프를 그리고 실제 데이터와 예측값 간의 오차가 가장 작은 선을 추세선으로 선택해야 한다. 이 오차는 최소제곱법(LSE)에 띠라 잔차의 단순합이 아니라 제곱함을 구하여 그 값이 최소인 추세선을 설정하게 된다. 추세.. 2021. 7. 27.
상관 분석 상관 분석이란 확률론과 통계학에서 두 변수간 선형적 혹은 비선형적 관계를 갖고 있는지 분석하는 방법이다. 상관분석에 상관계수라는 용어가 중요한데 상관계수(Correlation, Correlation coefficient)는 두 변수가 서로 독립적이거나 상관관계일 수 있는데 두 변수간의 관계의 정도를 의미한다. 다만 주의해야할 점이 상관계수를 통해 상관관계의 정도를 알 수 있는 것이지 두 변수간 원인과 결과 관계인 인과관계를 설명해 주지는 못한다. 상관계수에는 피어슨 상관계수와 스피어만 상관계수가 있는데 이 두가지를 알아보도록 하겠다 1. 피어슨 상관계수 두 변수간의 선형적인 관계를 측정하여 두 변수의 공분산과 각각의 표준편차의 값을 통해 -1부터 1까지의 값으로 나타낸 것을 피어슨 상관계수라고 한다. 두.. 2021. 7. 27.