Big Data7 Big Data 분석 - 분석 계획 분석 계획 데이터 분석 유형 분석 계획 : 분석에 필요한 분석기법과 활동 내용을 명확히하여 분석 작업의 일관성을 유지 => 무엇을 어떻게 분석할 것인가 데이터 분석 유형 분석 유형 설명 대상 기술적 분석(Descriptive) (과거)데이터 요약/집계 경영자, 관리자 관심 지표 결과에 대한 추가적 해석 불필요 요약 통계 - 매출액, 평균 생산량, 성장률 등 탐색적 분석(Exploratory) 추세, 패턴, 관계 탐색 그래프 등 시각화 중심 분석 초기에 가설 수립을 위해 많이 사용 그래프 분석, 인포그래픽스 추론분석(Inferential) 모집단과 샘플 간의 관계 탐구 샘플 특성 기반으로 모집단 특성 분석 가설 검정 - 평균, 발생 빈도, 그룹 간 유의차 예측적 분석(Predictive) 통계, 기계학습 .. 2022. 5. 19. Big Data 분석 - Data 수집 및 정제 데이터 운용 데이터 운용 운용 특정한 기준에 대한 정확한 기술은 측정지표(측정 대상)와 데이터 수집 방법론(측정 방법), 수집할 데이터의 양(얼마나 많은 것을 측정할 것)과 데이터 수집의 책임(측정자)를 결정하기 위해 필요함 데이터 수집 데이터 수집 분석에 필요한 데이터 종류, 형태, 발생 주기 등 데이터의 특성을 파악하고 정의하는 것 분석에 필요한 데이터 항목, 저장위치, 발생 주기, 수집 방법, 수집 기간, 속성 등을 기술함 샘플링 샘플 데이터 생성 및 데이터 분할 시 데이터를 추출하는 방법용 샘플링 유의사항 대표성 : 전체 데이터를 대표하는 샘플인가 안정성 : 안정된 프로세스에서 수집된 데이터 샘플인가 랜덤성 : 특별한 경향이나 패턴 없이 무작위로 선택했는가 일관성 : 동일한 방법이 일관되게 적용되.. 2022. 5. 19. Big Data 분석 - Data Handling Data Handling - 이론 Data 구조 Pandas Pandas : 데이터를 수집하고 정리하는데 최적화된 도구 numpy 기반으로 작성된 라이브러리 import pandas as pd Series & Dataframe Series : 1차원 배열 구조로 index와 values로 구성 Dataframe : spreadsheet 형식의 자료구조로 index, columns, values 형태로 구성 데이터 읽기 및 저장 함수 설명 read_csv 쉼표로 구분된 데이터를 읽어올 때 사용 read_table 테이블 형태의 데이터로 저장되어 있는 파일을 불러 올 때 사용 read_excel 엑셀 형식의 데이터를 읽어옴 read_html 웹 문서 내의 데이터를 읽어옴 특정 컬럼만 불러오기 데이터 내용.. 2022. 5. 18. 이전 1 2 다음