본문 바로가기

전체 글120

Big Data 분석 - Data 수집 및 정제 데이터 운용 데이터 운용 운용 특정한 기준에 대한 정확한 기술은 측정지표(측정 대상)와 데이터 수집 방법론(측정 방법), 수집할 데이터의 양(얼마나 많은 것을 측정할 것)과 데이터 수집의 책임(측정자)를 결정하기 위해 필요함 데이터 수집 데이터 수집 분석에 필요한 데이터 종류, 형태, 발생 주기 등 데이터의 특성을 파악하고 정의하는 것 분석에 필요한 데이터 항목, 저장위치, 발생 주기, 수집 방법, 수집 기간, 속성 등을 기술함 샘플링 샘플 데이터 생성 및 데이터 분할 시 데이터를 추출하는 방법용 샘플링 유의사항 대표성 : 전체 데이터를 대표하는 샘플인가 안정성 : 안정된 프로세스에서 수집된 데이터 샘플인가 랜덤성 : 특별한 경향이나 패턴 없이 무작위로 선택했는가 일관성 : 동일한 방법이 일관되게 적용되.. 2022. 5. 19.
Big Data 분석 - Data Handling ​​Data Handling - 이론 Data 구조 Pandas Pandas : 데이터를 수집하고 정리하는데 최적화된 도구 numpy 기반으로 작성된 라이브러리 import pandas as pd Series & Dataframe Series : 1차원 배열 구조로 index와 values로 구성 Dataframe : spreadsheet 형식의 자료구조로 index, columns, values 형태로 구성 데이터 읽기 및 저장 함수 설명 read_csv 쉼표로 구분된 데이터를 읽어올 때 사용 read_table 테이블 형태의 데이터로 저장되어 있는 파일을 불러 올 때 사용 read_excel 엑셀 형식의 데이터를 읽어옴 read_html 웹 문서 내의 데이터를 읽어옴 특정 컬럼만 불러오기 데이터 내용.. 2022. 5. 18.
Python 함수 Mutable과 Immutable의 차이를 알아야 함 Mutable : 리스트, 딕셔너리, 집합 Immutable : 숫자형, 문자열, 튜플 함수의 매개변수로 리스트나 집합, 딕셔너리를 조작하면 밖에서도 값이 변화함 def vector_sum(v, *vectors)됨 res = [v[0],v[1]] # Mutable이기에 해주어야 되는 코드 # res= v : 리스트(v)를 받아 변화하게 됨 for vec in vectors: for i in range(len(vec)): res[i] += vec[i] return res v1=[0, 1] v2=[0.5, 0.5] v3=[1, 0] v4=[6, 4] v5=[3.14, 2.72] m1 = vector_sum(v1, v2, v3) m2 = vector_.. 2022. 5. 15.
이미지 분류 CNN CNN pytorch 코드 하이퍼파라미터 코드 이미지 변경 Padding http://taewan.kim/post/cnn/ : CNN 전체 구조 파악하기 CNN 구조와 Layer 이미지의 공간 정보를 유지한 상태로 학습이 가능한 모델 => 이미지 분류에 활용되는 방법 구조 예시 : 이미지 -> Conv layer -> ReLu -> Conv layer -> .. -> Pooling layer -> Conv layer -> FC layer -> softmax -> classification 특징 추출 영역(겹겹의 Conv layer와 Pooling layer)과 클래스를 분류하는 부분으로 나뉘어져 있음 마지막 Output feature map을 FC layer에 넣어 class(분류 개수) 수 만큼.. 2022. 5. 12.