1. 분석 기획
- 개요 및 활용
- 데이터의 구분
- 정량적
- 정성적
- 데이터의 유형
- 정형 데이터
- 반정형 데이터
- 비정형 데이터
- 근원에 따른 분류
- 가역 데이터
- 불가역 데이터
- 데이터베이스
- DBMS
- OLTP
- OLPA
- 데이터 웨어하우스
- 빅데이터
- 5V
- 규모
- 유형
- 속도
- 품질
- 가치
- 5V
- 데이터 산업
- 인프라영역
- 서비스영역
- 데이터의 구분
- 기술 및 제도
- 빅데이터 플랫폼
- 구조
- 소프트웨어 계층
- 데이터 추출, 분석 수행
- 플랫폼 계층
- 빅데이터 애플리케이션을 실행하기 위한 플랫폼 제공
- 인프라스트럭처 계층
- 자원 배치 , 노드 및 네트워크 관리등 빅데이터 분석에 필요한 자원 관리
- 소프트웨어 계층
- 구조
- 빅데이터 처리 기술
- 처리 과정
- 생성
- 수집
- 크롤링
- 로그수집기
- 센서네트워크
- ETL
- 저장
- NoSQL
- Clouddata
- Hbase
- Cassandra
- MongoDB
- 공유 데이터 시스템
- CAP 이론
- 병렬 데이터 베이스 관리 시스템
- 분산 파일 시스템
- GFS, HDFS, 아마존 S3
- 네트워크 저장 시스템
- SAN, NAS
- NoSQL
- 처리
- 분석
- 시각화
- 빅데이터 처리
- 하둡
- 아파치 스파크
- 인메모리 방식
- 맵리듀스
- 비식별처리
- 가명
- 총계
- 삭제
- 범주화
- 마스킹
- 처리 과정
- 빅데이터 플랫폼
- 분석 방안 수립
- 분석 작업 계획
- 데이터 수집 및 전환
- 데이터 적재 및 저장
2. 탐색
- 데이터 정제
-
- 질적자료
- 명목자료
- 서열자료
- 수치자료
- 구간자료
- 비율자료
- 결측자료 대치법
- 단순대치
- 평균 대치
- 회귀 대치
- 확률 대치
- 최근접 대치
- 다중대치
- 단순대치
- 이상치 탐지 방법
- 시각화
- Box plot
- 줄기 잎
- 산점도
- z score
- Isolation Forest
- 시각화
- 질적자료
-
- 분석 변수 처리
- 변수선택
- 전진 선택법
- 후진 선택법
- 단계적 선택법
- 차원 축소
- 필요성
- 복잡도 감소
- 과적합 방지
- 해석력 확보
- 차원의 저주
- 방법
- 요인 분석
- 주성분분석 PCA
- 특이값 분해 SVD
- 음수 미포함 행렬 분해 NMF
- 필요성
- 파생 변수 생성
- 파생변수
- 교호작용 - 변수간 상호작용
- 독립변수간 교호작용만 허용.
- 종속변수에 교호작용 x
- 요약변수 aggregate
- 파생변수
- 변수 변환
- 정규화
- Min Max Normalization
- Z score 정규화
- 로그 변환
- 역수 변환
- 지수 변환
- 제곱근 변환
- Box Cox
-
- 정규화
- 불균형 데이터
- 정확도가 높아지고 재현율은 작아지는 문제점이있다.
- 처리방법
- 가중치 균형
- 언더샘플링
- 오버 샘플링
- 원 핫 인코딩
- 범주형 -> 수치형 전환
- 머신러닝에 적용하도록 변환
- 변수선택
- 데이터 탐색 기초
- 탐색적 데이터 분석 EDA
- 상관 관계 분석
- 기본가정
- 선형성
- 동변량성
- 정규분포성
- 분석 방법
- 피어슨 상관계수
- 스피어만 상관계수
- 서열자료인 경우
- 기본가정
- 기초 통계량
- 중심화경향
- 평균
- 중앙값
- 최빈값
- 분위수
- 산포도
- 분산, 표준편차
- 범위
- 평균 절대 편차
- 사분위 범위
- 변동계수
- 분포 형태
- 왜도
- -3 ~ +3 사이 범위
- 첨도
- 왜도
- 중심화경향
- 고급 데이터 탐색
- 다변량 데이터
- 독립변수와 종속변수 관계
- 다중회귀
- 로지스틱 회귀
- 분산분석 ANOVA
- 다변량분석 Multi Variate ANOVA
- 변수 축약
- PCA
- 요인 분석
- 정준상관분석
- 개체유도
- 군집분석
- 계측정
- 비계층적
- 다차원 척도법
- 군집분석
- 독립변수와 종속변수 관계
- 비정형 데이터
- 분석
- 데이터 마이닝
- 텍스트 마이닝
- 오피니언 마이닝
- 웹 마이닝
- 분석
- 다변량 데이터
- 기술 통계
- 표본추출
- 표본조사
- 표본추출 기법
- 단순 무작위 추출
- 계통 추출
- 층화 추출
- 군집 추출
- 표본추출 기법
- 표본조사
- 확률 분포
- 개념
- 조건부 확률
- 베이즈 정리
- 확률 변수
- 이산 확률 변수
- 연속 확률 변수
- 확률 분포
- 확률 분포 함수
- 이산 확률 분포
- 베르누이
- 이항분포
- 다항 분포
- 포아송 분포
- 기하 분포
- 음이항 분포
- 초기하 분포
- 연속 확률 분포
- 지수분포
- 정규 분포
- 표준 정규분포
- 카이제곱 분포
- t분포
- f분포
- 이산 확률 분포
- 확률 분포 함수
- 개념
- 표본 분포
- 중심 극한 정리
- 표본추출
- 추론 통계
- 추정
- 점추정
- 구간 추정
- 가설 검정
- 귀무가설
- 대립가설
- 오류
- 1종 오류
- 2종 오류
- 유의 수준
- p value
- 기각역
- 임계치
- 추정
3. 모델링
- 분석 절차 수립
- 분석모형
- 예측 분석
- 현황 진단
- 최적화 분석
- 접근 방식
- 상향식 접근
- 하향식 접근
- 알고리즘
- 비지도학습
- 군집 분석
- 연관성 분석
- 오토 인코더
- 지도학습
- 의사결정 트리
- 랜덤 포레스트
- 서포트 벡터 머신 SVM
- 회귀 분석
- 준지도 학습
- 셀프 트레이닝
- 적대적 생성 모델
- 강화학습
- Q Learning
- 정책경사
- 비지도학습
- 분석모형
- 분석 환경 구축
- 데이터 분할
- 학습 데이터
- 평가 데이터
- 검증 데이터
- 과대 적합
- 과소 적합
- 데이터 분할
- 분석 기법
- 학습 유형별
- 지도학습
- 분류
- 의사결정트리
- 랜덤 포레스트
- 인공신경망
- 서포트벡터머신 SVM
- 로지스틱 회귀분석
- 회귀
- 의사결정트리
- 선형회귀분석
- 다중회귀분석
- 분류
- 비지도학습
- 군집분석
- 연관성분석
- 인공신경망
- 오토인코더
- 준지도학습
- 셀프트레이닝
- GAN
- 강화학습
- Q Learning
- 정책경사
- 지도학습
- 회귀분석
- 독립변수 -> 종속변수 예측
- 회귀선
- 최소 제곱법
- 선형 회귀분석
- 단순 선형 회귀분석
- 다중 선형 회귀분석
- 로지스틱 회귀분석
- 단순 로지스틱 회귀분석
- 다중 로지스틱 회귀분석
- 의사결정나무
- 분류, 예측 둘다 가능
- 분류나무
- 카이제곱 통계랑
- 지니 지수
- 엔트로피 지수
- 회귀나무
- 알고리즘
- CART
- 랜덤포레스트
- 부트스트래핑
- 배깅 - 투표 (병렬)
- 부스팅 - 가중치(시리얼)
- 인공신경망
- 문제점
- Vanishing Gradient
- 과대적합 오버 피팅
- 학습
- 손실함수
- MSE
- CEE
- 학습 알고리즘
- 미니배치
- 기울기산출
- 매개변수 갱신
- 오차역 전파
- 활성 함수
- sigmoid
- Relu
- Overfitting
- 해결방안
- 가중치 감소
- L1 규제 (라쏘) : 절대값
- L2 규제 (릿지) : 제곱
- 드롭아웃
- 하이퍼파라미터 최적화
- 가중치 감소
- 해결방안
- 기울기 소실
- 해결방안
- ReLU 사용
- LSTM
- GRU
- 배치정규화
- 해결방안
- 딥러닝 종류
- CNN
- RNN
- LSTM
- 오토인코더
- GAN
- 문제점
- SVM
- 분류 회귀 둘다 수행
- 연관성 분석
- 향상도
- 군집분석
- 거리 척도
- 종류
- 계층적 군집분석
- 초기 군집 갯수 불필요
- 비계층적 군집분석
- 초기 군집 갯수 필요.
- k means 군집분석
- 계층적 군집분석
- 학습 유형별
- 고급 분석 기법
-
독립변수 종속변수 분석방법 범주형 범주형 카이제곱 검정 연속형 범주형 로지스틱 회귀분석 범주형 연속형 T검정, 분산분석 연속형 연속형 상관분석, 회귀분석 - 다변량 분석
- 기법 종류
- 다중회귀분석
- 다변량분산분석
- 다변량공분산분석
- 정준상관분석
- 요인분석
- PCA
- 최대우도법
- 군집분석
- 다중판별분석
- 다차원 척도법
- 기법 종류
- 시계열분석
- 자료 종류
- 이산
- 연속
- 시차
- 성분
- 불규칙 성분
- 체계적 성분
- 추세성분
- 계절성분
- 순환성분
- 복합성분
- 자기상관성
- 백색잡음
- 정상성
- 평균 일정
- 분산 일정
- 자료 종류
- 앙상블 분석
- 학습 모형을 조합하여 최종모형 생성
- Voting
- 병렬
- 부스팅
- 순차적.
- 배깅
- 집계
- 범주형자료 -> 보팅
- 연속형자료 -> 평균
-
4. 결과 해석
- 분석 모형 평가
- 지도학습 - 분류
- 정확도
- 정밀도
- 재현율, 민감도
- F1 Score
- ROC
- 1-특이도, 민감도
- AUC
- 지도학습 - 회귀
- SSE
- MSE
- RMSE
- MAE
- MPE
- 결정계수 R^2
- MSPE
- MAPE
- RMSLE
- 비지도학습 - 군집분석
- 실루엣계수
- Dunn Index
- 분석모형 진단
- 정규성 가정
- 중심극한정리
- 정규선 검정 종류
- 샤피로 윌크
- 콜모고로프 스미르노프 검정
- Q Q 플롯
- 정규성 가정
- K 폴드 교차 검증
- 적합도 검정
- 데이터 분포가 특정 분포함수와 얼마나 맞는지 검정
- 카이제곱 검정
- 지도학습 - 분류
- 분석 모형 개선
- 과대적합
- 드롭아웃
- 가중치감소
- L1 규제 라쏘
- L2 규제 릿지
- 매개변수 최적화
- 확률적 경사하강법 (SGD)
- 모멘텀
- AdaGrad
- Adam
- 초매개변수
- 과대적합
- 분석 결과 해석
- 회귀모델
- 분류모델
- 군집모델
- 팔꿈치 elbow 기법
- 실루엣 기법
- 연관분석모델
- 분석 결과 시각화
- 표
- 인포그래픽
- 픽토그램
- 시간 시각화
- 분포시각화
- 관계시각화
- 비교시각화
- 공간시각화
- 분석 결과 활용