본문 바로가기
카테고리 없음

빅데이터 분석기사

by 삽질러 2025. 3. 30.

1. 분석 기획 

  • 개요 및 활용
    • 데이터의 구분
      • 정량적
      • 정성적
    • 데이터의 유형
      • 정형 데이터
      • 반정형 데이터
      • 비정형 데이터
    • 근원에 따른 분류
      • 가역 데이터
      • 불가역 데이터 
    • 데이터베이스
      • DBMS
      • OLTP
      • OLPA
      • 데이터 웨어하우스
    • 빅데이터
      • 5V
        • 규모
        • 유형
        • 속도
        • 품질
        • 가치
    • 데이터 산업
      • 인프라영역
      • 서비스영역
  • 기술 및 제도
    • 빅데이터 플랫폼
      • 구조
        • 소프트웨어 계층
          • 데이터 추출, 분석 수행
        • 플랫폼 계층
          • 빅데이터 애플리케이션을 실행하기 위한 플랫폼 제공 
        • 인프라스트럭처 계층
          • 자원 배치 , 노드 및 네트워크 관리등 빅데이터 분석에 필요한 자원 관리 
    • 빅데이터 처리 기술
      • 처리 과정
        • 생성
        • 수집
          • 크롤링
          • 로그수집기
          • 센서네트워크
          • ETL
        • 저장
          • NoSQL
            • Clouddata
            • Hbase
            • Cassandra
            • MongoDB
          • 공유 데이터 시스템
            • CAP 이론
          • 병렬 데이터 베이스 관리 시스템
          • 분산 파일 시스템
            • GFS, HDFS, 아마존 S3
          • 네트워크 저장 시스템
            • SAN, NAS
        • 처리
        • 분석
        • 시각화
      • 빅데이터 처리
        • 하둡
        • 아파치 스파크
          • 인메모리 방식
        • 맵리듀스
      • 비식별처리
        • 가명
        • 총계
        • 삭제
        • 범주화
        • 마스킹
  • 분석 방안 수립
    •  
  • 분석 작업 계획
  • 데이터 수집 및 전환
  • 데이터 적재 및 저장

2. 탐색

  • 데이터 정제
      • 질적자료
        • 명목자료
        • 서열자료
      • 수치자료
        • 구간자료
        • 비율자료
      • 결측자료 대치법
        • 단순대치
          • 평균 대치
          • 회귀 대치
          • 확률 대치 
          • 최근접 대치
        • 다중대치
      • 이상치 탐지 방법
        • 시각화
          • Box plot
          • 줄기 잎
          • 산점도
        • z score
        • Isolation Forest
  • 분석 변수 처리
    • 변수선택
      • 전진 선택법
      • 후진 선택법
      • 단계적 선택법
    • 차원 축소
      • 필요성
        • 복잡도 감소 
        • 과적합 방지
        • 해석력 확보
        • 차원의 저주
      • 방법
        • 요인 분석
        • 주성분분석  PCA 
        • 특이값 분해 SVD
        • 음수 미포함 행렬 분해 NMF 
    • 파생 변수 생성
      • 파생변수
        • 교호작용 - 변수간 상호작용 
        • 독립변수간 교호작용만 허용.
        • 종속변수에 교호작용 x 
      • 요약변수 aggregate
    • 변수 변환
      • 정규화
        • Min Max Normalization
        • Z score 정규화
        • 로그 변환 
        • 역수 변환
        • 지수 변환
        • 제곱근 변환 
        • Box Cox
        •  
    • 불균형 데이터
      • 정확도가 높아지고 재현율은 작아지는 문제점이있다. 
      • 처리방법
        • 가중치 균형
        • 언더샘플링
        • 오버 샘플링
    • 원 핫 인코딩
      • 범주형 -> 수치형 전환 
      • 머신러닝에 적용하도록 변환 
  • 데이터 탐색 기초
    • 탐색적 데이터 분석 EDA
    • 상관 관계 분석
      • 기본가정
        • 선형성
        • 동변량성
        • 정규분포성
      • 분석 방법
        • 피어슨 상관계수
        • 스피어만 상관계수
          • 서열자료인 경우
    • 기초 통계량
      • 중심화경향
        • 평균
        • 중앙값
        • 최빈값
        • 분위수
      • 산포도
        • 분산, 표준편차
        • 범위
        • 평균 절대 편차
        • 사분위 범위
        • 변동계수
      • 분포 형태
        • 왜도
          • -3 ~ +3 사이 범위
        • 첨도
  • 고급 데이터 탐색
    • 다변량 데이터
      • 독립변수와 종속변수 관계
        • 다중회귀
        • 로지스틱 회귀
        • 분산분석 ANOVA
        • 다변량분석 Multi Variate ANOVA
      • 변수 축약
        • PCA
        • 요인 분석
        • 정준상관분석
      • 개체유도
        • 군집분석
          • 계측정
          • 비계층적
        • 다차원 척도법
    • 비정형 데이터
      • 분석
        • 데이터 마이닝
        • 텍스트 마이닝
        • 오피니언 마이닝
        • 웹 마이닝
  • 기술 통계
    • 표본추출
      • 표본조사
        • 표본추출 기법
          • 단순 무작위 추출
          • 계통 추출
          • 층화 추출
          • 군집 추출
    • 확률 분포
      • 개념
        • 조건부 확률
        • 베이즈 정리 
      • 확률 변수
        • 이산 확률 변수
        • 연속 확률 변수
      • 확률 분포
        • 확률 분포 함수 
          • 이산 확률 분포
            • 베르누이
            • 이항분포
            • 다항 분포
            • 포아송 분포
            • 기하 분포
            • 음이항 분포
            • 초기하 분포
          • 연속 확률 분포
            • 지수분포
            • 정규 분포
            • 표준 정규분포
            • 카이제곱 분포
            • t분포
            • f분포
    • 표본 분포
      • 중심 극한 정리 
  • 추론 통계
    • 추정
      • 점추정
      • 구간 추정
    • 가설 검정
      • 귀무가설
      • 대립가설
      • 오류
        • 1종 오류
        • 2종 오류
      • 유의 수준
        • p value
      • 기각역
        • 임계치

3. 모델링

  • 분석 절차 수립
    • 분석모형
      • 예측 분석
      • 현황 진단
      • 최적화 분석
    • 접근 방식
      • 상향식 접근
      • 하향식 접근
    • 알고리즘
      • 비지도학습
        • 군집 분석
        • 연관성 분석
        • 오토 인코더
      • 지도학습
        • 의사결정 트리
        • 랜덤 포레스트
        • 서포트 벡터 머신 SVM
        • 회귀 분석
      • 준지도 학습
        • 셀프 트레이닝
        • 적대적 생성 모델
      • 강화학습
        • Q Learning 
        • 정책경사
  • 분석 환경 구축
    • 데이터 분할
      • 학습 데이터 
      • 평가 데이터
      • 검증 데이터
    • 과대 적합
    • 과소 적합
  • 분석 기법
    • 학습 유형별
      • 지도학습
        • 분류
          • 의사결정트리
          • 랜덤 포레스트
          • 인공신경망
          • 서포트벡터머신 SVM
          • 로지스틱 회귀분석
        • 회귀
          • 의사결정트리
          • 선형회귀분석
          • 다중회귀분석
      • 비지도학습
        • 군집분석
        • 연관성분석
        • 인공신경망
        • 오토인코더
      • 준지도학습
        • 셀프트레이닝
        • GAN
      • 강화학습
        • Q Learning 
        • 정책경사
    • 회귀분석
      • 독립변수 -> 종속변수 예측
      • 회귀선
      • 최소 제곱법
      • 선형 회귀분석
        • 단순 선형 회귀분석
        • 다중 선형 회귀분석
      • 로지스틱 회귀분석
        • 단순 로지스틱 회귀분석
        • 다중 로지스틱 회귀분석
      • 의사결정나무
        • 분류, 예측 둘다 가능 
        • 분류나무
          • 카이제곱 통계랑
          • 지니 지수
          • 엔트로피 지수
        • 회귀나무
        • 알고리즘
          • CART
          • 랜덤포레스트
            • 부트스트래핑
            • 배깅 - 투표 (병렬)
            • 부스팅 - 가중치(시리얼)
      • 인공신경망
        • 문제점
          • Vanishing Gradient
          • 과대적합 오버 피팅
        • 학습
          • 손실함수
          • MSE
          • CEE
          • 학습 알고리즘
            • 미니배치
            • 기울기산출
            • 매개변수 갱신
          • 오차역 전파
          • 활성 함수
            • sigmoid 
            • Relu
          • Overfitting
            • 해결방안
              • 가중치 감소
                • L1 규제 (라쏘) : 절대값
                • L2 규제 (릿지) : 제곱
              • 드롭아웃
              • 하이퍼파라미터 최적화
          • 기울기 소실
            • 해결방안
              • ReLU 사용
              • LSTM
              • GRU
              • 배치정규화
        • 딥러닝 종류
          • CNN
          • RNN
          • LSTM
          • 오토인코더
          • GAN
      • SVM
        • 분류 회귀 둘다 수행
      • 연관성 분석
        • 향상도
      • 군집분석
        • 거리 척도
        • 종류
          • 계층적 군집분석
            • 초기 군집 갯수 불필요
          • 비계층적 군집분석
            • 초기 군집 갯수 필요. 
            • k means 군집분석
  • 고급 분석 기법
    • 독립변수 종속변수 분석방법
      범주형 범주형 카이제곱 검정
      연속형 범주형 로지스틱 회귀분석
      범주형 연속형 T검정, 분산분석
      연속형 연속형 상관분석, 회귀분석
    • 다변량 분석
      • 기법 종류 
        • 다중회귀분석
        • 다변량분산분석
        • 다변량공분산분석
        • 정준상관분석
        •  요인분석
          • PCA
          • 최대우도법
        • 군집분석
        • 다중판별분석
        • 다차원 척도법
    • 시계열분석
      • 자료 종류
        • 이산
        • 연속
        • 시차
      • 성분
        • 불규칙 성분
        • 체계적 성분
          • 추세성분
          • 계절성분
          • 순환성분
          • 복합성분
          • 자기상관성
          • 백색잡음
      • 정상성
        • 평균 일정
        • 분산 일정
    • 앙상블 분석
      • 학습 모형을 조합하여 최종모형 생성
      • Voting
        • 병렬
      • 부스팅
        • 순차적. 
      • 배깅
        • 집계
        • 범주형자료 -> 보팅
        • 연속형자료 -> 평균

 

4. 결과 해석

  • 분석 모형 평가
    • 지도학습 - 분류
      • 정확도
      • 정밀도
      • 재현율, 민감도
      • F1 Score
      • ROC
        • 1-특이도, 민감도
      • AUC
    • 지도학습 - 회귀
      • SSE
      • MSE
      • RMSE
      • MAE
      • MPE
      • 결정계수 R^2
      • MSPE
      • MAPE
      • RMSLE
    • 비지도학습 - 군집분석
      • 실루엣계수
      • Dunn Index
    • 분석모형 진단
      • 정규성 가정
        • 중심극한정리
        • 정규선 검정 종류
          • 샤피로 윌크
          • 콜모고로프 스미르노프 검정
          • Q Q 플롯
    • K 폴드 교차 검증
    • 적합도 검정
      • 데이터 분포가 특정 분포함수와 얼마나 맞는지 검정
      • 카이제곱 검정
  • 분석 모형 개선
    • 과대적합
      • 드롭아웃
      • 가중치감소
        • L1 규제 라쏘
        • L2 규제 릿지
    • 매개변수 최적화
      • 확률적 경사하강법 (SGD)
      • 모멘텀
      • AdaGrad
      • Adam
      • 초매개변수
  • 분석 결과 해석
    • 회귀모델
    • 분류모델
    • 군집모델
      • 팔꿈치 elbow 기법
      • 실루엣 기법
    • 연관분석모델
  • 분석 결과 시각화
    • 인포그래픽
    • 픽토그램
    • 시간 시각화
    • 분포시각화
    • 관계시각화
    • 비교시각화
    • 공간시각화
  • 분석 결과 활용