본문 바로가기

STUDY

파이썬 스터디 ver3. 11주차

2022.10.01 빅데이터분석기사 필기 준비내용 정리
(https://sy-log.tistory.com/ 님이 정리하신 내용을 토대로 공부하였습니다.)

ver3이긴 하지만 사실상 부트캠프(온라인 코딩교육)내용은 없고.. 벼락치기 열심히 했던 빅분기 내용을 정리해보고자 합니다.! 어제, 대강 복원된 문제들로 가채점 해 보았을 때 모든 과목에서 과락은 확실히 넘긴 것 같습니다. 다만 합격여부에 대해서는 하늘에 달렸단 게 조금 웃플 뿐이에요. 그래도 실기 준비해서 나쁠 건 없잖아요? 필답형은 다 맞춘단 마인드.



1과목: 빅데이터 분석기획

정형 데이터: 스키마 구조 O, 고정 필드 O
- 수집 기법: ETL, FTP, API, DB To DB, Rsync, Sqoop
반정형 데이터: 스키마 구조O, 고정 필드X, 메타 데이터 O
- 수집 기법: 센싱, 스트리밍, 플럼, 스크라이브, 척화
비정형 데이터: 스키마 구조X, 고정 필드X, 메타 데이터 X
- 수집 기법: 크롤링, RSS, Open API, 스크래파이, 아파치 카프카

데이터 수집과정: 수집 데이터 도출 -> 목록 작성 -> 소유기관 파악/협의 -> 데이터 유형 분류/확인 -> 수집 기술 선정 -> 수집 주기 선정 -> 수집 실행
암묵지와 형식지의 상호작용: SECI
- 공통화(S): 암묵지-> 암묵지
- 표출화(E): 암묵지-> 형식지
- 연결화(C): 형식지 + 형식지
- 내면화(I): 형식지-> 암묵지
DIKW 피라미드: 데이터Data -> 정보Information -> 지식Knowledge -> 지혜Wisdom
- 데이터는 가공 전의 수치, 사실
- 지혜는 아이디어가 결합된 창의적 산물
데이터 웨어하우스: 통합된 데이터 저장공간. 시간 흐름에 따라 변화한다는 특징이 있음
데이터 마트: 작은 규모의 데이터 웨어하우스. 특정 조직, 업무분야에 초점을 맞춤.
빅데이터는 "비정형 데이터"의 저장, 관리기술의 등장으로 발전하게 된 경향이 큼 (+하드웨어의 발전)
빅데이터 위기요인과 통제 방안
- 사생활 침해 문제 <- 알고리즘 접근 허용
- 책임원칙 훼손 문제 <- 책임 강조
- 데이터 오용 문제 <- 결과기반 책임 적용
빅데이터 특징: 3V, 5V, 7V
- 3V: 규모Volume, 다양성Variety, 속도Velocity
- 5V: 신뢰성Veracity, 가치Value
- 7V: 정확성Validity, 휘발성Volatility
빅데이터 플랫폼의 데이터 형식: HTML, XML, CSV, JSON
정보 3법: 개인정보보호법, 정보통신망법, 신용정보법
- 개인정보 보호법: 정보 주체(개인)의 개인정보 자기 결정권을 보장하는 것
가명처리 세부절차: 사전 검토 -> 비식별 조치-> 적정성 평가-> 사후 관리
- 적정성 평가에는 K-익명성, L-다양성, T-근접성 세 가지를 고려해야 함

개인정보 식별 제거 기법: 가명처리, 총계처리, 값 삭제, 범주화, 데이터 마스킹
- 범주화에는 제어/랜덤 라운딩, 범위화, 은폐화 및 감추기가 있음
빅데이터 분석기획 유형 (O, X는 인지 여부)
  최적화 솔루션 통찰 발견
분석 대상 O O X X
분석 방법 O X O X
하향식 문제접근 프로세스: 데이터로 해결하고자 하는 문제가 이미 정의된 경우 사용.
상향식 문제접근 프로세스: 데이터를 기반으로 문제를 찾고 개선하려 함. 디자인 씽킹, 비지도 학습, 프로토타이핑
- 디자인 씽킹: 하향식 방법과 상향식 방법의 결합.
CRISP-DM: 비즈니스 이해를 바탕으로 분석 업무 수행. 업무 이해 -> 데이터 이해 -> 준비 -> 모델링 -> 평가 -> 전개
KDD: 프로파일링 기법 기반. 통계적 패턴이나 지식을 탐색함. 선택 -> 전처리 -> 변환 -> 마이닝 -> 평가
SEMMA: SAS주도, 통계 중심 분석 수행. 샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증
데이터 확보계획 프로세스: 목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립
데이터 분석절차 프로세스: 문제 인식 -> 연구조사 -> 모형화 -> 자료 수집 -> 자료 분석 -> 결과 공유
NoSQL: Not only SQL. 수평적 확장가능 DBMS
- 데이터 구조에 따라 key-value store, column family store, document score, graph store로 나뉨


2과목: 빅데이터 탐색

데이터 전처리 흐름: 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리
- 기법에는 변환, 파싱, 보강이 있고 기술로는 ETL, 맵리듀스, 스파크/스톰, CEP, 피그, 플럼이 있음
결측치 유형과 처리 방법
- 완전 무작위 결측: 원인/결과 상관 X
- 무작위 결측: 원인 상관 O, 결과 상관 X
- 비무작위 결측: 원인/결과 상관 O

결측값을 식별한 뒤 부호화하여 대체. 처리 방법으로는 (1)완전 분석(무시), (2)평균 대치, (3)단순 확률대치(확률값을 통계량으로), (4)핫덱(내부 데이터 사용), (5)콜드덱(외부 데이터 사용)이 있음.
딕슨의 Q검정: 범위에 대한 관측치 간 차이 비율로 이상값 여부 검정.
그럽스의 T검정: 정규분포를 만족하는 단변량 자료에서 이사값 여부 검정.
그밖의 이상값 검출 방법: 개별 데이터 관찰, 시각화, ML기법, 마할라 노비스 거리, LOFi(밀도 비교), iForest
변수 변환: 단위 변환, 표현형식 변환, 요약통계량 변환, 변수 결합 등의 방법이 있음. ex)비닝, 스케일링
불균형 데이터 처리: 정밀도 향상을 위해 데이터의 균형을 맞춰주는 작업이 필요함
- 방법 종류: 언더샘플링(많은 수의 데이터를 줄임: 중요한 정보 누락 가능성), 오버샘플링(적은 수의 데이터를 늘림: 과적합 가능성), 임곗값 이동(테스트 단계에서 시행. 임곗값을 데이터가 많은 쪽으로 이동), 앙상블 기법
EDA의 4가지 주제: 저항성, 잔차 해석, 자료 재표현, 현시성
공분산: 상승/하강 경향은 이해할 수 있으나 상관분석을 통한 정도 파악에는 부적절
피어슨 상관계수: 수치형 변수 간의 상관관계 분석 가능
스피어만 상관계수: 순위형 변수 간의 상관관계 분석 가능
※상관계수가 0이라는 것의 의미: 변수 간의 관계가 '선형성'을 따르지 않는다
(ANOVA) F-통계량: 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 것.
분산: 평균으로부터 흩어진 정도
평균 표준편차: 각 평균들의 전체 평균 오차
첨도: 뾰족한 정도. 음수면 납작하고 3(혹은 0)이면 정규분포를 따르며 양수면 뾰족하다.
베르누이 분포: 1 아니면 0의 값을 가지는 것이 특징. B(n, p)
이항 분포: n번의 시행 중 각 시행 확률이 p일 때 k번 성공할 확률을 나타냄.
포아송 분포: 정해진 시간 안에 어떤 사건이 일어날 확률에 대한 기댓값이 람다일 때, 이것이 n번 일어날 확률분포.

t분포: 모집단 표준편차가 알려져 있지 않을 때, 정규분포 대신 많이 사용되는 표본분포. 정규분포 평균 측정과 두 집단 간 평균 차이 검정에 활용
카이제곱 분포: k개의 서로 독립인 표준정규확률변수를 각각 제곱한 것을 합해 얻을 수 있는 분포.
표준정규분포: 정규분포 함수에서 x를 Z로 정규화 한 분포. (Z는 `(x-평균) / 표준편차`)
중심극한정리: 표본이 커질수록 표본 분포가 정규분포에 근사하게 된다는 것
큰 수의 법칙: 표본이 커질수록 표본 평균이 모평균에 근사하게 된다는 것
1종 오류: 귀무가설이 참인데 기각하는 경우(가 나타날 확률). 알파 수준.
2종 오류: 귀무가설이 거짓인데 채택하는 경우(가 나타날 확률). 베타 수준.
- 알파와 베타는 어느 정도 trade-off관계. 1종 오류가 더 중대한 문제이기 때문에 주로 알파를 기준으로 잡음


3과목: 빅데이터 모델링

예측: 결과값을 예측하는 것. 회귀분석, 의사결정 나무, 시계열 분석, 인공신경망
분류: 범주를 예측하는 것. 통계적 기법, 트리 기반 분류, 최적화, 기계학습
군집화: 세분화하는 것. 계층적 방법(응집분석, 분할분석), 비계층적 방법(K-평균 군집화)
연관규칙: 장바구니 분석(연관분석)
지도학습: target(label)이 존재하는 것. 회귀분석, 인공 신경망, 감성 분석, 의사결정 나무, 서포트 벡터 머신, 랜덤 포레스트
비지도 학습: target(label)이 존재하지 않는 것. 군집화, 차원축소, 연관성 분석, 자기 조직화 지도(SOM)
분석 모형의 복잡도가 증가할수록 Variance는 증가하고 Bias는 줄어듦: trade-off관계
과대적합: 학습 데이터에 매몰되어 다른 데이터에 대한 일반화가 어려운 경우
파라미터: 모형 내부에서 결정되는 것. 회귀분석으로 도출된 회귀식의 계수등이 해당.
하이퍼 파라미터: 모형 외부에서 사용자가 직접 설정하는 것. 인공신경망 모델의 히든 레이어 수 등이 해당.
분석 모형 구축 절차(모델링 단계): 요건 정의 -> 모델링 -> 검증, 테스트 -> 적용
회귀모형의 가정 조건: 선형성, 독립성, 등분산성, 비상관성, 정상성
- 로지스틱 회귀모형의 Odds: 성공p / 실패p
인공신경망 은닉층
- 퍼셉트론(1세대): 1개. XOR선형분리문제 해결이 불가능한 순방향 신경망
- 다층 퍼셉트론(2세대 이후): 다수. 시그모이드 함수의 경우 역전파 사용 시 기울기가 0이 되는 문제를 안고 있음
서포트 벡터 머신
- 연관 개념: 초평면, 결정 경계, 서포트 벡터, 마진(여유공간), 슬랙 변수(여유 변수)
- 커널 트릭: 저차원을 고차원으로 투사해 새로운 분리 경계점을 찾아주는 기법
분해 시계열: 시계열을 크게 4가지(추세T, 계절성S, 순환C, 불규칙변동I)로 나눠 계산하는 것.
베이즈 정리: P(B|A) = P(B)P(A∩B) / P(A)
배깅: Bootstrap Aggregating. 병렬 연산
부스팅: 연속적으로 가중치 수정
랜덤 포레스트: 수많은 tree를 만듦. 노드 분할 함수로 파이, 프시, 타우 등 사용
비모수통계: 모수성을 가정하지 않고 분석하는 것. 통계량으로 빈도, 부호, 순위 등을 사용함
- 단일 표본: 부호 검정, 윌콕슨-부호순위 검정
- 두 표본: 윌콕슨 순위 합 검정, 대응표본 검정
- 셋 이상: 크루스칼-왈리스 검정
- 분산분석: ANOVA


4과목: 빅데이터 결과 해석

  예측 Positive 예측 Negative
실제 Positive True Positive False Negative
실제 Negative False Positive True Negative
- 재현율Recall: 실제 P를 P라 예측한 비율. TP / TP+FN
- 특이도: 실제 N을 N이라 예측한 비율. TN / FP+TN
- 거짓 긍정률: 1-특이도. FP / FP+TN
- 정밀도Precision: P로 예측한 것 중 실제 P의 비율. TP / TP+FP
- F1-Score: 조화평균. 2*(정밀도*민감도) / 정밀도+민감도
※ 카파 통계량: 두 모델의 범주값 일치도를 측정하는 것. 
교차검증: 모델 일반화 오차에 대해 신뢰할 만한 추정치를 구하는 검증 기법.
- 홀드아웃, 랜덤 서브샘플링, KFold, LooCV, LpoCV, RLT, 붓스트랩 방법이 있음
적합도 검정의 검정 통계량
- 가정된 확률이 있을 경우: 카이제곱 검정
- 가정된 확률이 없을 경우: 샤피로-윌크 검정, 콜모고로프-스미르노프 검정, QQPlot
과적합 해결 방법: 데이터 증강, 모델 복잡도 감소, 가중치/ 규제 적용, 드롭아웃
- L1규제: 랏소. 절대값의 합을 최소화 하려 함. 이 과정에서 가중치가 0이 되기도 함(변수 선택의 역할을 하기도)
- L2규제: 릿지. 절대값의 제곱을 최소화 하려 함.
비즈니스 기여도: 사업 수행에 영향을 주는 요소를 수치 형태로 산출 한 것.
- 효과 / 성능 / 중복 / 최적화 검증이 필요함
- 총소유비용TCO, 투자대비효과ROI, 순현재가치NPV, 내부수익률IRR, 투자회수기간PP가 있음
시각화 종류: 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화
- 시각화 도구: 태블로, 인포그램, 차트블록, 데이터 래퍼
※ 인포그래픽: 지도형, 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형
분석 모형 전개 흐름: 분석 목적 정의 -> 가설 검토 -> 데이터 준비, 처리 -> 모델링, 분석 -> 정확도/성능평가 -> 운영
최종 모형 선정: 모형 평가기준 선정 -> 최종 모형분석결과 검토 -> 알고리즘별 결과 비교
분석모형 모니터링: 실시간/배치 스케쥴러로 주기별로 예상했던 수준의 성과가 나오는지 모니터링
- 응답 시간, 사용률, 가용성, 정확성확인
- 성능 이벤트 확인(설정 임계치를 초과하는지: 장애 상황과 성능 상태의 경계선)
분석모형 리모델링: 편차가 지속적으로 일정 수준 이상 하락할 때 시행. 초기엔 짧게 자주, 점진적으로 주기를 늘림

다음주에는 온라인 코딩캠프 내용도 정리해서 올려보도록 하겠습니다.. 그러려면 우선 이번 주엔 밀린 강의부터 다 들어야겠죠ㅠㅜ 화이팅 나자신!

'STUDY' 카테고리의 다른 글

파이썬 스터디 ver3. 13주차  (0) 2022.10.19
파이썬 스터디 ver3. 12주차  (2) 2022.10.10
파이썬 스터디 ver3. 10주차  (4) 2022.09.19
파이썬 스터디 ver3. 9주차  (3) 2022.08.26
파이썬 스터디 ver3. 8주차  (2) 2022.08.22