파이썬 스터디 ver3. 11주차

2022.10.01 빅데이터분석기사 필기 준비내용 정리
(https://sy-log.tistory.com/ 님이 정리하신 내용을 토대로 공부하였습니다.)

ver3이긴 하지만 사실상 부트캠프(온라인 코딩교육)내용은 없고.. 벼락치기 열심히 했던 빅분기 내용을 정리해보고자 합니다.! 어제, 대강 복원된 문제들로 가채점 해 보았을 때 모든 과목에서 과락은 확실히 넘긴 것 같습니다. 다만 합격여부에 대해서는 하늘에 달렸단 게 조금 웃플 뿐이에요. 그래도 실기 준비해서 나쁠 건 없잖아요? 필답형은 다 맞춘단 마인드.

1과목: 빅데이터 분석기획

정형 데이터: 스키마 구조 O, 고정 필드 O
- 수집 기법: ETL, FTP, API, DB To DB, Rsync, Sqoop
반정형 데이터: 스키마 구조O, 고정 필드X, 메타 데이터 O
- 수집 기법: 센싱, 스트리밍, 플럼, 스크라이브, 척화
비정형 데이터: 스키마 구조X, 고정 필드X, 메타 데이터 X
- 수집 기법: 크롤링, RSS, Open API, 스크래파이, 아파치 카프카

데이터 수집과정: 수집 데이터 도출 -> 목록 작성 -> 소유기관 파악/협의 -> 데이터 유형 분류/확인 -> 수집 기술 선정 -> 수집 주기 선정 -> 수집 실행

암묵지와 형식지의 상호작용: SECI
- 공통화(S): 암묵지-> 암묵지
- 표출화(E): 암묵지-> 형식지
- 연결화(C): 형식지 + 형식지
- 내면화(I): 형식지-> 암묵지

DIKW 피라미드: 데이터Data -> 정보Information -> 지식Knowledge -> 지혜Wisdom
- 데이터는 가공 전의 수치, 사실
- 지혜는 아이디어가 결합된 창의적 산물

데이터 웨어하우스: 통합된 데이터 저장공간. 시간 흐름에 따라 변화한다는 특징이 있음
데이터 마트: 작은 규모의 데이터 웨어하우스. 특정 조직, 업무분야에 초점을 맞춤.

빅데이터는 "비정형 데이터"의 저장, 관리기술의 등장으로 발전하게 된 경향이 큼 (+하드웨어의 발전)

빅데이터 위기요인과 통제 방안
- 사생활 침해 문제 <- 알고리즘 접근 허용
- 책임원칙 훼손 문제 <- 책임 강조
- 데이터 오용 문제 <- 결과기반 책임 적용

빅데이터 특징: 3V, 5V, 7V
- 3V: 규모Volume, 다양성Variety, 속도Velocity
- 5V: 신뢰성Veracity, 가치Value
- 7V: 정확성Validity, 휘발성Volatility

빅데이터 플랫폼의 데이터 형식: HTML, XML, CSV, JSON

정보 3법: 개인정보보호법, 정보통신망법, 신용정보법
- 개인정보 보호법: 정보 주체(개인)의 개인정보 자기 결정권을 보장하는 것

가명처리 세부절차: 사전 검토 -> 비식별 조치-> 적정성 평가-> 사후 관리
- 적정성 평가에는 K-익명성, L-다양성, T-근접성 세 가지를 고려해야 함

개인정보 식별 제거 기법: 가명처리, 총계처리, 값 삭제, 범주화, 데이터 마스킹
- 범주화에는 제어/랜덤 라운딩, 범위화, 은폐화 및 감추기가 있음

빅데이터 분석기획 유형 (O, X는 인지 여부)

최적화 솔루션 통찰 발견

분석 대상 O O X X

분석 방법 O X O X

하향식 문제접근 프로세스: 데이터로 해결하고자 하는 문제가 이미 정의된 경우 사용.
상향식 문제접근 프로세스: 데이터를 기반으로 문제를 찾고 개선하려 함. 디자인 씽킹, 비지도 학습, 프로토타이핑
- 디자인 씽킹: 하향식 방법과 상향식 방법의 결합.

CRISP-DM: 비즈니스 이해를 바탕으로 분석 업무 수행. 업무 이해 -> 데이터 이해 -> 준비 -> 모델링 -> 평가 -> 전개
KDD: 프로파일링 기법 기반. 통계적 패턴이나 지식을 탐색함. 선택 -> 전처리 -> 변환 -> 마이닝 -> 평가
SEMMA: SAS주도, 통계 중심 분석 수행. 샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증

데이터 확보계획 프로세스: 목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립
데이터 분석절차 프로세스: 문제 인식 -> 연구조사 -> 모형화 -> 자료 수집 -> 자료 분석 -> 결과 공유

NoSQL: Not only SQL. 수평적 확장가능 DBMS
- 데이터 구조에 따라 key-value store, column family store, document score, graph store로 나뉨

2과목: 빅데이터 탐색

데이터 전처리 흐름: 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리
- 기법에는 변환, 파싱, 보강이 있고 기술로는 ETL, 맵리듀스, 스파크/스톰, CEP, 피그, 플럼이 있음

결측치 유형과 처리 방법
- 완전 무작위 결측: 원인/결과 상관 X
- 무작위 결측: 원인 상관 O, 결과 상관 X
- 비무작위 결측: 원인/결과 상관 O

결측값을 식별한 뒤 부호화하여 대체. 처리 방법으로는 (1)완전 분석(무시), (2)평균 대치, (3)단순 확률대치(확률값을 통계량으로), (4)핫덱(내부 데이터 사용), (5)콜드덱(외부 데이터 사용)이 있음.

딕슨의 Q검정: 범위에 대한 관측치 간 차이 비율로 이상값 여부 검정.
그럽스의 T검정: 정규분포를 만족하는 단변량 자료에서 이사값 여부 검정.
그밖의 이상값 검출 방법: 개별 데이터 관찰, 시각화, ML기법, 마할라 노비스 거리, LOFi(밀도 비교), iForest

변수 변환: 단위 변환, 표현형식 변환, 요약통계량 변환, 변수 결합 등의 방법이 있음. ex)비닝, 스케일링

불균형 데이터 처리: 정밀도 향상을 위해 데이터의 균형을 맞춰주는 작업이 필요함
- 방법 종류: 언더샘플링(많은 수의 데이터를 줄임: 중요한 정보 누락 가능성), 오버샘플링(적은 수의 데이터를 늘림: 과적합 가능성), 임곗값 이동(테스트 단계에서 시행. 임곗값을 데이터가 많은 쪽으로 이동), 앙상블 기법

EDA의 4가지 주제: 저항성, 잔차 해석, 자료 재표현, 현시성

공분산: 상승/하강 경향은 이해할 수 있으나 상관분석을 통한 정도 파악에는 부적절
피어슨 상관계수: 수치형 변수 간의 상관관계 분석 가능
스피어만 상관계수: 순위형 변수 간의 상관관계 분석 가능
※상관계수가 0이라는 것의 의미: 변수 간의 관계가 '선형성'을 따르지 않는다

(ANOVA) F-통계량: 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 것.
분산: 평균으로부터 흩어진 정도
평균 표준편차: 각 평균들의 전체 평균 오차
첨도: 뾰족한 정도. 음수면 납작하고 3(혹은 0)이면 정규분포를 따르며 양수면 뾰족하다.

베르누이 분포: 1 아니면 0의 값을 가지는 것이 특징. B(n, p)
이항 분포: n번의 시행 중 각 시행 확률이 p일 때 k번 성공할 확률을 나타냄.
포아송 분포: 정해진 시간 안에 어떤 사건이 일어날 확률에 대한 기댓값이 람다일 때, 이것이 n번 일어날 확률분포.

t분포: 모집단 표준편차가 알려져 있지 않을 때, 정규분포 대신 많이 사용되는 표본분포. 정규분포 평균 측정과 두 집단 간 평균 차이 검정에 활용
카이제곱 분포: k개의 서로 독립인 표준정규확률변수를 각각 제곱한 것을 합해 얻을 수 있는 분포.
표준정규분포: 정규분포 함수에서 x를 Z로 정규화 한 분포. (Z는 `(x-평균) / 표준편차`)

중심극한정리: 표본이 커질수록 표본 분포가 정규분포에 근사하게 된다는 것
큰 수의 법칙: 표본이 커질수록 표본 평균이 모평균에 근사하게 된다는 것

1종 오류: 귀무가설이 참인데 기각하는 경우(가 나타날 확률). 알파 수준.
2종 오류: 귀무가설이 거짓인데 채택하는 경우(가 나타날 확률). 베타 수준.
- 알파와 베타는 어느 정도 trade-off관계. 1종 오류가 더 중대한 문제이기 때문에 주로 알파를 기준으로 잡음

3과목: 빅데이터 모델링

예측: 결과값을 예측하는 것. 회귀분석, 의사결정 나무, 시계열 분석, 인공신경망
분류: 범주를 예측하는 것. 통계적 기법, 트리 기반 분류, 최적화, 기계학습
군집화: 세분화하는 것. 계층적 방법(응집분석, 분할분석), 비계층적 방법(K-평균 군집화)
연관규칙: 장바구니 분석(연관분석)

지도학습: target(label)이 존재하는 것. 회귀분석, 인공 신경망, 감성 분석, 의사결정 나무, 서포트 벡터 머신, 랜덤 포레스트
비지도 학습: target(label)이 존재하지 않는 것. 군집화, 차원축소, 연관성 분석, 자기 조직화 지도(SOM)

분석 모형의 복잡도가 증가할수록 Variance는 증가하고 Bias는 줄어듦: trade-off관계

과대적합: 학습 데이터에 매몰되어 다른 데이터에 대한 일반화가 어려운 경우

파라미터: 모형 내부에서 결정되는 것. 회귀분석으로 도출된 회귀식의 계수등이 해당.
하이퍼 파라미터: 모형 외부에서 사용자가 직접 설정하는 것. 인공신경망 모델의 히든 레이어 수 등이 해당.

분석 모형 구축 절차(모델링 단계): 요건 정의 -> 모델링 -> 검증, 테스트 -> 적용

회귀모형의 가정 조건: 선형성, 독립성, 등분산성, 비상관성, 정상성
- 로지스틱 회귀모형의 Odds: 성공p / 실패p

인공신경망 은닉층
- 퍼셉트론(1세대): 1개. XOR선형분리문제 해결이 불가능한 순방향 신경망
- 다층 퍼셉트론(2세대 이후): 다수. 시그모이드 함수의 경우 역전파 사용 시 기울기가 0이 되는 문제를 안고 있음

서포트 벡터 머신
- 연관 개념: 초평면, 결정 경계, 서포트 벡터, 마진(여유공간), 슬랙 변수(여유 변수)
- 커널 트릭: 저차원을 고차원으로 투사해 새로운 분리 경계점을 찾아주는 기법

분해 시계열: 시계열을 크게 4가지(추세T, 계절성S, 순환C, 불규칙변동I)로 나눠 계산하는 것.

베이즈 정리: P(B|A) = P(B)P(A∩B) / P(A)

배깅: Bootstrap Aggregating. 병렬 연산
부스팅: 연속적으로 가중치 수정
랜덤 포레스트: 수많은 tree를 만듦. 노드 분할 함수로 파이, 프시, 타우 등 사용

비모수통계: 모수성을 가정하지 않고 분석하는 것. 통계량으로 빈도, 부호, 순위 등을 사용함
- 단일 표본: 부호 검정, 윌콕슨-부호순위 검정
- 두 표본: 윌콕슨 순위 합 검정, 대응표본 검정
- 셋 이상: 크루스칼-왈리스 검정
- 분산분석: ANOVA

4과목: 빅데이터 결과 해석

예측 Positive 예측 Negative

실제 Positive True Positive False Negative

실제 Negative False Positive True Negative

- 재현율Recall: 실제 P를 P라 예측한 비율. TP / TP+FN
- 특이도: 실제 N을 N이라 예측한 비율. TN / FP+TN
- 거짓 긍정률: 1-특이도. FP / FP+TN
- 정밀도Precision: P로 예측한 것 중 실제 P의 비율. TP / TP+FP
- F1-Score: 조화평균. 2*(정밀도*민감도) / 정밀도+민감도
※ 카파 통계량: 두 모델의 범주값 일치도를 측정하는 것.

교차검증: 모델 일반화 오차에 대해 신뢰할 만한 추정치를 구하는 검증 기법.
- 홀드아웃, 랜덤 서브샘플링, KFold, LooCV, LpoCV, RLT, 붓스트랩 방법이 있음

적합도 검정의 검정 통계량
- 가정된 확률이 있을 경우: 카이제곱 검정
- 가정된 확률이 없을 경우: 샤피로-윌크 검정, 콜모고로프-스미르노프 검정, QQPlot

과적합 해결 방법: 데이터 증강, 모델 복잡도 감소, 가중치/ 규제 적용, 드롭아웃
- L1규제: 랏소. 절대값의 합을 최소화 하려 함. 이 과정에서 가중치가 0이 되기도 함(변수 선택의 역할을 하기도)
- L2규제: 릿지. 절대값의 제곱을 최소화 하려 함.

비즈니스 기여도: 사업 수행에 영향을 주는 요소를 수치 형태로 산출 한 것.
- 효과 / 성능 / 중복 / 최적화 검증이 필요함
- 총소유비용TCO, 투자대비효과ROI, 순현재가치NPV, 내부수익률IRR, 투자회수기간PP가 있음

시각화 종류: 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화
- 시각화 도구: 태블로, 인포그램, 차트블록, 데이터 래퍼
※ 인포그래픽: 지도형, 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형

분석 모형 전개 흐름: 분석 목적 정의 -> 가설 검토 -> 데이터 준비, 처리 -> 모델링, 분석 -> 정확도/성능평가 -> 운영
최종 모형 선정: 모형 평가기준 선정 -> 최종 모형분석결과 검토 -> 알고리즘별 결과 비교
분석모형 모니터링: 실시간/배치 스케쥴러로 주기별로 예상했던 수준의 성과가 나오는지 모니터링
- 응답 시간, 사용률, 가용성, 정확성확인
- 성능 이벤트 확인(설정 임계치를 초과하는지: 장애 상황과 성능 상태의 경계선)
분석모형 리모델링: 편차가 지속적으로 일정 수준 이상 하락할 때 시행. 초기엔 짧게 자주, 점진적으로 주기를 늘림

다음주에는 온라인 코딩캠프 내용도 정리해서 올려보도록 하겠습니다.. 그러려면 우선 이번 주엔 밀린 강의부터 다 들어야겠죠ㅠㅜ 화이팅 나자신!

'STUDY' 카테고리의 다른 글

파이썬 스터디 ver3. 13주차 (0)	2022.10.19
파이썬 스터디 ver3. 12주차 (2)	2022.10.10
파이썬 스터디 ver3. 10주차 (4)	2022.09.19
파이썬 스터디 ver3. 9주차 (3)	2022.08.26
파이썬 스터디 ver3. 8주차 (2)	2022.08.22

메타몽이되고싶어

파이썬 스터디 ver3. 11주차

'STUDY' 카테고리의 다른 글

티스토리툴바

	최적화	솔루션	통찰	발견
분석 대상	O	O	X	X
분석 방법	O	X	O	X

	예측 Positive	예측 Negative
실제 Positive	True Positive	False Negative
실제 Negative	False Positive	True Negative

파이썬 스터디 ver3. 11주차

'STUDY' 카테고리의 다른 글

'STUDY' Related Articles

티스토리툴바