패스트캠퍼스 데이터분석 부트캠프 학습일지2

https://fastcampus.co.kr/

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

2주차: 기초 통계

통계학: 산술적 방법을 기초로 다량의 데이터를 관찰, 정리, 분석하는 방법을 연구하는 수학의 한 분야.

- 부분으로 전체(혹은 다른 부분)을 추론하여 경향 파악 및 미래예측, 시각화 등에 도움을 줌

- OKR, KPI등 지표를 통한 방법론에서 적절한 지표를 선정하는 방법과 기준이 되어줌

- Growth Marketing(Performance Marketing)에 도움이 됨: 비즈니스의 근거로 사용되는 '데이터' 수치를 해석하고 올바른 인과관계를 분석하여 인사이트를 도출할 수 있도록 함

데이터 분석 과정: 데이터 분석 기획 -> 데이터 수집 및 정제 -> 데이터 분석 모델링 -> 평가 및 결론 도출 -> 분석 결과 활용

- 비즈니스 이해 및 목표 설정, 프로젝트 정의 -> 데이터 수집 계획, 전처리 및 검증 -> 탐색적 데이터 분석(EDA) 및 모델링 -> 결론 도출, 성능 평가 -> 서비스에 비즈니스 인사이트 및 시스템 구현

- EDA: Exploratory Data Analysis. 기초 통계 개념으로 데이터를 파악하는 것. 데이터 형질에 대해 이해함으로써 전처리 방향성을 잡는 데 도움이 됨

- 공분산: 상관관계의 방향(부호)를 알려주는 것. 값이 크다고 해서 더 큰 상관을 갖는 것은 아니다

엑셀로 수행하는 데이터 탐색

- 대표값으로 데이터 탐색: 통계량을 측정하고 그를 통해 집단의 특성을 파악함. 기술통계(Descriptive Statistics).

- 기술통계: 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색하는 것. 관측된 데이터의 특성을 파악하는 좋은 수단

- 추론통계: 추출한 표본의 통계량 관찰 및 분석기법을 활용해 모집단을 추론하는 것. p-value등을 활용해 신뢰도를 확보함.

- 차트로 데이터 탐색: 분포를 확인할 땐 분포의 중심(평균, 중위값, 최빈값 등), 퍼짐 정도(분산, 표준편차, 사분위수), 비대칭성(왜도 및 첨도)을 함께 확인해야 함

- 데이터 탐색 과정의 목적: 어떤 변수가 결론에 얼마나 영향을 미치는지 파악하기 위함

- 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르다(ex, 정규성 검정으로 정규분포를 따르는지 판단 -> t-검정으로 결론도출 )

기초 통계

- 변량: 자료의 수치(데이터의 값), 계급: 변량을 일정 간격으로 나눈 구간

- 도수분포표: 주어진 자료를 계급에 따라 나누는 것, 히스토그램: 도수분포표를 시각화해 보는 기본적인 방법

- 평균: 변량의 합을 변량의 수로 나눈 값

- 분산: 변량이 중심(평균)에서 얼마나 떨어져있는지 보기 위한 값

- 편차(deviation): 변량에서 평균을 뺀 값. +-0. 분산은 편차 제곱 합들의 '평균'임

-표준편차: 분산의 제곱근. 관찰값들이 얼마나 흩어져있는지 보기 위한 값

- 편차의 산술평균과 비슷한 의미를 가지며, 관측된 변량의 스케일을 표준화 할 수 있는 수단임

일어나지 않은 사건에 대한 가능성을 함수로 나타내보고자 할 때, 확률변수와 확률분포를 활용

- 확률변수: 일정 확률을 갖고 일어나는 사건에 수치(확률값)가 부여된 변수

- 확률분포: 확률변수에서 정의된 사건에 대한 확률의 분포 함수

- 확률분포표: 확률변수의 값에 대한 확률을 표로 표시한 것. 이산형 자료의 확률분포 표현에 적합

- 확률밀도함수: 확률변수의 분포를 나타내는 함수. 연속형 자료의 확률분포 표현에 적합(구간의 밀도를 보고자 함)

정규분포: 평균 μ와 표준편차 σ에 대해 다음 확률밀도함수를 가지는 분포.

- 많은 분야의 연속형 데이터들이 종모양 형태를 띰 -> 실험오차 분석 -> 서로 다른 다양한 상황에서 비슷한 분포가 나타남 확인

- 중심극한정리: 독립적인 확률변수들의 평균은 정규분포에 가까워진다는 것을 수학적으로 증명, 정리한 것.

- 표준정규분포: 정규분포 중 평균이 0, 표준편차가 1인 정규분포.

- 표준화: 다양한 형태의 정규분포를 표준정규분포로 변환하는 것. 다양한 데이터를 같은 기준으로 비교할 수 있게 함

- 표준정규분포에 대한 값(Z-score)으로 원 분포의 확률을 구할 수 있음

- 모집단: 조사 대상이 되는 전체 집합, 모수: 모집단에 대한 요약수치.

- 표본: 모집단을 대표하는 모집단의 일부, 통계량: 표본에 대한 수치적 요약. 이를 바탕으로 모수를 추정하는 게 추론통계

- 모평균(μ)과 모분산(σ²)은 n으로 나누나 표본평균(Xbar)과 표본분산(s²)은 n-1로 나눔

- 표본의 크기가 커질수록 통계량이 모수와 가까워지는 경향이 있음

- 신뢰도: 값이 알맞은 모평균이라 믿을 수 있는 정도. 주로 95%, 99%사용. 신뢰구간: 모평균의 추정구간. 신뢰도와 표본 수에 따라 정해짐

기술통계

- 기술통계: 데이터의 간결한 요약정보. 수치적 통계량이나 시각화로 데이터의 특징을 파악함. EDA에서 주로 활용

- 추론통계: 표본집단의 데이터로 모집단에 대해 추론하는 것. p-value 등을 활용하여 모집단에 대한 가설을 검정함

- 대표값: 자료의 특성을 나타내는 대표성을 띠는 수치. 기초통계량: 중심 경향성, 퍼짐 정도, 왜도와 첨도

- 중심 경향성(Central Tendency): 최빈값(Mode), 중앙값(Median), 평균값((Arithmetic / Weighted / Geometric) Mean)

- 특징은 순서대로 범주형 자료에서 주로 사용, 이상치에 강건함, 이상치에 취약함 / 자료 중요도에 따라 가중치 부여 / 이전 시점에 대한 비율

- 퍼짐 정도: 분산(Variance), 표준편차(STandard Deviation), 범위(range), IQR(Inter Quartile Range)

- 특징은 순서대로 편차 제곱의 평균, 분산의 제곱근, 최대값-최소값, 제3사분위수-제1사분위수로 치우친 분포의 퍼짐 정도 확인에 사용

- 왜도와 첨도: 왜도(Skewness)는 분포가 정규분포에 비해 얼마나 비대칭적인지 나타내는 지표, 첨도(Kurtosis)는 평균을 중심으로 데이터가 얼마나 몰려있는지 나타내는 지표

- 왜도 특징: 1) 0이면 좌우대칭, 양수면 왼쪽 편향(오른쪽으로 꼬리 김), 음수면 오른쪽 편향(왼쪽으로 꼬리 김) 2) 절대값 3 이하라면 정규분포와 비슷하다 봄

- 첨도 특징: 1) 이상치에 영향을 많이 받음 2) 양수면 (정규분포보다) 중심에 데이터 더 많고 음수면 중심에 데이터 더 적음 3) 절대값 8 이하라면 정규분포와 비슷하다 봄

회귀분석, 공분산, 상관계수

- 회귀분석: 변수 사이 관계식의 적합도를 측정해내는 분석 방법. 선형회귀가 대표적. 인과관계를 설명하지는 못함

- 공분산: 2개 확률변수의 선형관계를 나타냄. 0이라면 상관관계가 없고, 마이너스라면 음, 플러스라면 양의 상관관계

- 상관관계가 없다는 것과 두 변수가 독립이라는 것은 다르다. 두 변수가 독립변수일 때 공분산이 0이긴 하지만, 공분산이 0이라고 해서 두 변수가 독립이라는 것을 보장하진 못한다

- 상관계수: 공분산의 표준화. 주로 피어슨 상관계수 사용. 상황에 따라 기준이 다르긴 하나, 절대값 0.5이상인 경우 강한 상관관계를 갖는다보고 절대값 0.2이하인 경우 약한 상관관계를 갖는다 봄.

- 상관계수가 0이라고 해서 상관관계가 없다는 게 아니다: 선형이 아닐 뿐! 두 변수가 곡선의 관계일 땐 상관분석으로 설명할 수 없기 때문.

'STUDY' 카테고리의 다른 글

패스트캠퍼스 데이터분석 부트캠프 학습일지3 (4)	2023.03.10
취준로그 ver0.7 (1)	2023.03.03
취준로그 ver0.6 (0)	2023.02.27
패스트캠퍼스 데이터분석 부트캠프 학습일지1 (0)	2023.02.24
취준로그 ver0.5 (0)	2023.02.16

메타몽이되고싶어

패스트캠퍼스 데이터분석 부트캠프 학습일지2

'STUDY' 카테고리의 다른 글

티스토리툴바

패스트캠퍼스 데이터분석 부트캠프 학습일지2

'STUDY' 카테고리의 다른 글

'STUDY' Related Articles

티스토리툴바