2주차: 기초 통계
통계학: 산술적 방법을 기초로 다량의 데이터를 관찰, 정리, 분석하는 방법을 연구하는 수학의 한 분야.
- 부분으로 전체(혹은 다른 부분)을 추론하여 경향 파악 및 미래예측, 시각화 등에 도움을 줌
- OKR, KPI등 지표를 통한 방법론에서 적절한 지표를 선정하는 방법과 기준이 되어줌
- Growth Marketing(Performance Marketing)에 도움이 됨: 비즈니스의 근거로 사용되는 '데이터' 수치를 해석하고 올바른 인과관계를 분석하여 인사이트를 도출할 수 있도록 함
데이터 분석 과정: 데이터 분석 기획 -> 데이터 수집 및 정제 -> 데이터 분석 모델링 -> 평가 및 결론 도출 -> 분석 결과 활용
- 비즈니스 이해 및 목표 설정, 프로젝트 정의 -> 데이터 수집 계획, 전처리 및 검증 -> 탐색적 데이터 분석(EDA) 및 모델링 -> 결론 도출, 성능 평가 -> 서비스에 비즈니스 인사이트 및 시스템 구현
- EDA: Exploratory Data Analysis. 기초 통계 개념으로 데이터를 파악하는 것. 데이터 형질에 대해 이해함으로써 전처리 방향성을 잡는 데 도움이 됨
- 공분산: 상관관계의 방향(부호)를 알려주는 것. 값이 크다고 해서 더 큰 상관을 갖는 것은 아니다
엑셀로 수행하는 데이터 탐색
- 대표값으로 데이터 탐색: 통계량을 측정하고 그를 통해 집단의 특성을 파악함. 기술통계(Descriptive Statistics).
- 기술통계: 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색하는 것. 관측된 데이터의 특성을 파악하는 좋은 수단
- 추론통계: 추출한 표본의 통계량 관찰 및 분석기법을 활용해 모집단을 추론하는 것. p-value등을 활용해 신뢰도를 확보함.
- 차트로 데이터 탐색: 분포를 확인할 땐 분포의 중심(평균, 중위값, 최빈값 등), 퍼짐 정도(분산, 표준편차, 사분위수), 비대칭성(왜도 및 첨도)을 함께 확인해야 함
- 데이터 탐색 과정의 목적: 어떤 변수가 결론에 얼마나 영향을 미치는지 파악하기 위함
- 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르다(ex, 정규성 검정으로 정규분포를 따르는지 판단 -> t-검정으로 결론도출 )
기초 통계
- 변량: 자료의 수치(데이터의 값), 계급: 변량을 일정 간격으로 나눈 구간
- 도수분포표: 주어진 자료를 계급에 따라 나누는 것, 히스토그램: 도수분포표를 시각화해 보는 기본적인 방법
- 평균: 변량의 합을 변량의 수로 나눈 값
- 분산: 변량이 중심(평균)에서 얼마나 떨어져있는지 보기 위한 값
- 편차(deviation): 변량에서 평균을 뺀 값. +-0. 분산은 편차 제곱 합들의 '평균'임
-표준편차: 분산의 제곱근. 관찰값들이 얼마나 흩어져있는지 보기 위한 값
- 편차의 산술평균과 비슷한 의미를 가지며, 관측된 변량의 스케일을 표준화 할 수 있는 수단임
일어나지 않은 사건에 대한 가능성을 함수로 나타내보고자 할 때, 확률변수와 확률분포를 활용
- 확률변수: 일정 확률을 갖고 일어나는 사건에 수치(확률값)가 부여된 변수
- 확률분포: 확률변수에서 정의된 사건에 대한 확률의 분포 함수
- 확률분포표: 확률변수의 값에 대한 확률을 표로 표시한 것. 이산형 자료의 확률분포 표현에 적합
- 확률밀도함수: 확률변수의 분포를 나타내는 함수. 연속형 자료의 확률분포 표현에 적합(구간의 밀도를 보고자 함)
정규분포: 평균 μ와 표준편차 σ에 대해 다음 확률밀도함수를 가지는 분포.
- 많은 분야의 연속형 데이터들이 종모양 형태를 띰 -> 실험오차 분석 -> 서로 다른 다양한 상황에서 비슷한 분포가 나타남 확인
- 중심극한정리: 독립적인 확률변수들의 평균은 정규분포에 가까워진다는 것을 수학적으로 증명, 정리한 것.
- 표준정규분포: 정규분포 중 평균이 0, 표준편차가 1인 정규분포.
- 표준화: 다양한 형태의 정규분포를 표준정규분포로 변환하는 것. 다양한 데이터를 같은 기준으로 비교할 수 있게 함
- 표준정규분포에 대한 값(Z-score)으로 원 분포의 확률을 구할 수 있음
- 모집단: 조사 대상이 되는 전체 집합, 모수: 모집단에 대한 요약수치.
- 표본: 모집단을 대표하는 모집단의 일부, 통계량: 표본에 대한 수치적 요약. 이를 바탕으로 모수를 추정하는 게 추론통계
- 모평균(μ)과 모분산(σ²)은 n으로 나누나 표본평균(Xbar)과 표본분산(s²)은 n-1로 나눔
- 표본의 크기가 커질수록 통계량이 모수와 가까워지는 경향이 있음
- 신뢰도: 값이 알맞은 모평균이라 믿을 수 있는 정도. 주로 95%, 99%사용. 신뢰구간: 모평균의 추정구간. 신뢰도와 표본 수에 따라 정해짐
기술통계
- 기술통계: 데이터의 간결한 요약정보. 수치적 통계량이나 시각화로 데이터의 특징을 파악함. EDA에서 주로 활용
- 추론통계: 표본집단의 데이터로 모집단에 대해 추론하는 것. p-value 등을 활용하여 모집단에 대한 가설을 검정함
- 대표값: 자료의 특성을 나타내는 대표성을 띠는 수치. 기초통계량: 중심 경향성, 퍼짐 정도, 왜도와 첨도
- 중심 경향성(Central Tendency): 최빈값(Mode), 중앙값(Median), 평균값((Arithmetic / Weighted / Geometric) Mean)
- 특징은 순서대로 범주형 자료에서 주로 사용, 이상치에 강건함, 이상치에 취약함 / 자료 중요도에 따라 가중치 부여 / 이전 시점에 대한 비율
- 퍼짐 정도: 분산(Variance), 표준편차(STandard Deviation), 범위(range), IQR(Inter Quartile Range)
- 특징은 순서대로 편차 제곱의 평균, 분산의 제곱근, 최대값-최소값, 제3사분위수-제1사분위수로 치우친 분포의 퍼짐 정도 확인에 사용
- 왜도와 첨도: 왜도(Skewness)는 분포가 정규분포에 비해 얼마나 비대칭적인지 나타내는 지표, 첨도(Kurtosis)는 평균을 중심으로 데이터가 얼마나 몰려있는지 나타내는 지표
- 왜도 특징: 1) 0이면 좌우대칭, 양수면 왼쪽 편향(오른쪽으로 꼬리 김), 음수면 오른쪽 편향(왼쪽으로 꼬리 김) 2) 절대값 3 이하라면 정규분포와 비슷하다 봄
- 첨도 특징: 1) 이상치에 영향을 많이 받음 2) 양수면 (정규분포보다) 중심에 데이터 더 많고 음수면 중심에 데이터 더 적음 3) 절대값 8 이하라면 정규분포와 비슷하다 봄
회귀분석, 공분산, 상관계수
- 회귀분석: 변수 사이 관계식의 적합도를 측정해내는 분석 방법. 선형회귀가 대표적. 인과관계를 설명하지는 못함
- 공분산: 2개 확률변수의 선형관계를 나타냄. 0이라면 상관관계가 없고, 마이너스라면 음, 플러스라면 양의 상관관계
- 상관관계가 없다는 것과 두 변수가 독립이라는 것은 다르다. 두 변수가 독립변수일 때 공분산이 0이긴 하지만, 공분산이 0이라고 해서 두 변수가 독립이라는 것을 보장하진 못한다
- 상관계수: 공분산의 표준화. 주로 피어슨 상관계수 사용. 상황에 따라 기준이 다르긴 하나, 절대값 0.5이상인 경우 강한 상관관계를 갖는다보고 절대값 0.2이하인 경우 약한 상관관계를 갖는다 봄.
- 상관계수가 0이라고 해서 상관관계가 없다는 게 아니다: 선형이 아닐 뿐! 두 변수가 곡선의 관계일 땐 상관분석으로 설명할 수 없기 때문.
'STUDY' 카테고리의 다른 글
패스트캠퍼스 데이터분석 부트캠프 학습일지3 (4) | 2023.03.10 |
---|---|
취준로그 ver0.7 (1) | 2023.03.03 |
취준로그 ver0.6 (0) | 2023.02.27 |
패스트캠퍼스 데이터분석 부트캠프 학습일지1 (0) | 2023.02.24 |
취준로그 ver0.5 (0) | 2023.02.16 |