1주차: 엑셀
데이터분석: 의사결정을 지원하는 것을 목표로 의사결정을 과학적으로 만들고 비즈니스를 효율적으로 운영할 수 있도록 도와줌.
- 문제는 현실과 이상의 차이: 이를 어떻게 좁힐 수 있느냐에 대해 참조할 수 있는 건 과거의 데이터 뿐. 현실 상황을 반영해 문제 발생 원인을 파악하고 데이터 분석기법으로 인사이트 도출, 해결방안을 발굴할 수 있도록 함
- 모든 건 문제를 해결하고 현재를 개선시킬 수 있는 '인사이트'도출을 위한 것: 인사이트는 Long-term Lesson(장기적 교훈)
- 과정: 데이터 수집 -> 데이터 전처리 -> 데이터 모델링 -> 검증 및 평가 -> 데이터 시각화: Garbage In, Garbage Out임을 명시하기
- Data Science: 데이터분석 프로세스를 체계화 해 학문으로 발전시킨 것. 다학제 융합의 '융합 학문'(Computer Science/IT + Math/Statistics + Domains/Business Knowledge)
ERP(전사적 자원관리 시스템)에서 데이터를 받았을 때 그 형식이 '엑셀'인 경우가 많음
- 엑셀 특징: Easy to Use, Fast Processing, Accessible Anywhere
- 엑셀을 잘한다는 것은 사용자의 입장에서 목적에 부합하도록 자료를 구성하는 것.
EXCEL 기초
- 데이터 종류: 값(텍스트, 숫자), 수식(계산식, 함수), 서식(글꼴, 셀): 텍스트는 왼쪽 정렬, 숫자는 오른쪽 정렬
- 엑셀의 모든 셀에는 서식이 적용되어 있으며 Ctrl+C, Ctrl+V는 값/수식/서식 전체를 복사붙여넣기 한다
- 함수 사용 상황에따라 각각의 참조를 적절히 사용해야 한다: 기본은 상대참조이나 $를 활용하는 절대/혼합참조도 있다
- 빠른실행도구모음: 자주 사용하는 기능을 등록해 빠르고 편하게 사용할 수 있도록 함. Alt+1, 2, 3.. 등으로 사용
- 가운데 정렬을 하고 싶을 땐 Ctrl+1(셀 서식)의 텍스트 맞춤을 사용할 것. '병합하고 가운데 맞춤'을 쓰면 엑셀의 장점이 사라짐
탐색적 데이터 분석Exploratory Data Analysis: 주어진 자료만으로 충분한 정보를 찾도록하는 분석방법
- 엑셀에서는 '데이터 분석 도구'와 '피벗테이블'(데이터 요약 통계표)로 EDA가능
- 기초통계량 계산: SUM, MEDIAN, MAX, MIN, AVERAGE, MODE(최빈값), VAR(분산), STDEV(표준편차)
- +)결측치는 plotting/계산 시 가장 작은 수로 계산되거나(R, 파이썬) 아예 제외되거나(엑셀에서 빈칸) 포함될 수도(엑셀에서 N/A인 경우) 있음
데이터 전처리: 데이터 분석 목적과 방법에 맞게 가공, 처리하는 과정. 데이터 분석 전체 과정 중 가장 많은 시간과 비용 필요
- IF함수로 사용(파이썬의 bool인덱싱?): 1번 사용 시 데이터 2개로 구분, 2번 중첩 사용 시 3개로 구분하는 식:: 데이터를 분류할 때 사용함
- 함수 사용 시 상대참조를 사용해도 되는지 절대참조나 혼합참조를 사용해야 하는 건지 꼭 확인해야 함
- VLOOKUP함수: 공통 기준 열을 기준으로 n번째에 있는 데이터를 찾는 것. Vertical(수직(열)) + LOOKUP(찾다). 사용 조건 1)작성 중인 표와 원 데이터 간의 공통 기준 열 필요 2)찾고자 하는 데이터가 원 데이터의 공통 기준 열 오른쪽에 있어야 3)공통 기준 열에 중복 데이터가 없어야:: 원 데이터의 공통 기준열을 1열이라 생각하고 n번째 열의 데이터를 가져옴. 기준 열에 중복 값이 있는 경우 가장 위의 데이터(먼저 나타나는 데이터)만 불러오게 됨
- MATCH함수: 찾고싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려주는 것(인덱스 번호 알려주는 느낌?). VLOOKUP은 기준 열 오른쪽만 인덱싱이 가능하나 MATCH는 그런 게 없음
- INDEX함수: 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러오는 것. INDEX의 인수로 MATCH가 들어감
- 날짜 데이터: 2020-02-02같은 식으로 날짜를 입력하면 서식이 자동으로 날짜가 됨!, 날짜 계산 가능, DAYS/DATEDIF로 기간 계산도 가능. 모든 기간 계산에는 종료일이 포함되어 있지 않으므로 종료일을 포함하고 싶다면 +1을 해주어야 함, YEAR/MONTH/DAY로 날짜의 연도/월/일만 사용할 수도 있음
- FIND함수: 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력. 띄어쓰기 포함, 대소문자 구분.
- SEARCH함수: FIND와 비슷하나 대소문자 구분.
- LEFT/RIGHT/MID함수: 텍스트 왼쪽/오른쪽/중간부터 원하는 문자열까지 추출. FIND/SEARCH와 함께 사용됨
- 텍스트 나누기: 1개 셀의 데이터를 2개 이상의 셀에 나누는 것.
- 중복 항목 제거: 특정 열의 중복 데이터를 1개씩만 남기고 제거. 기준 컬럼을 설정하면 컬럼값 기준으로 중복 확인(drop_duplicates?)
데이터 분석기법 활용
상관분석: 두 (양적)변수 간 어떤 선형적/비선형적 관계가 있는지 분석하는 것.
- 상관관계: 한 쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향이 있는 두 양적 변수 사이의 통계적 관계.
- 상관계수: 두 변수 사이의 상관성. 일반적으로 피어슨 상관계수 사용(r: X와 Y가 함께 변하는 정도 / 각각 변하는 정도). -1과 1 사이의 값을 가지며, 절대값 0.7이상인 경우 강한 상관관계가 있다고 봄(절대값 0.4이하는 상관관계가 없다고 봄)
- Correlation does not imply Casuation
분산분석: 두 개 이상 집단을 비교해 평균 차이가 있는지 검정하는 것. 이를 위해선 먼저 F검정을 해야 함
- 집단 개수에 따라 방법이 달라짐. 2개일 땐 T-test, 3개 이상일 땐 ANOVA
- F검정: 두 집단의 등분산성을 검정하는 것. 이 결과를 통해 각 상황에 맞는 t-test방법을 선정하게 됨. 귀무가설이 '두 집단의 분산이 같다'이므로 P-value에 따라 등분산(0.05 초과)(귀무가설 채택), 이분산(0.05이하)(귀무가설 기각)을 나눔
-등분산일 땐 Student's t-test, 이분산일 땐 Welch's t-test. 귀무가설이 '두 집단의 평균이 같다'이므로 t-test 결과 P-value가 0.05보다 크면 두 집단의 평균이 같고(=귀무가설 채택), 0.05보다 작으면 두 집단의 평균이 다르다(=귀무가설 기각)
회귀분석: 두 개 이상의 연속형 변수인 종속변수와 독립변수 간의 관계를 파악하는 분석. y=ax+b(y는 알고싶은 값, x는 알고있는 값). 두 변수 간 관계 파악, 미래 예측을 위해 사용. 결정계수(1에 가까울 수록 회귀모형이 실제값을 잘 설명한다 봄), F값(0.05미만일 때 모형이 유의미하다 봄)으로 모델 평가 및 해석.
- x개수에 따라 단순회귀분석과 다중회귀분석으로 나뉨.
- 최소제곱법: Least Square Estimation. 오차제곱합이 가장 적은 직선을 선택하는 것
시계열 데이터: 일정 기간에 대해 시간 함수로 표현되는 데이터. 과거 특성 파악 및 미래 예측에 사용
- 변수 개수에 따라 일변량/다변량, 데이터 유형에 따라 정상/비정상, 분석 방법에 따라 (일변량 정상)이동평균/지수평활/AR/ARMA (일변량 비정상)ARIMA/GARCH (다변량)VAR/VECM/GARCH 방법이 있음.
- 아무리 고도화된 방법을 사용한다 하더라도 예측치가 정확하지 않음: 과학적으로 계산한 추정치일 뿐이므로 실무자의 인사이트 반영 필요
- 지수평활법: 현재의 실제 값과 예측값을 합산해 미래의 예측값을 구하는 방법.
- 단순 예측치 계산: 미래 예측값 = 과거 예측값 + a(과거 실제값 - 과거 예측값). 여기서 알파는 '실제 값 반영비율'
- FORECAST.ETS함수: 지수평활법과 ETS(Error/Trend/Seasonality, 오차/추세/계절성)방법을 통해 특정 시점 미래값 예측
데이터 시각화
조건부 서식: 특정 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능
- 기본적으로 여러 설정이 구현되어 있긴 하나, '새 규칙 만들기'로 직접 서식을 만들 수도 있음
'STUDY' 카테고리의 다른 글
패스트캠퍼스 데이터분석 부트캠프 학습일지2 (0) | 2023.03.02 |
---|---|
취준로그 ver0.6 (0) | 2023.02.27 |
취준로그 ver0.5 (0) | 2023.02.16 |
취준로그 ver0.4 (0) | 2023.02.07 |
취준로그 ver0.3 (6) | 2023.02.01 |