본문 바로가기

STUDY

취준로그 ver0.4

상처같은 말을 내뱉고 예쁜말을 찾아 헤매고선 한숨 같은 것을 깊게 내뱉는 것
쓰러질듯이 침대에 누워 가만히 눈을 감고서 다 괜찮다고 되뇌이다가 그렇게 잠에 드는 것
그렇게 꿈을 꾸는 것 그렇게 살아가는 것: https://youtu.be/1Qtr8TznwNI

1-1. 코세라 <Understanding and Visualizing Data with Python>(미시간대학교 강의): 

https://www.coursera.org/learn/understanding-visualization-data

 

Understanding and Visualizing Data with Python

미시건 대학교에서 제공합니다. In this course, learners will be introduced to the field of statistics, including where data come from, study design, data ... 무료로 등록하십시오.

www.coursera.org

2주차

- 개인이나 항목을 그룹으로 분류하는 '범주형 데이터'는 (Frequency)Table, Bar charts, Pie charts로 시각화함. 빈도표는 수치 요약에 좋고, 바 차트는 시각화에 좋으나, 파이 차트는 데이터를 살펴볼 때 주의할 점이 많으므로 사용 시 유의.

- 수학적 연산이 가능하고 의미가 있는 '수치형 데이터'는 주로 Histogram, Box plot으로 시각화 함. 데이터 요약에 주로 사용되는 '다섯숫자 요약'에는 최솟값, 1사분위수, 중간값, 3사분위수, 최댓값이 있으며 이를 통해 데이터의 분포, 중심 위치, 산포, 이상치 등을 간략하게 알 수 있음.

    - 수치요약은 그래프만으로는 알기 힘든 데이터들을 알려준다

    - 분포: 형태(대칭 여부 등), 중심: 평균/중간값의 위치, 산포: 범위, IQR, 표준편차 및 분산

    - "표준편차가 n이다" = "값들이 평균으로부터 대략 (평균적으로) n만큼 떨어져 있다"

    - "박스플롯은 이상치 탐색을 돕고, 집단 간 차이(=데이터 내에서의 차이)를 숨기며, 관측치 세트 비교에 유용하다."

- 경험적 규칙: 정규분포 형태를 따르는 데이터의 경우, 평균+-1표준편차 안에 68%, 평균+-2표준편차 안에 95%, 평균+-3표준편차 안에 99.7%의 데이터가 분포되어 있다. 이는 표준점수(Standard score, Z-score)로 변환 가능('관측치-평균'/표준편차)

- 중요한 파이썬 라이브러리들로는 Numpy(다차원 array 계산 및 조작 가능), Scipy(넘파이 기반, 과학/공학적 계산 가능), Seaborn 및 Matplotlib(시각화 라이브러리들)이 있음. 

- 시각화 관련 나중에 읽어 볼 아티클: https://www.themarginalian.org/2013/10/08/best-american-infographics-david-byrne/

 

How to Be an Educated Consumer of Infographics: David Byrne on the Art-Science of Visual Storytelling

Cultivating the ability to experience the “geeky rapture” of metaphorical thinking and pattern recognition.

www.themarginalian.org

1-2. 데이터 분석가가 되면 하는 일:

https://datarian.io/blog/slide-seminar-2023-jan

 

[데이터 분석가 되면 어떤 일을 하나요?] 2023년 1월 세미나 슬라이드

2023년 1월 세미나 다시보기!

datarian.io

"데이터를 기반으로 조직의 비즈니스 의사결정을 돕는 일".

- 조직의 데이터 성숙도에 따라서도 달라질 수 있음! 채용공고 잘 살펴서 업무 내용, 필요 역량 진단하기.

 

2. 개인 프로젝트

피드백:하나씩 다 찾아봐야지. Train/Test 데이터는 적절하게 잘 나뉘어졌는지, 나뉘어졌다면 정규화에 대해 리뷰해서 정규화의 목적, 방법 등을 정리해보고 그리고 로지스틱 회귀 말고 랜덤포레스트나 LGBM이나 XGBoost를 써서 다른 알고리즘으로 예측해 보는 건 어때? 데이터분석하다가, 혹은 프로그래밍하다가 에러가 나면 에러가 나지 않은 부분부터 에러가 난 부분까지 하나하나씩 되짚어가면서 내가 한 것들이 정말 제대로 된 것이었는지 찾아가는 것이 제일 일반적인 디버깅 방법입니다. 잘 안 되면 그것부터 우선 해 봐야겠지

이번 주는 진행하지 못했습니다.

 

3. 공부했던 알고리즘들 개념위주 정리

http://www.yes24.com/Product/Goods/96402750 교재의 CH7 내용을 담고 있습니다.

 

Python으로 학습하는 컴퓨터 알고리즘 - YES24

Python으로 학습하는 컴퓨터 알고리즘

www.yes24.com

분할정복법: Divide-and-Conquer method. 복잡하고 큰 문제를 두 개 이상의 작은 문제들로 분해해 해답을 얻고, 이렇게 얻은 (작은 문제의)해답들을 통합하여 원 문제의 해답을 구하는 방법. 하향식top-dpwn접근방식.

- 설계 전략: 분할(어떤 문제를 동일 문제의 작은 사례들로 분할), 정복(더 작은 사례는 재귀로 해결), 결합(작은 사례들의 해는 원 문제의 해를 위해 결합됨)

- 문제를 작은 덩어리 여러개로 분할하여 해결하는 것이 더 쉽다고 봄: 재귀로 작은 덩어리를 가능한 한 많이 만듦

- 사용 조건 1)하위 알고리즘 사용 시기를 신중히 결정하고 2)문제를 분해하여 얻은 해답을 효율적으로 결합하고 3)작은 문제의 크기는 가능한 한 거의 동일해야 함

- 예시1: 계승 문제(n!: 음이 아닌 정수 n의 n!은 n*(n-1)!과 같음)

- 예시2: 빠른 정렬(분할정복법으로 정렬하는 재귀 알고리즘. 배열 분할 시 기준 항목(피벗pivot)보다 작은 걸 앞부분에, 크거나 같은 걸 뒷부분에 위치시킴.): 모든 작업이 분할 단계에서만 일어남(결합 단계에서는 아무것도x)

빠른 정렬. 이미지 출처: https://gmlwjd9405.github.io/2018/05/10/algorithm-quick-sort.html

- 예시3: 합병 정렬(분할정복법으로 정렬하는 재귀 알고리즘. 입력을 재귀적으로 이등분해 부분들을 별개로 정렬, 정렬 결과를 최종 출력으로 통합): 모든 작업이 결합 단계에서 일어남(분할단계에서는 아무것도x)

[5, 2, 4, 6, 1, 3, 2, 6]의 합병 정렬. 이미지 출처: https://www.crocus.co.kr/416

- 분할정복법 사용을 피해야 하는 경우 1)크기 n의 문제가 n에 가까운 크기의 두 개 이상의 문제로 분할되는 경우(시간복잡도 성능이 나쁨) 2)크기 n의 문제가 n/b크기의 거의 n개 문제로 분할되는 경우(입력 크기에 따라 시간복잡도 차수가 커짐: 성능 나쁨)

 

4-1. 휴리스틱을 활용한 서비스:

https://yozm.wishket.com/magazine/detail/1825/

 

일상 속 휴리스틱, 어떻게 서비스로 연결할까? | 요즘IT

디지털 제품이나 서비스를 만들 때, 휴리스틱을 고려하면 사용하기 쉽고 편한 제품을 만들 수 있습니다. 휴리스틱이란 사람들이 직관적인 판단을 내릴 수 있게 도와주는 의사결정의 지름길로

yozm.wishket.com

휴리스틱: 사람들이 문제의 해결책을 빨리 찾도록 도와주는 어림짐작 기술.

- 일상 속의 휴리스틱 1)가용성 휴리스틱(쉽게 떠오른 것을 더 좋게 평가) 2)대표성 휴리스틱(대표적 특징, 속성만으로 판단) 3)감정 휴리스틱(감정적 요소로 판단) 4)맥락 효과(초두효과)

- 휴리스틱을 제품(서비스)로 연결하려면 설득이 필요함: 휴리스틱 활용 서비스 예시 - 배달의 민족, 밀리의 서재

- 편향이라는 인지오류에 빠질 수 있으니 유의해야 함

4-2. 플라이휠 찾기:

https://yozm.wishket.com/magazine/detail/1826/

 

아마존처럼 내 서비스 플라이휠 찾기 | 요즘IT

아마존의 플라이휠은 아마존의 성공을 견인한 동력으로 잘 알려져 있습니다. 그러나 저는 아마존이 플라이휠이라는 개념을 직접 언급해서 가장 유명해진 것이고, 다른 많은 기업들도 알게 모르

yozm.wishket.com

플라이휠: 자동차 부품. 크고 무거운 금속 원판을 계속 돌리다 보면 특정 순간부터 속도가 빨라지고 엔진 힘을 덜 쓰게 되는 원리를 활용해 자동차가 잘 주행할 수 있도록 설계. 짐 콜린스가 기업 경영에 빗댄 말.

- 적절한 플라이휠 구축을 위해서는 측정하려는 (인풋/아웃풋)지표를 잘 선택하고 규명하고 측정해야 함

 

5. 제이림 프로젝트

- 우선 전체 파일 중 쓸 수 있을 만한 데이터들을 선별해 병합했다. 총 일곱 개의 데이터를 두 개의 df로 병합한 것. 첫번째 df에는 'SessionLog'와 'InflowConf', 'InflowLog', 'CodeConf', 'CodeLog', 이렇게 다섯 개의 데이터가 들어있으며 두번째 df에는 'RegAccessLog', 'RegURLConf' 나머지 두 개의 데이터가 들어있다. 일곱 개의 데이터를 한 눈에 다 보고 싶었지만 두 df를 병합하는 과정에서 수 차례 코랩이 터져버려.. 그냥 따로 보는 수밖에 없다는 결론을 내렸다.

    - 여기서 '쓸 수 있을 만한 데이터'라고 한 것은, '(같이 병합한 데이터와)중복되지 않고 값이 구분되며 인코딩이 잘 된' 데이터이다. 가령 세션로그 데이터에서는 몇몇 값들이 '밀린 듯'한 값을 갖는 경우가 있었다. A의 여부를 묻는 컬럼(정상이라면 0또는 1을 가져야 함)에 그 다음 컬럼값인 B에 대한 설명(오브젝트 타입의 문자열)이 적혀있는 게 예시. 중간중간 어떤 값이 널이고 무엇때문에 밀렸는지에 대해서는 데이터만 받아본 내 입장에서 알 수 없기 때문에 눈물을 머금고 드랍했다...

- 어쩌면 분석을 수행하면서 하나 혹은 두 df다 쪼개보면서 병합하게 될 수 있을지도? 이건 추후에 시도해 보아야 한다.

- 우선 첫번째 df부터 보았다. 접속로그 컬럼으로 비정상적 유저 데이터를 본 것. 일단은 '이상치'(평균+-3표준편차) 데이터만 놓고 보았는데, 다음 주 쯤에는 '평균+-2표준편차'를 보며 비교하는 게 맞을 듯 하다

    - 이상치의 시드값들과 그 고유 IP를 확인한 결과, 세 명의 유저를 확인할 수 있었다. 각 컬럼의 unique값들을 확인한 후 시드에 따라 나눠보며 나름의 인사이트를 뽑아냈..다고 생각했는데, 중간 쯤부터 엄청난 양의 시드값 앞에서 좌절하고 말았다. 이에 접속시간에 따라 나눠보는 전략을 시행했는데 확실히 이전보다 알아낼 수 있는 건 적었고, 무엇보다 같은 과정을 반복하다보니 똑같은 결론의 되풀이임을 알 수 있었다.

    - 세 유저 모두 외국인으로, 특정 대출을 신청했으며, 똑같은 구간에서 시행착오를 겪었다. 그리고 데이터 모두 이상하리만치 배수값을 가지고 있음을 알 수 있었다. 대출 과정을 130번 경험했다 한다면 본인인증 과정은 그 2배 혹은 3배만큼 겪었다는 것. 이게 과연 유효한 데이터인가?

똑같은 결론을 보기 위해서 수많은 노가다를 한 건가? 이게 맞나? 어떻게 했어야 했을까?? 대강의 값은 IP값들로 확인하고 우리끼리 상의했던 방향인 '비정상적 유저 그룹화'에 초점을 두는 게 맞지 않았을까..??? 히히 너무 슬프다.

- 규민이형이 방향을 잡아주면 뭐해 이렇게 뻘짓으로 며칠을 날려먹는데ㅠㅠ 이틀을 매달렸는데 원하던 결과를 내지 못했다. 오히려 나 자신에 대해 실망스럽다...

셀 개수 봐라. 난 무엇을 위해 이틀을 날려먹었는가.

 

6-1. AI시대의 크리에이터:

https://maily.so/draft.briefing/posts/14c786a2?from=email&mid=e8dec2 

 

📸차우진의 스냅샷 | AI 시대에 크리에이터는 뭘 하면 좋을까?

전과는 다른 역량이 요구될 것입니다

maily.so

크리에이터에게 중요한 것은 "경쟁력"과 "생존력". 앞으론 비즈니스 모델 구성 역량이 더욱 요구될 것.

- 기술 발전, 품질 상향 평준화 -> 시장 세분화, 확장

6-2. 콘텐츠의 IP화:

https://gogumafarm.kr/1%EB%85%84-%EC%9D%B4%EC%83%81-%EA%B0%80%EB%8A%94-%EC%9E%98-%EB%A7%8C%EB%93%A0-%EC%BD%98%ED%85%90%EC%B8%A0%EB%A5%BC-%EC%86%8C%EA%B0%9C%ED%95%A9%EB%8B%88%EB%8B%A4/

 

1년 이상 가는 잘 만든 콘텐츠를 소개합니다 | 고구마팜

잘 만드는 건 기본! 이젠 콘텐츠를 이어가는 게 목표!

gogumafarm.kr

포인트는 성공한 콘텐츠의 연장

- 모두의 풍속도(포맷 변경), 빙그레(세계관 확장), 마리끌레르(기존이슈와의 연계)

6-3. 알파세대 마케팅:

https://gogumafarm.kr/mz%EC%84%B8%EB%8C%80%EB%8A%94-%EA%B8%B0%EB%B3%B8-%EC%9D%B4%EC%A0%9C-%EC%95%8C%ED%8C%8C%EC%84%B8%EB%8C%80-%EB%A7%88%EC%BC%80%ED%8C%85%EB%8F%84-%EC%8B%A0%EA%B2%BD-%EC%8D%A8%EC%95%BC-%ED%95%A9%EB%8B%88/

 

MZ세대는 기본, 이제 알파세대 마케팅도 신경 써야 합니다 | 고구마팜

MZ세대 타게팅도 쉽지 않은데… ‘알파’요?

gogumafarm.kr

'태어나자마자 딸랑이 장난감과 함께 스마트폰을 아주 당연하게 쥔' 세대.

- 기획력과 문제해결력이 높음. 문해력이 좋지 않은 대신 이미지와 영상에 대한 해석력과 응용력이 좋음

- MZ를 타깃으로 하는 콘텐츠가 알파에게도 함께 노출됨: 직관적인 UI, 숏폼 콘텐츠, 접근성과 확장성, 게이미피케이션

'STUDY' 카테고리의 다른 글

패스트캠퍼스 데이터분석 부트캠프 학습일지1  (0) 2023.02.24
취준로그 ver0.5  (0) 2023.02.16
취준로그 ver0.3  (6) 2023.02.01
취준로그 ver0.2  (3) 2023.01.26
취준로그 ver0.1  (0) 2023.01.17