"절망적인 미래를 그냥 기다리자는 건, 인간으로 태어났는데 너무 아까운 얘기에요. 인간은 더 많은 걸 할 수 있는 존재니까, 진짜 절망적인 날이 닥쳐도 이것저것 해보다가 멸망을 맞이하는 게 더 의미있지 않을까. 할 수 있는 걸 다 해본 뒤에 망해버리자, 그런 마음도 있는 거에요." - https://maily.so/draft.briefing/posts/028bae0b
1. 코세라 <Understanding and Visualizing Data with Python>(미시간대학교 강의):
https://www.coursera.org/learn/understanding-visualization-data
1주차
- Statistics: 데이터로부터 배우는 방법론. 특징으로는 art of summarizing data(데이터셋을 관찰자가 이해할 수 있도록 효과적으로 요약), science of unceratinty(불확실한 현실을 측정), science of decisions(의사결정 과정을 도움), science of variation(변주를 동반), art of forecasting(미래에 대해 상당히 정확히 예측), science of measurement(측정과 평가에 도움), basis for principled data collection(합리적인 통계 제공):: 연구, 산업 분야에서 특히 중요한 역할을 하고 있음
- 데이터는 어떤 것도 될 수 있음: 숫자, 이미지, 단어, 오디오 등.
- 데이터는 크게 1)Organic/Process Data와 2)Designed Data로 나뉨. 1은 시간이 지남에 따라 생겨나는, 유기적인 다양한 데이터들로, 데이터 과학자들의 수집대상인 "빅데이터" 또한 이에 해당. 2는 자연적이고 유기적인 데이터가 아닌, 특정 연구(실험)를 통해 수집하는 데이터를 말함.
- 데이터를 수집할 때에는 데이터가 i.i.d한지(Independent(독립적), Identically distributed(분산이 같음))를 확인해야 하는데, 이 경우 정규성 가정이 가능하기 때문.
- 변수는 양적(Quantitative) 변수와 범주형(Categorical/Qualitative) 변수로 나뉨. 양적 변수는 산술 작업이 의미가 있는 수치일 때 해당하며, 연속형(ex, 키)과 이산형(ex, 가족 수)으로 나뉨. 범주형 변수는 서수형(순위O)과 명목형(순위X)으로 나뉨.
- 반증 가능한 가설을 시험해 보는 것을 "과학적 방법"이라 한다. 대상이 되는 데이터는 관찰데이터(Observational, 자연스럽게 생성)와 실험데이터(Experimental, 조작을통해 생성)이다. 특정 연구가 의미있는 결과를 낼 가능성을 평가하는 것을 "전력 분석"이라 한다.
- 라이브러리: 사용자 고유의 알고리즘을 작성하지 않고도 특정 프로그래밍 작업을 완료하기위해 액세스 할 수 있는 함수들의 집합.
2. (개인)프로젝트
- 변수 간 상관관계가 양수다 == 두 변수가 승리나 패배에 기여하는 방향이 같다, 변수 간 상관관계가 음수다 == 두 변수가 승리나 패배에 기여하는 방향이 다르다.
- 절대값 0.4 이상의 상관관계에 한정해 보았을 때, 대부분은 쉽게 유추가 가능했으나(`nexus Lost`와 `objectives.inhibitor.kills`가 그 예시) `objectives.inhibitor.first_True`와 타 변수들의 상관관계가 흥미로웠다. `nexusLost`, `turretsLost`, `objectives.inhibitor.kills`, `objectives.tower.kills`그리고 아쉽게 0.4가 안되는 `turretTakedowns`까지.
- 억제기를 처음 깨는 것은 넥서스가 깨지는(=지는) 것과 음의 상관, 깨진 포탑방패의 수와 음의 상관, 깬 억제기의 수와 양의 상관, 깬 타워의 수와 양의 상관을 가진다.
- 억제기를 처음 깬다는 것은 '게임의 주도권을 쥐고 있다'일 수도, '스플릿 운영을 성공했다'일 수도 있다. 억제기를 처음 깬 것과 제일 강한 상관관계를 보이는 깬 억제기의 수는 어떤 변수보다 승리와 직결되는 변수라 볼 수 있어, 나는 이를 (천상계 게임에서)"주도권이 첫 억제기 파괴로 이어질 경우, 다른 억제기까지 부술 가능성이 높다(=승리할 가능성이 높다)"라는 명제를 제시하고 싶다.
- 색이 진한 변수들 중 또 눈에 띄는 것이, `turretsLost`와 `objectives.inhibitor.kills`이다. 포탑방패 채굴은 초반의 게임이 어떻게 흐르는지를 알려준다. 깨진 포탑방패의 수(진 팀에서 많음)와 부순 억제기의 수(이긴 팀에서 많음)가 음의 (다소 강한)상관관계를 보인다는 것은, 게임 초반의 흐름이 게임 후반까지 이어지는 경우가 많다는 뜻이다. 대부분의 유저가 속해있는 '아브실골플' 티어에서는 역전극이 수도없이 일어난다. 그러나 천상계 티어에서는 드라마틱한 역전극이 잘 일어나지 않는다는 뜻이겠다.
- 이제 모델을 돌리고 싶었다. 그래서 데이터에 train_test_split을 써 쌩으로 로지스틱 회귀를 돌렸는데, socre가 1이더라. ㅎㅎㅎ...
- TOTAL NO. of ITERATIONS REACHED LIMIT. / Increase the number of iterations(max_iter) or scale the data 라는 오류가 떴다.
- 일단 1)scaler를 사용했는데, 여전히 1.0 혹은 0.9999같은 값이 나와서 2)정규화를 시도했다. 근데 이걸 어떻게 활용하는지에 대한 지식이 없어(??) 써먹지 못함.. 3)GridSearchCV로 최적의 하이퍼파라미터는 찾았다만... 그래서 과적합은 어떻게 푸는데?
3. 공부했던 알고리즘들 개념위주 정리
http://www.yes24.com/Product/Goods/96402750 교재의 CH6 내용을 담고 있습니다.
재현식: Recurrence Equations. 재귀 및 초기값으로 일련의 값을 정의하는 식.
- 지능적 추측 (1)재현식의 몇 개의 초기값 계산 -> (2)일반성 탐색 -> (3)일반적인 형식 추측 -> (4)수학적 귀납법으로 증명
- 동질 1차 재현식: 수열 {t_n}에 대해 t_n+2 = t_n+1 + t_n같은, 형태를 일반화시킨 재현식. 재현식의 선형조합이 0인 게(f(n)=0) 특징.
- 비동질 1차 재현식: 재현식의 선형조합이 0과 같지 않을 때, 재현식의 선형조합 값이 지수 항으로 증가하는 기하함수를 가짐.
- 변수 변경: 재현식을 해결하는 방법 중 하나. 도메인 변환으로 재귀 관계 인수인 변수를 변경하는 것.
- 치환: 재현식의 해를 구하는 방법. 반복 방법, 역 치환, 반복 치환으로도 알려져 있음. 귀납의 반대 개념(n에서 시작해 역으로 치환 진행)
뭔가.. 수학식이 엄청나게 많아서... 간략한 개념만 겨우겨우 이해했습니다. 역시 쉽지않네요...!
4. PO가 하는 일:
(IT쪽 지식이라고 하기도, DA지식이라고 하기도, 마케팅 지식이라고 하기도 뭐한데... 일단 알아놓으면 좋을 것 같아 긁어왔습니다.)
PO(Product Owner): 제품을 담당하며 관련된 의사결정을 내리는 사람.
PM(Product Manager): 전략에 맞게 프로젝트를 진행하는 사람.
PL(Product Leader): 프로젝트가 잘 수행되도록 리딩하는 사람.
- PO가 가져야 할 필수역량: 담당 서비스와 유저에 대한 이해, 집요함, 커뮤니케이션 능력,
- PO는 1)전략 수립 2)로드맵 설계 3)프로젝트 진행 4)성과분석 5)성과공유 6)추가분석/인사이트 도출 7)전략/로드맵 업데이트
5. (제이림)프로젝트 진척상황 공유
- 건네받은 수많은 데이터 중 맨 처음 쓰던 데이터와 같은 형태로 어느정도 df를 가공했다. 무언가 "의미 있을 만한" 인사이트를 도출하기 위해서는 추가적인 데이터가 필요하겠지만, 일단 개략적인 현황을 보는 데에는 큰 무리가 없을 것 같다.
- 은행 서비스의 로그데이터를 통해 알 수 있는 제일 "의미 있는"데이터가 무엇일까, 에 대해 우리가 내린 답은 여신이었다. (처음에는 지역 상품권에 초점을 맞췄었으나, 데이터가 매우 한정적이고 은행 데이터로는 알 수 없는 부분이 많아 패스).
- 그래서 스키마파일을 반복해서 보며 여러 df를 만들었다. 뭔가 많이 하려 하긴 했는데, 막상 "성과"랄 게 나오진 않은 듯.
- OS에 따른 평균 체류시간, 유입경로(직접/내부참조/외부검색) 조사, URL관련 상세코드분석: 일단 여기서 뭘 더 해야 하지..? 어떻게 해야하지? 모르겠다. 시간만 낭비하고 있는 것 같음..
- 같이 하는 플젝원과 카톡으로 상의하다, 문득 시드값을 구분자로 쓸 수도 있을 것 같다는 생각이 듦(대부분의 df에는 시드값이 있으며, 1부터 14000정도 까지의 숫자가 부여되어 있음)(아니 이걸 왜 여태 몰랐지..?). 혹시나 하는 마음에 만들어놓았던 df와 주 분석파일을 SID값을 기준으로 병합한 결과 가정이 맞을 수도 있다는 결론에 다다름. 좀 짜릿하다...! 하루종일 매달린 보람이 있네.
6-1. 영화 마케팅:
사전 경험 콘텐츠 제공(ARS, 참여형 인터랙티브 콘텐츠), 팬덤 마케팅 활용 (디시인사이드 마이너갤러리, 싱어롱/댄서롱같은 이벤트성 상영회, 팬클럽 직접 만들기), 바이럴 생성 (영화 속 콘텐츠 커버 이벤트, 관련 키워드/검색어/셀럽 활용 콘텐츠, 색다른 오프라인 마케팅)
- 전체 아티클을 읽으면서, 무언가를 좋아한다는 게 얼마나 가슴설레는 일인지 새삼 깨달았다. 애정을 쏟을 것이 있는 사람들이 행복한 이유는 이 때문일까. 내가 콘텐츠 관련 기업에 일하고 싶은 이유도 어쩌면 이와 비슷하다. 나 또한 즐겁게 일할 수 있을 것 같은 느낌이 들기 때문.
6-2. 마케팅에서의 카니발리제이션(자기잠식):
기업의 신제품이 기존 제품의 매출을 떨어뜨리는 현상. 기피대상이었으나 최근에는 "혁신"으로 보는 움직임 대두
- 코카콜라 제로, LG 스탠바이미, 룸앤TV
- 팀 쿡 "우리 제품이 가진 시장을 우리가 잠식하지 못하면 다른 경쟁업체가 가져가 버린다"
6-3. 샘플링의 유행:
https://www.kocca.kr/n_content/vol26/subp/issue_hotTrend1.html
샘플링: 원곡의 특정 부분만 추려 새로운 곡에 덧붙이는 것. (빅뱅의 붉은노을, NCT의 캔디 등은 리메이크)
- 대중에게 쉽게 접근 가능하나 그만한 후속작을 만들기 어렵다는 단점
- 노래 제작 방식의 변화로 샘플링이 도입되는 경우가 많아짐(악기에 멜로디 덧붙임 -> PC에서 오려 조립)
- 법적인 명확한 가이드라인이 없음
- 패션과 마찬가지로 대중음악계의 유행 또한 돌고 돈다. 20년 전 쯤 샘플링 유행이 현재 다시 돌고 있는 것으로 보임.
'STUDY' 카테고리의 다른 글
취준로그 ver0.5 (0) | 2023.02.16 |
---|---|
취준로그 ver0.4 (0) | 2023.02.07 |
취준로그 ver0.2 (3) | 2023.01.26 |
취준로그 ver0.1 (0) | 2023.01.17 |
파이썬 스터디 ver3. 17주차 (2) | 2022.11.23 |