(1) 데이터 (2) 개인 프로젝트 (3) 알고리즘 (4) IT, CS (5) 비즈니스 (6) 콘텐츠/마케팅 의 순서입니다.
1-1. ML 알고리즘 10개: https://yozm.wishket.com/magazine/detail/1931/
1. 선형 회귀(Linear Regression): 가장 기초. 여러 데이터를 활용해 연속형 변수인 목표 변수를 예측. 지도학습으로, 회귀문제에 대해, 종속변수와 독립변수 간의 선형성이 있는 경우 사용. 주로 베이스라인 모델로 활용됨. 구현과 해석은 쉬우나 예측력이 다소 떨어질 수 있으며 이는 특히 변수 간 선형성이 약하거나 없는 경우 더욱 심함.
2. 로지스틱 회귀(Logistic Regression): 다음 기초. 선형회귀 기반이지만 이산형 변수인 목표 변수를 예측. 지도학습으로, 분류문제에 대해, 종속변수와 독립변수 간의 선형성이 있는 경우 사용. 주로 베이스라인 모델로 활용됨. 선형회귀와 마찬가지로 구현과 해석이 쉬우나 예측력이 다소 떨어질 수 있으며 특히 변수 간 선형성이 약하거나 없는 경우 더욱 심함.
3. K-최근접 이웃(K-Nearest Neighbors): 거리 기반 모델. K개의 가까운 이웃 데이터로 목표변수를 예측. 지도학습으로, 회귀/분류문제에 대해, 이상치가 적은 데이터에 사용. 주로 베이스라인 모델로 활용됨. 직관적이고 간단하며 별도의 가정이 필요하지 않으나 데이터 개수가 너무 많거나 이상치가 존재할 때 느리고 부정확해짐. 다중 분류에 유용
4. 나이브 베이즈(Naive Bayes): 조건부 확률 기반 모델. 자연어 처리를 비교적 간단하게 하는 게 목적. 지도학습으로, 분류문제에 대해, 독립변수 종류가 많은 경우 사용. 비교적 간단하고 작은 훈련 데이터로도 예측이 잘 되나, 모든 변수가 독립임을 전제로 함. 각 독립 변수들이 독립이고 그 중요도가 비슷할 때 좋으며, 수치형 변수가 많을 때엔 적합하지 않음.
5. 결정 트리(Decision Tree): 트리 기반 모델들의 기본. 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측. 지도학습으로, 회귀/분류문제에 대해, 일반적인 데이터에 사용. 시각화에 매우 뛰어나며 수많은 트리 기반 모델들의 활용을 위해 알아야 함. 데이터에 대한 가정이 없고 이상치의 영향을 덜 받으나, 트리 깊이에 따라 성능이 달라질 수 있음. 이상치가 많을 때 혹은 모델링 시각화가 필요할 때 유용
6. 랜덤 포레스트(Random Forest): 결정 트리를 발전시킨 모델. 앙상블 기법. 랜덤 추출 방식을 활용해 얻은 독립적인 트리들의 결과로 예측. 지도학습으로, 회귀/분류문제에 대해, 일반적인 데이터에 사용. 결정 트리에 비해 과적합 가능성이 낮으나, 속도가 느리고 모델 해석이 어려움.
7. XG부스트(XG Boost): 결정 트리를 발전시킨 모델. 트리 기반 최신 알고리즘으로, 빠르고 성능이 좋음. 순차적으로 트리를 만드는 것이 특징. 손실함수와 모형 복잡도도 함께 고려. 지도학습으로, 회귀/분류문제에 대해, 일반적인 데이터에 사용. 부스팅 모델 중 가장 인기가 많고 성능도 좋으나, 해석이 어렵고 하이퍼파라미터 튜닝이 까다로움.
8. 라이트GBM(LightGBM): 결정 트리를 발전시킨 모델. 리프 중심 트리 분할 방식 사용. 지도학습으로, 회귀/분류문제에 대해, 일반적인 데이터에 사용. XG부스트보다 좋은 경우가 많고 변수 중요도(feature importance)를 알 수 있으나, 해석이 어렵고 하이퍼파라미터 튜닝이 까다로움. 특히 표로 정리된 데이터에서 성능이 좋음.
9. K-평균 군집화(K-Means Clustering): 대표적인 비지도 학습 모델. 데이터를 비슷한 유형끼리 묶어냄. K-최근접이웃과 비슷하게 거리 기반으로 작동. 비지도학습. 구현이 간단하고 해석이 편하나 최적의 K값을 직접 찾아야 하며, 변수 스케일에 따라 값이 달라질 수 있음.
10. 주성분 분석(Principal Component Analysis): 차원 축소를 위한 비지도 학습 모델. 기존 변수 정보들을 모두 반영하는 새 변수를 만들어 차원 축소. 비지도학습. 시각화에 유용하고 변수 간의 상관관계 문제를 해결해주나, 변수 해석의 어려움과 정보 손실 문제가 있음.
1-2. 상관관계와 인과관계: https://yozm.wishket.com/magazine/detail/1913/
상관관계는 대칭이지만 인과관계는 비대칭이다
- 현실의 많은 일은 여러 요인이 복잡하게 얽혀 발생한다.
- 인과관계는 원인과 결과의 관계가 명확하다는 것을, 상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다. 변수 간의 상관관계만으로는 원인과 결과를 판단할 수 없는 것.
- 인과관계를 찾고자 할 때엔 자기상관성, 편향성, 외생변수의 영향 등을 고려해야 한다.
- 상관관계는 변수 간 관계와 추세를 파악할 수 있지만, 이를 통해 섣불리 결과를 도출하는 것은 위험하다. 상관관계는 인과관계가 아니며 변수에 영향을 미칠만 한 요소들을 따져보아야 한다.
1-3. SQL 쿼리테스트 준비
2. 개인 프로젝트
- 사실 이건 제 개인의 프로젝트가 아닌데... 제가 한 부분만 추려도 충분히 프로젝트 비슷한 게 나오는 것 같아 정리했습니다. 근데 역시나 비루하고... 데이터셋 특성상 많은 걸 공개하면 안되기에 "이거 했어요"에 머무르는 게 다네요. 쩝...
- 진짜 개인 프로젝트도 정리해야 하는데, 이런 식으로 정리해도 되는건가요. 잘 모르겠습니다. 어려워요ㅠㅠ
+) 피드백 받은 대로 1차 수정하였습니다.
3. 알고리즘
이번 주는 포기했습니다.(?)
4. 서버 기초: https://yozm.wishket.com/magazine/detail/1907/
서버 구성 방식: 온프레미스On-premise 서버, 클라우드 서버
- 온프레미스: 자체적으로 보유하고 관리하는 서버. 서버를 실제 운영할 물리적인 공간 필요.
- 클라우드: 클라우드로 관리하는 서버. 사용량 만큼의 돈을 지불해야 함.
서버의 종류: 웹WEB 서버, 데이터베이스DB 서버, 애플리케이션WAS 서버, 파일 서버, API 서버 등
- WEB 서버: 동적인 역할이 필요 없는, 정적 데이터들을 리턴하는 서버. 가진 데이터를 바로 보여줄 수 있는 경우 사용하며, 스스로 처리가 불가능한 경우 WAS 서버로 위임함.
- DB 서버: 회원 정보, 게시판 게시글 제목, 등의 내용(데이터)을 엑셀파일처럼 가지고 있는 서버. 요청이 있을 때 결과를 보여줌.
- WAS 서버: DB에서 데이터를 조회해오거나 다른 곳에서 조회한 내용(데이터)을 가공해 동적으로 결과를 리턴하는 서버.
- DNS 서버: 서버 주소(도메인 주소)를 IP주소로 접근할 수 있도록 변환시켜주는 서버.
5-1. UX디자인과 제너럴리스트: https://yozm.wishket.com/magazine/detail/1918/
제너럴리스트가 되려면 많은 노력이 필요하다. 그러나 성공이 보장되지는 않는다.
- 제너럴리스트는 다양한 영역의 전문 지식을 필요로 하며 이는 (직업)업무에서 요구되는 기본적인 지식과 다르다
- 전문성을 기르기 위한 노력은 주도적이어야 한다. 직무가 같다고 업무 범위 또한 같을 순 없듯이.
- 대부분의 공고는 스페셜리스트를 필요로 한다. 제너럴리스트가 되는 것은 장기적으로 도움이 되기 힘들기에 전문성을 갖춰야 한다.
- 프리젠테이션과 스토리텔링은 정말 중요하며, 일반화가 아닌 다양화가 필요하다: 주니어들은 다양한 유형의 프로젝트를 수행하는 것이 좋다.
- 미래를 상상하고 구체화하여 시각화하라. 달성 가능한 것을 쫓아야 한다.
> UX디자인 분야에 국한된 글인지, 대부분의 산업군에 해당되는 글인지는 잘 모르겠지만.. 머리를 한 대 얻어맞은 기분이 든다.
5-2. 네이버페이 + 삼성페이, 애플페이: https://yozm.wishket.com/magazine/detail/1923
온라인 강자와 오프라인 강자의 협업.
- 애플페이를 견제하기 위한 것이라기에는 타겟층이 다르고, 삼성페이에게 큰 이점이 존재하지도 않는 것으로 보임
- 네이버는 이미 Online to Offline(O2O)과 마이데이터를 하고 있음: 고객 프로파일링, 데이터 기반 BM형성 가능
https://stibee.com/api/v1.0/emails/share/VKR7i5LD0TzsXiXUyqxUjKBFP3BNWTA=
서비스 시작 2시간 만에 17만명이 넘는 이용자가 애플페이에 현대카드를 등록했다
- 국내에서는 NFC기술이 일반화되지 않아 애플페이 사용이 어려웠음(국내는 대부분 MST). NFC단말기 보급률 10% 미만.
- 아이폰 이용자 수를 늘리고 기존 이용자들의 충성도를 높이고자 도입했다 보는 시각이 많음
- 아직은 현대카드만 등록 가능하며, 교통카드 등록도 불가능
5-3. CX의 중요성: https://yozm.wishket.com/magazine/detail/1925/
고객의 문제를 발견하기 위해 조직개편 등의 혁신은 데이터를 수집하고 목표를 설정한 뒤에 시작해야 한다
디지털 고객 경험을 위한 지름길은 없다:
6-1. 소비자와 소통하는 브랜드 예시: https://gogumafarm.kr/z%EC%84%B8%EB%8C%80%EB%8A%94-%EC%86%8C%EB%B9%84%EC%9E%90%EC%99%80-%EC%86%8C%ED%86%B5%ED%95%98%EB%8A%94-%EB%B8%8C%EB%9E%9C%EB%93%9C%EB%A5%BC-%EC%A2%8B%EC%95%84%ED%95%B4/
Z세대는 화제성을 활용하거나 소비자의 의견을 수용하는 브랜드에 반응함
- 올리브영(트위터 활용 실시간 소통/이벤트), 빙그레와 GS25((소비자 요구에 맞춰)단종 제품 재출시), 롯데칠성음료(화제가 되는 모델 활용)
6-2. 콘텐츠 리뷰(1): https://stibee.com/api/v1.0/emails/share/r91MT85UJJk555j1rMOtWsakXmuJDVs=
- 2021 콘텐츠 산업 수출액: 124억달러. 가전(약 87억 달러), 전기차(약 70억 달러)보다 많은 금액
- 슈퍼스타의 라이벌들은 슈퍼스타와 경쟁할 시에는 성과가 낮아졌었으나, 협력할 시에는 분야 전체의 성과가 높아지는 경향이 있었다. 쟁쟁하던 슈퍼스타가 사라지는 경우에는 분야 전체의 생산성이 낮아졌다. 슈퍼스타가 필요한 이유.
- 디즈니에서 양질의 서비스는 고객의 기대를 뛰어 넘는 것을 말함. 이를 위해서는 고객 경험의 모든 측면에 관심을 갖고 분석, 이해하는 태도가 필요.
6-3. 콘텐츠 리뷰(2): https://stibee.com/api/v1.0/emails/share/itfAEEztHqq1_7TD7BtGnVwfc1dHeho=
- 예술은 돈이나 권력에 비하면 무력하지만, 사람의 마음을 만져줄 수 있으며 이는 세상을 변화시키는 데에 일조한다
- 투자는 미래를 상대하는 것이기에, 미래에 대한 어느 정도의 견해가 필요하다. 상상력이 부족하다면 미래에 대한 추정이 투박할 수밖에 없다. 과거의 일들만으로 미래에 대해 속단하는 것은 위험하다.
- 데이터는 그 자체로 이야기가 되지 않으며, 이야기로 만드는 사람의 판단에 따른다. 그러므로 언제나 틀릴 수 있다. 자신이 틀릴 수 있다는 가정을 가지고 수정할 줄 알아야 한다.
- 아무 성과를 내지 못하는 사람들은 일에 필요한 시간을 과소평가하거나, 서두르는 경향이 있거나, 여러 일을 동시에 추진하기 때문이다. 성과를 내는 사람들은 실제 필요한 시간 이상으로 일정을 잡고, 시간과 경쟁하지 않으며 꾸준히 하고, 중요한 일에 가장 먼저 집중한다.
> 이거 엄청나게 찔리는데요... 특히 3번.. ^-^ 여러 일을 벌려놓고 조금씩 많이 하는 걸 좋아하는데, 글에서 지적했듯이 변수로 인해 다른 일들까지 적잖은 영향을 받은 게 한 두번이 아니었어서... 반성합니다.
'STUDY' 카테고리의 다른 글
패스트캠퍼스 데이터분석 부트캠프 학습일지6 (0) | 2023.03.31 |
---|---|
Newzoo PC & Console 게이밍 리포트 2023 (0) | 2023.03.28 |
패스트캠퍼스 데이터분석 부트캠프 학습일지5 (0) | 2023.03.24 |
취준로그 ver0.9 (1) | 2023.03.17 |
패스트캠퍼스 데이터분석 부트캠프 학습일지4 (1) | 2023.03.17 |