데이터분석

·✨Today I Learned
20240904 TIL데이터 정합성 체크대시보드를 만들고 계산식을 SQL, Python으로 더블 체크 하기모든 코드는 주석 처리태블로 주석 기호 --> //지표 프레임 워크 종류1) 지표 프레임 워크란?서비스 흐름에 따라 퍼널과 퍼널에 맞는 지표를 정의하고 해당 지표를 개선하기 액션을 수립그로스에서 가장 많이 사용되는 지표 프레임 워크 --> AARRR회사의 현 상황에 따라 어떤 프레임 워크를 선택할지를 결정2) HEART 프레임 워크Google UX research팀의 HEART 프레임워크  더보기행복(Happiness): 사용자는 얼마나 행복합니까?앱 스토어 평점, NPS참여도(Engagement): 사용자가 단기적으로 얼마나 참여하고 있나요?구매 전환율, 유저당 주문 금액채택(Adoption): 얼..
https://school.programmers.co.kr/learn/courses/30/lessons/12917 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr문제 설명문자열 s에 나타나는 문자를 큰것부터 작은 순으로 정렬해 새로운 문자열을 리턴하는 함수, solution을 완성해주세요.s는 영문 대소문자로만 구성되어 있으며, 대문자는 소문자보다 작은 것으로 간주합니다. 제한 사항str은 길이 1 이상인 문자열입니다.입출력 예sreturn"Zbcdefg""gfedcbZ"def solution(s): str_list = list(s) str_..
·Project
20240830 TIL7. 머신러닝을 통한 예측우리 팀은 총 7가지의 회귀분석을 해보기로 했었고 선형, 릿지, 라쏘, 엘라스틱, 랜덤포레스트, XGboost, 시계열 분석을 했었다.그 중 나는 아직 머신러닝이 어렵다고 판단되어 가장 기본적인 선형회귀와 릿지회귀를 선택해서 했고 그 결과가 바로 전에 썼던 이커머스 주간 판매량 예측2에 있다. 역시나 기본적인 회귀라서 그런지 성능이 좋지 않아 내가 나온 결과값을 예측을 하진 못했고 성능이 좋았던 랜덤포레스트, XGboost, 시계열 회귀 분석을 통해 어떻게 재고관리를 할 지 예측을 했다.  - 모델의 총 성능평가모델RMSER-squared(R2)MAE선형회귀 21948.62 0.09 14634.18릿지회귀 21948.620.09 14634.07라쏘회귀1311..
·✨Today I Learned
20240816 TIL1. 의사결정나무의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법더보기성별 기준으로 의사결정나무 시각화 루트 노드(Root Node): 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node): 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria): sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게 분포) 됨을 나타냄리프 노드로 갈수록 불순도가 작아지는(한쪽으로 클래스가..
·✨Today I Learned
20240814 TIL1. 예측모델링 프로세스 (1) 데이터 수집데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python으로 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당더보기Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: ..
·아티클스터디
원문 : https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com➕ 아티클 요약 및 주요 내용요약 :1. 선형회귀-가장 기초적인 머신러닝 모델-여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것 장점모델이 간단하기 때문에 구현과 해석이 쉬움모델링 하는 데 오랜 시간 걸리지 않음단점최신 알고리즘에 비해 예측력 떨어짐독립변수와 예측 변수의 선형 관계를 전제로 하기..
·Project
20240726 TIL오늘은 어제 각자 해오기로 한 시각화를 보고 피드백을 해준 뒤 마지막으로 점검하는 시간을 가졌다. 1. 범례 넣기 --> 오른쪽 위로 통일2. 막대 그래프에 값 넣기 --> 발표할 때 보기 편함3. 모든 그래프 한글로 통일 1) 순서 정렬2) 막대 그래프에 값 넣기3) 색 고민 나의 고민과 피드백이 겹치는 부분들이 있어 이 것들을 다 다시 해보았다.① 10-20 세대 별 가장 좋아하는 음악 감상 시간1) 영어 --> 한글로 변경처음 했을때는 시각화 그래프에서 한글 깨짐이 있길래 어떻게 해야 하나 구글링을 해봤다. 찾아보니 내 컴퓨터 안에 있는 폰트폴더를 찾아 있는 폴더를 코드 안에 지정을 해줘야했다. 나는 애플고딕이 있길래 지정해줬다 (다른 코드들은 블로그에 있는 걸 그대로 복붙했다..
·아티클스터디
원문 : https://yozm.wishket.com/magazine/detail/1816/ 그 데이터는 잘못 해석되었습니다 | 요즘IT무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장yozm.wishket.com➕ 아티클 요약 및 주요 내용요약 :1. 생존자 편향의 오류: 전체 이용자를 기준으로 한 것이 아닌 이탈자를 대상으로 한 실패무사귀환한 전투기 대신 전체 전투기를, 이탈한 유저 대신 전체 활성화된 유저를 기준으로 해석을 시도하면, 올바른 지표에 따른 해석 가능2. 심슨의 역설: 부분 집합의 결과가 전체 집합의 결과와 반대되는 현상.예시) 참고 사이트: http..
임빵빵
'데이터분석' 태그의 글 목록