우리는 전처리가 끝난 뒤 데이터 EDA를 통해 어떤 인사이트를 얻을 수 있을지 봤다.이것도 내가 하진 않았고 다른 팀원분께서 해주셨다4. 데이터 EDA할인율과 판매량 관련할인율과 판매량 관련 변수가 유사한 분포를 보이고, 상관관계는 낮지만 할인율이 판매량 관련 변수에 영향을 주는 것이 아닌가 하는 추측을 해볼 수 있었다판매량 Peak 지점 파악오일 제품은 9월~ 12월에 판매량 평시 대비 700% 급 상승캔 제품들은 봄과 여름에 판매량 평시 대비 200% 급 상승--> 타 상품 대비 특정 기간 오일 제품 판매량 상승률이 가파른 것에 주목해서 우선적인 재고 관리가 필요하겠다고 생각했다.더보기육류와 해산물은 겨울과 여름에 판매량 상승하는 그래프헬스 다이어트 제품은 여름에 판매량이 상승더보기육류와 해산물은 ..
데이터분석
20240927 TIL실전 프로젝트 렛츠 고태블로 대시보드를 만들어서 내는 실전 프로젝트를 진행했다태블로를 배우는 기간이 일주일이라서 조금 막막하긴 했지만 잘 끝냈다! 1. 주제 선정아마존 데이터 속으로 떠나는 인사이트 모험이라는 주제를 선정했다원래 처음에는 게임 데이터를 선택했지만 데이터 자체에서 어떤 것을 뽑아낼 수 있을지도 모르겠고 너무 데이터의 크기가 작은 것 같아급히 아마존 데이터로 변경했다 .....https://teamsparta.notion.site/7feb0e96febc41fd8353f9c0860a08a6 아마존 데이터 속으로 떠나는 인사이트 모험 | Notion개요teamsparta.notion.site[프로젝트 배경]아마존의 이커머스 시장이 성장함에 따라 데이터 기반의 재고관리 및 고..
20240904 TIL데이터 정합성 체크대시보드를 만들고 계산식을 SQL, Python으로 더블 체크 하기모든 코드는 주석 처리태블로 주석 기호 --> //지표 프레임 워크 종류1) 지표 프레임 워크란?서비스 흐름에 따라 퍼널과 퍼널에 맞는 지표를 정의하고 해당 지표를 개선하기 액션을 수립그로스에서 가장 많이 사용되는 지표 프레임 워크 --> AARRR회사의 현 상황에 따라 어떤 프레임 워크를 선택할지를 결정2) HEART 프레임 워크Google UX research팀의 HEART 프레임워크 더보기행복(Happiness): 사용자는 얼마나 행복합니까?앱 스토어 평점, NPS참여도(Engagement): 사용자가 단기적으로 얼마나 참여하고 있나요?구매 전환율, 유저당 주문 금액채택(Adoption): 얼..
https://school.programmers.co.kr/learn/courses/30/lessons/12917 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr문제 설명문자열 s에 나타나는 문자를 큰것부터 작은 순으로 정렬해 새로운 문자열을 리턴하는 함수, solution을 완성해주세요.s는 영문 대소문자로만 구성되어 있으며, 대문자는 소문자보다 작은 것으로 간주합니다. 제한 사항str은 길이 1 이상인 문자열입니다.입출력 예sreturn"Zbcdefg""gfedcbZ"def solution(s): str_list = list(s) str_..
20240830 TIL7. 머신러닝을 통한 예측우리 팀은 총 7가지의 회귀분석을 해보기로 했었고 선형, 릿지, 라쏘, 엘라스틱, 랜덤포레스트, XGboost, 시계열 분석을 했었다.그 중 나는 아직 머신러닝이 어렵다고 판단되어 가장 기본적인 선형회귀와 릿지회귀를 선택해서 했고 그 결과가 바로 전에 썼던 이커머스 주간 판매량 예측2에 있다. 역시나 기본적인 회귀라서 그런지 성능이 좋지 않아 내가 나온 결과값을 예측을 하진 못했고 성능이 좋았던 랜덤포레스트, XGboost, 시계열 회귀 분석을 통해 어떻게 재고관리를 할 지 예측을 했다. - 모델의 총 성능평가모델RMSER-squared(R2)MAE선형회귀 21948.62 0.09 14634.18릿지회귀 21948.620.09 14634.07라쏘회귀1311..
20240816 TIL1. 의사결정나무의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법더보기성별 기준으로 의사결정나무 시각화 루트 노드(Root Node): 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node): 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria): sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게 분포) 됨을 나타냄리프 노드로 갈수록 불순도가 작아지는(한쪽으로 클래스가..
20240814 TIL1. 예측모델링 프로세스 (1) 데이터 수집데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python으로 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당더보기Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: ..
원문 : https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com➕ 아티클 요약 및 주요 내용요약 :1. 선형회귀-가장 기초적인 머신러닝 모델-여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것 장점모델이 간단하기 때문에 구현과 해석이 쉬움모델링 하는 데 오랜 시간 걸리지 않음단점최신 알고리즘에 비해 예측력 떨어짐독립변수와 예측 변수의 선형 관계를 전제로 하기..