피드백메인 튜터 : 양현승 튜터[데이터 EDA 및 전처리]EDA 부분에서 변수별 통계나 분포 자료가 있었으면 더 좋았을 것 같습니다. 전처리나 이상치처리 부분도 좋았습니다. 파생변수 부분은 다양한 방법을 시도해보시면 더 좋을 것 같아요. [Tableau 대시보드 제작]마케팅 대시보드, 고객 세분화 대시보드 아주 좋았어요. 마케팅 대시보드에서 repurchase period 밑에 주황색 바가 무엇을 의미하는지 모르겠습니다.상단에 주요 지표들의 숫자를 보여주고 그 아래에 그래프 개형을 보여주는 부분도 좋았습니다. 단 total customer 그림도 월별누적값으로 보여주면 좋을 것 같아요. monthly order by category 부분은 다른 방안을 생각해보시면 좋겠습니다. [결과 해석 및 보고]주요지..
Project
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcoEEPJ%2FbtsKzWyRWEr%2FJDhNEWJ3ykImRmIoJxiOX1%2Fimg.png)
우리는 전처리가 끝난 뒤 데이터 EDA를 통해 어떤 인사이트를 얻을 수 있을지 봤다.이것도 내가 하진 않았고 다른 팀원분께서 해주셨다4. 데이터 EDA할인율과 판매량 관련할인율과 판매량 관련 변수가 유사한 분포를 보이고, 상관관계는 낮지만 할인율이 판매량 관련 변수에 영향을 주는 것이 아닌가 하는 추측을 해볼 수 있었다판매량 Peak 지점 파악오일 제품은 9월~ 12월에 판매량 평시 대비 700% 급 상승캔 제품들은 봄과 여름에 판매량 평시 대비 200% 급 상승--> 타 상품 대비 특정 기간 오일 제품 판매량 상승률이 가파른 것에 주목해서 우선적인 재고 관리가 필요하겠다고 생각했다.더보기육류와 해산물은 겨울과 여름에 판매량 상승하는 그래프헬스 다이어트 제품은 여름에 판매량이 상승더보기육류와 해산물은 ..
임정 튜터님 피드백- EDA:-- 이상치제거하지 않은 것도 결과가 있었으면 좋겠다. IQR 이상치는 방법론이지 항상 정답은 아니라는 것을 인지하시면 좋겠다.-- 상관관계는 선형적 상관관계가 없는것일 뿐 임을 인지하시길.-- isholldya에서 더많은 주간 매출액임을 집게로 볼수있는데 이릉 t-test를 통해서 검정해볼수도있고 errrobar옵션을 이용해서 데이터 분포에 대한 추가 정보를 제공할 수도 있다.- 모델 선택, 평가:-- 산점도 Hexbin 플롯을 보는것도 좋을듯.-- 회귀 계수를 0으로 만드는 라쏘가 좋은것으로 보아서 변수 선택이 중요한 이슈였던것 같음. 다중공선성 문제를 해결하고 변수선택과 차원축소를 하게되면 릿지나 엘라스틱 넷도 좋은 성능을 보여줄수있음 또한 AIC,BIC방법과 같은 변..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FyjTPF%2FbtsJPTWVtSH%2FBhgLUTsT5Te8aTq03xnts1%2Fimg.png)
20240927 TIL실전 프로젝트 렛츠 고태블로 대시보드를 만들어서 내는 실전 프로젝트를 진행했다태블로를 배우는 기간이 일주일이라서 조금 막막하긴 했지만 잘 끝냈다! 1. 주제 선정아마존 데이터 속으로 떠나는 인사이트 모험이라는 주제를 선정했다원래 처음에는 게임 데이터를 선택했지만 데이터 자체에서 어떤 것을 뽑아낼 수 있을지도 모르겠고 너무 데이터의 크기가 작은 것 같아급히 아마존 데이터로 변경했다 .....https://teamsparta.notion.site/7feb0e96febc41fd8353f9c0860a08a6 아마존 데이터 속으로 떠나는 인사이트 모험 | Notion개요teamsparta.notion.site[프로젝트 배경]아마존의 이커머스 시장이 성장함에 따라 데이터 기반의 재고관리 및 고..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fotvx4%2FbtsJlaq3ZnK%2FWlTZsySEu4lrJBs356ORnK%2Fimg.png)
20240830 TIL7. 머신러닝을 통한 예측우리 팀은 총 7가지의 회귀분석을 해보기로 했었고 선형, 릿지, 라쏘, 엘라스틱, 랜덤포레스트, XGboost, 시계열 분석을 했었다.그 중 나는 아직 머신러닝이 어렵다고 판단되어 가장 기본적인 선형회귀와 릿지회귀를 선택해서 했고 그 결과가 바로 전에 썼던 이커머스 주간 판매량 예측2에 있다. 역시나 기본적인 회귀라서 그런지 성능이 좋지 않아 내가 나온 결과값을 예측을 하진 못했고 성능이 좋았던 랜덤포레스트, XGboost, 시계열 회귀 분석을 통해 어떻게 재고관리를 할 지 예측을 했다. - 모델의 총 성능평가모델RMSER-squared(R2)MAE선형회귀 21948.62 0.09 14634.18릿지회귀 21948.620.09 14634.07라쏘회귀1311..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F8QT38%2FbtsJhYep3JX%2FgcMI912T6BQEVokvWEH5cK%2Fimg.png)
20240828 TIL4. 이상치 제거▶ IQR 작업 --> 이상치 제거법- Dept 이상치 제거# Dept 이상치 제거pct25 = df['Dept'].quantile(.25)pct75 = df['Dept'].quantile(.75)iqr = pct75 - pct25pct25 - 1.5 * iqr # 하한pct75 + 1.5 * iqr # 상한df['Dept'] = np.where((df['Dept']pct75 + 1.5 * iqr), np.nan, df['Dept'])df = df.dropna(subset='Dept')df.head(3)- Size 이상치 제거# Size 이상치 제거pct25 = df['Size'].quantile(.25)pct75 = df['Size'].quantile(.75)iqr..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FFu6rq%2FbtsJbOJLqT3%2FpFcifdNoCKBjmB8NJx6Srk%2Fimg.png)
20240823 TIL심화 프로젝트 start! -기초 프로젝트에서 머신러닝 기법만 추가된 심화 프로젝트이다! 아직 머신러닝 공부가 제대로 안돼있어서 걱정이 되긴 하지만 화이팅! 1. 주제 선정[회귀] 이커머스 주간 판매량 예측으로 선정하게 됐다.https://teamsparta.notion.site/88a9ef95797147e7b741260b406da6f3 [회귀] 이커머스 주간 판매량 예측 | Notion프로젝트 제목teamsparta.notion.site아무래도 우리 팀이 비전공자들이 모여있어서 가장 많이 접할 수 있었던 것을 선택을 했는데 그것이 주간 판매량 예측이었다.또, 페이지 자체에도 설명이 잘 돼 있었고 찾아보니 데이터도 실제 캐글에서 대회가 열렸었던 것이라서 데이터 분석할때 다른 주제들보..
20240729 TIL주말동안 종합적인 인사이트 도출을 어떻게 할 것인지 우리끼리 생각하기로 했었다.그래서 내가 주말동안 생각해본 결과 ! 곧 20대가 될 잠재 고객이므로 현재 경험이 미래 소비 패턴에 영향 끼침 -> 지금부터라도 스포티파이를 이용한다면 충성 고객 전환 가능성 ↑디지털 네이티브 세대이기 때문에 최신 기술과 플랫폼에 익숙 -> 새로운 기능, 서비스에 빠르게 적응하여 SNS를 통한 신규 사용자 유입 도움10대들은 20대보다 음악과 팟캐스트를 골고루 다양하게 소비하고 있기 때문에 10대를 타켓으로 해야 한다 ....이런식 ...10대의 팟캐스트 선호도가 높기 때문에 적자인 팟캐스트의 성장을 도울 수 있다. 결론적으로 스포티파이는 10대를 타겟으로 맞춤형 콘텐츠와 서비스를 강화하여 사용자 분포 ..