우리는 전처리가 끝난 뒤 데이터 EDA를 통해 어떤 인사이트를 얻을 수 있을지 봤다.이것도 내가 하진 않았고 다른 팀원분께서 해주셨다4. 데이터 EDA할인율과 판매량 관련할인율과 판매량 관련 변수가 유사한 분포를 보이고, 상관관계는 낮지만 할인율이 판매량 관련 변수에 영향을 주는 것이 아닌가 하는 추측을 해볼 수 있었다판매량 Peak 지점 파악오일 제품은 9월~ 12월에 판매량 평시 대비 700% 급 상승캔 제품들은 봄과 여름에 판매량 평시 대비 200% 급 상승--> 타 상품 대비 특정 기간 오일 제품 판매량 상승률이 가파른 것에 주목해서 우선적인 재고 관리가 필요하겠다고 생각했다.더보기육류와 해산물은 겨울과 여름에 판매량 상승하는 그래프헬스 다이어트 제품은 여름에 판매량이 상승더보기육류와 해산물은 ..
심화프로젝트
20240830 TIL7. 머신러닝을 통한 예측우리 팀은 총 7가지의 회귀분석을 해보기로 했었고 선형, 릿지, 라쏘, 엘라스틱, 랜덤포레스트, XGboost, 시계열 분석을 했었다.그 중 나는 아직 머신러닝이 어렵다고 판단되어 가장 기본적인 선형회귀와 릿지회귀를 선택해서 했고 그 결과가 바로 전에 썼던 이커머스 주간 판매량 예측2에 있다. 역시나 기본적인 회귀라서 그런지 성능이 좋지 않아 내가 나온 결과값을 예측을 하진 못했고 성능이 좋았던 랜덤포레스트, XGboost, 시계열 회귀 분석을 통해 어떻게 재고관리를 할 지 예측을 했다. - 모델의 총 성능평가모델RMSER-squared(R2)MAE선형회귀 21948.62 0.09 14634.18릿지회귀 21948.620.09 14634.07라쏘회귀1311..