우리는 전처리가 끝난 뒤 데이터 EDA를 통해 어떤 인사이트를 얻을 수 있을지 봤다.이것도 내가 하진 않았고 다른 팀원분께서 해주셨다4. 데이터 EDA할인율과 판매량 관련할인율과 판매량 관련 변수가 유사한 분포를 보이고, 상관관계는 낮지만 할인율이 판매량 관련 변수에 영향을 주는 것이 아닌가 하는 추측을 해볼 수 있었다판매량 Peak 지점 파악오일 제품은 9월~ 12월에 판매량 평시 대비 700% 급 상승캔 제품들은 봄과 여름에 판매량 평시 대비 200% 급 상승--> 타 상품 대비 특정 기간 오일 제품 판매량 상승률이 가파른 것에 주목해서 우선적인 재고 관리가 필요하겠다고 생각했다.더보기육류와 해산물은 겨울과 여름에 판매량 상승하는 그래프헬스 다이어트 제품은 여름에 판매량이 상승더보기육류와 해산물은 ..
오블완
임정 튜터님 피드백- EDA:-- 이상치제거하지 않은 것도 결과가 있었으면 좋겠다. IQR 이상치는 방법론이지 항상 정답은 아니라는 것을 인지하시면 좋겠다.-- 상관관계는 선형적 상관관계가 없는것일 뿐 임을 인지하시길.-- isholldya에서 더많은 주간 매출액임을 집게로 볼수있는데 이릉 t-test를 통해서 검정해볼수도있고 errrobar옵션을 이용해서 데이터 분포에 대한 추가 정보를 제공할 수도 있다.- 모델 선택, 평가:-- 산점도 Hexbin 플롯을 보는것도 좋을듯.-- 회귀 계수를 0으로 만드는 라쏘가 좋은것으로 보아서 변수 선택이 중요한 이슈였던것 같음. 다중공선성 문제를 해결하고 변수선택과 차원축소를 하게되면 릿지나 엘라스틱 넷도 좋은 성능을 보여줄수있음 또한 AIC,BIC방법과 같은 변..