임정 튜터님 피드백- EDA:-- 이상치제거하지 않은 것도 결과가 있었으면 좋겠다. IQR 이상치는 방법론이지 항상 정답은 아니라는 것을 인지하시면 좋겠다.-- 상관관계는 선형적 상관관계가 없는것일 뿐 임을 인지하시길.-- isholldya에서 더많은 주간 매출액임을 집게로 볼수있는데 이릉 t-test를 통해서 검정해볼수도있고 errrobar옵션을 이용해서 데이터 분포에 대한 추가 정보를 제공할 수도 있다.- 모델 선택, 평가:-- 산점도 Hexbin 플롯을 보는것도 좋을듯.-- 회귀 계수를 0으로 만드는 라쏘가 좋은것으로 보아서 변수 선택이 중요한 이슈였던것 같음. 다중공선성 문제를 해결하고 변수선택과 차원축소를 하게되면 릿지나 엘라스틱 넷도 좋은 성능을 보여줄수있음 또한 AIC,BIC방법과 같은 변..
Project
20240927 TIL실전 프로젝트 렛츠 고태블로 대시보드를 만들어서 내는 실전 프로젝트를 진행했다태블로를 배우는 기간이 일주일이라서 조금 막막하긴 했지만 잘 끝냈다! 1. 주제 선정아마존 데이터 속으로 떠나는 인사이트 모험이라는 주제를 선정했다원래 처음에는 게임 데이터를 선택했지만 데이터 자체에서 어떤 것을 뽑아낼 수 있을지도 모르겠고 너무 데이터의 크기가 작은 것 같아급히 아마존 데이터로 변경했다 .....https://teamsparta.notion.site/7feb0e96febc41fd8353f9c0860a08a6 아마존 데이터 속으로 떠나는 인사이트 모험 | Notion개요teamsparta.notion.site[프로젝트 배경]아마존의 이커머스 시장이 성장함에 따라 데이터 기반의 재고관리 및 고..
20240830 TIL7. 머신러닝을 통한 예측우리 팀은 총 7가지의 회귀분석을 해보기로 했었고 선형, 릿지, 라쏘, 엘라스틱, 랜덤포레스트, XGboost, 시계열 분석을 했었다.그 중 나는 아직 머신러닝이 어렵다고 판단되어 가장 기본적인 선형회귀와 릿지회귀를 선택해서 했고 그 결과가 바로 전에 썼던 이커머스 주간 판매량 예측2에 있다. 역시나 기본적인 회귀라서 그런지 성능이 좋지 않아 내가 나온 결과값을 예측을 하진 못했고 성능이 좋았던 랜덤포레스트, XGboost, 시계열 회귀 분석을 통해 어떻게 재고관리를 할 지 예측을 했다. - 모델의 총 성능평가모델RMSER-squared(R2)MAE선형회귀 21948.62 0.09 14634.18릿지회귀 21948.620.09 14634.07라쏘회귀1311..
20240828 TIL4. 이상치 제거▶ IQR 작업 --> 이상치 제거법- Dept 이상치 제거# Dept 이상치 제거pct25 = df['Dept'].quantile(.25)pct75 = df['Dept'].quantile(.75)iqr = pct75 - pct25pct25 - 1.5 * iqr # 하한pct75 + 1.5 * iqr # 상한df['Dept'] = np.where((df['Dept']pct75 + 1.5 * iqr), np.nan, df['Dept'])df = df.dropna(subset='Dept')df.head(3)- Size 이상치 제거# Size 이상치 제거pct25 = df['Size'].quantile(.25)pct75 = df['Size'].quantile(.75)iqr..
20240729 TIL주말동안 종합적인 인사이트 도출을 어떻게 할 것인지 우리끼리 생각하기로 했었다.그래서 내가 주말동안 생각해본 결과 ! 곧 20대가 될 잠재 고객이므로 현재 경험이 미래 소비 패턴에 영향 끼침 -> 지금부터라도 스포티파이를 이용한다면 충성 고객 전환 가능성 ↑디지털 네이티브 세대이기 때문에 최신 기술과 플랫폼에 익숙 -> 새로운 기능, 서비스에 빠르게 적응하여 SNS를 통한 신규 사용자 유입 도움10대들은 20대보다 음악과 팟캐스트를 골고루 다양하게 소비하고 있기 때문에 10대를 타켓으로 해야 한다 ....이런식 ...10대의 팟캐스트 선호도가 높기 때문에 적자인 팟캐스트의 성장을 도울 수 있다. 결론적으로 스포티파이는 10대를 타겟으로 맞춤형 콘텐츠와 서비스를 강화하여 사용자 분포 ..
20240726 TIL오늘은 어제 각자 해오기로 한 시각화를 보고 피드백을 해준 뒤 마지막으로 점검하는 시간을 가졌다. 1. 범례 넣기 --> 오른쪽 위로 통일2. 막대 그래프에 값 넣기 --> 발표할 때 보기 편함3. 모든 그래프 한글로 통일 1) 순서 정렬2) 막대 그래프에 값 넣기3) 색 고민 나의 고민과 피드백이 겹치는 부분들이 있어 이 것들을 다 다시 해보았다.① 10-20 세대 별 가장 좋아하는 음악 감상 시간1) 영어 --> 한글로 변경처음 했을때는 시각화 그래프에서 한글 깨짐이 있길래 어떻게 해야 하나 구글링을 해봤다. 찾아보니 내 컴퓨터 안에 있는 폰트폴더를 찾아 있는 폴더를 코드 안에 지정을 해줘야했다. 나는 애플고딕이 있길래 지정해줬다 (다른 코드들은 블로그에 있는 걸 그대로 복붙했다..
20240725 TIL어제 데이터 정리와 분석을 한 것을 가지고 맡은 컬럼을 데이터 전처리를 해볼 것이다.데이터 전처리 하기10-20 세대 별 가장 좋아하는 음악 감상 시간 사용할 컬럼 - 'Age', 'music_time_slot' 1)데이터 불러오기#파일 불러오기import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_excel('/Users/minjungim/Documents/ 1Spotify_data_.xlsx')print(data) 엑셀파일이기때문에 엑셀로 불러와야 함데이터가 저장된 위치를 복사하여 넣어줘야 함! 2)데이터 정보 확인하기-info() 함수를 통해 데이터가 어떤 정보가 있는지 확인해준다.data.info()더보기3) 결측값..
20240724 TIL오늘부터 첫 기초 프로젝트를 시작했다. 어떤 프로젝트일지, 어떻게 진행할지 궁금했는데 오늘 발제를 하면서 궁금증 풀렸다아직 데이터를 만들어본 것도 분석 해보지도 않았지만 사실 걱정이 더 앞서긴 한다 왜냐하면 내가 비전공자이기도 하고 이때까지 배운 것들을 제대로 이해 못했다는 생각에 .. ㅠㅠ 혹시나 팀원분들께 폐 끼칠까봐 제일 걱정이다 그래도 일단 최선을 다해 보기로 했다 !! 그리고 내가 기초 프로젝트를 어떻게 진행하는지 오늘부터 꾸준히 블로그에 남길 예정이다 ! 그럼 화이팅팅팅 1. 주제 정하기일단 주제들은 여러가지를 준비해주셨기 때문에 우리 팀은 고민하다가 https://teamsparta.notion.site/409b1f8d6e0f4a6a9b85f726b131ccb5 음악 플..