20240823 TIL심화 프로젝트 start! -기초 프로젝트에서 머신러닝 기법만 추가된 심화 프로젝트이다! 아직 머신러닝 공부가 제대로 안돼있어서 걱정이 되긴 하지만 화이팅! 1. 주제 선정[회귀] 이커머스 주간 판매량 예측으로 선정하게 됐다.https://teamsparta.notion.site/88a9ef95797147e7b741260b406da6f3 [회귀] 이커머스 주간 판매량 예측 | Notion프로젝트 제목teamsparta.notion.site아무래도 우리 팀이 비전공자들이 모여있어서 가장 많이 접할 수 있었던 것을 선택을 했는데 그것이 주간 판매량 예측이었다.또, 페이지 자체에도 설명이 잘 돼 있었고 찾아보니 데이터도 실제 캐글에서 대회가 열렸었던 것이라서 데이터 분석할때 다른 주제들보..
20240816 TIL1. 의사결정나무의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법더보기성별 기준으로 의사결정나무 시각화 루트 노드(Root Node): 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node): 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria): sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게 분포) 됨을 나타냄리프 노드로 갈수록 불순도가 작아지는(한쪽으로 클래스가..
20240814 TIL1. 예측모델링 프로세스 (1) 데이터 수집데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python으로 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당더보기Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: ..
원문 : https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com➕ 아티클 요약 및 주요 내용요약 :1. 선형회귀-가장 기초적인 머신러닝 모델-여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것 장점모델이 간단하기 때문에 구현과 해석이 쉬움모델링 하는 데 오랜 시간 걸리지 않음단점최신 알고리즘에 비해 예측력 떨어짐독립변수와 예측 변수의 선형 관계를 전제로 하기..
20240809 TIL1. 회귀분석 평가지표 회귀 평가지표 - MSE에러 정의방법방법1) 에러 = 실제 데이터 - 예측 데이터 로 정의하기방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기방법3) 데이터만큼 나누기에러 정의 방법 수식화방법2)가 Mean Squared Erorr(MSE)y값의 머리에 있는 ^ 표기를 hat이라고 하며, 예측(혹은 추정)한 수치에 표기 ▶ 선형회귀만의 평가 지표 - R SquareR Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도기초 용어$y_{i}$: 특정 데이터의 실제 값$\bar{y}$: 평균 값$\hat{y}$: 예측, 추정한 값 R Square 정의 --> ADsP 시험에도 중요하게 나오기 때문에 알아두면 좋음!2. 선형회귀 심화▶ 다중선형회귀 ..
20240808 TIL1. 머신러닝기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론머신러닝이 발전한 이유 - 인간은 데이터를 기반으로 한 의사결정을 내리고 싶기 때문 ▶ 머신러닝 종류 지도 학습비지도 학습강화 학습2. 선형회귀 이론공통Y는 종속 변수, 결과 변수X는 독립 변수, 원인 변수, 설명 변수통계학에서 사용하는 선형회귀 식베타0 : 편향(Bias)베타1 : 회귀 계수마지막 : 오차(에러), 모델이 설명하지 못하는 Y의 변동성수식 계산 - 각 변수가 사실 행렬로 이루어진 값 머신러닝/딥러닝에서 사용한느 선형회귀 식Y = wX + bw: 가중치b: 편향(Bias)*머신러닝/딥러..