전체 글

데이터 분석가로 나아가는 중
·✨Today I Learned
20240814 TIL1. 예측모델링 프로세스 (1) 데이터 수집데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python으로 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당더보기Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: ..
·✨Today I Learned
20240813 TIL1. 타이타닉 생존 분류 문제Kaggle 타이타닉 예측 대회주제: 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제Y(종속변수): 사망(0), 생존(1)X(독립변수): 티켓등급, 성별, 요금 등 2. 로지스틱회귀 이론 ▶ 오즈비(Odds ratio) : 실패확률 대비, 성공확률그러나 바로 사용 불가능왜? P는 확률 값으로 0,1 사이 값인데 P가 증가할수록 오즈비가 급격하게 증가하기 때문에 --> 선형성을 따르지 않게 됨따라서 로그를 씌워 완화오즈비와 확률의 관계 / 로짓과 확률의 관계로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨 --> 로지스틱 "회귀" 라고 불리는 이유 ▶ 로지스틱 함수시그모이드 함수 중 하나로 딥러닝에서 다시 활..
·아티클스터디
원문 : https://yozm.wishket.com/magazine/detail/1931/ 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com➕ 아티클 요약 및 주요 내용요약 :1. 선형회귀-가장 기초적인 머신러닝 모델-여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것 장점모델이 간단하기 때문에 구현과 해석이 쉬움모델링 하는 데 오랜 시간 걸리지 않음단점최신 알고리즘에 비해 예측력 떨어짐독립변수와 예측 변수의 선형 관계를 전제로 하기..
·CODEKATA
어느 자동차 대여 회사에서 대여 중인 자동차들의 정보를 담은 CAR_RENTAL_COMPANY_CAR 테이블>자동차 대여 기록 정보를 담은 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블>자동차 종류 별 대여 기간 종류 별 할인 정책 정보를 담은 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블 >CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '세단' 또는 'SUV' 인 자동차 중 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능하고 30일간의 대여 금액이 50만원 이상 200만원 미만인 자동차에 ..
★ 총 평-기초 통계학 다 들었음!-ADsP 내일 시험-머신러닝 기초 시작!ADsP때문에 다른 강의들에 집중 못하는 중 ㅠㅠ프로젝트가 끝나 시간 좀 있을 줄 알았더니 이제 데이터분석 입문으로 들어오면 들어야 하는 강의들이 많아졌다 ^^ .....기초통계학, 머신러닝 기초, 심화를 들어야하는데 다행히 ADsP를 공부 중이라 기초 통계학은 어느정도 이해하면서 들었지만 머신러닝은 한 번 듣는걸로는 절대 이해 불가능할 것 같다 ㅠㅠ 생각보다 시간이 꽤 들지도 ....그리고 코드카타에 신경을 못 써주고 있어서 좀 걱정 ......... SQL은 진짜 너무너무 어려워져서 어떻게 해야할지 살짝 막막하다 흑흑이번 프로젝트도 잘 끝낼 수 있을지도 좀 걱정된다 ... 그래도 힘내보잣 !!!   ☆ 배운 것머신러닝 기초-선..
·✨Today I Learned
20240809 TIL1. 회귀분석 평가지표 회귀 평가지표 - MSE에러 정의방법방법1) 에러 = 실제 데이터 - 예측 데이터 로 정의하기방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기방법3) 데이터만큼 나누기에러 정의 방법 수식화방법2)가 Mean Squared Erorr(MSE)y값의 머리에 있는 ^ 표기를 hat이라고 하며, 예측(혹은 추정)한 수치에 표기 ▶ 선형회귀만의 평가 지표 - R SquareR Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도기초 용어$y_{i}$: 특정 데이터의 실제 값$\bar{y}$: 평균 값$\hat{y}$: 예측, 추정한 값  R Square 정의 --> ADsP 시험에도 중요하게 나오기 때문에 알아두면 좋음!2. 선형회귀 심화▶ 다중선형회귀 ..
·✨Today I Learned
20240808 TIL1. 머신러닝기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론머신러닝이 발전한 이유 - 인간은 데이터를 기반으로 한 의사결정을 내리고 싶기 때문  ▶ 머신러닝 종류 지도 학습비지도 학습강화 학습2. 선형회귀 이론공통Y는 종속 변수, 결과 변수X는 독립 변수, 원인 변수, 설명 변수통계학에서 사용하는 선형회귀 식베타0 : 편향(Bias)베타1 : 회귀 계수마지막 : 오차(에러), 모델이 설명하지 못하는 Y의 변동성수식 계산 - 각 변수가 사실 행렬로 이루어진 값  머신러닝/딥러닝에서 사용한느 선형회귀 식Y = wX + bw: 가중치b: 편향(Bias)*머신러닝/딥러..
·CODEKATA
테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블>보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다.이 문제는 처음에는 쉽게 date_format을 이용해 시간을 구한다음 그룹바이를 해주면 되는 쉬운 문제인지 알았는데결과값을 보니 없는 시간대가 있었고 이걸 새로 만들어줘야했다 그래서 1차로 테이블에 애초에 없는데 어떻게 만들지란 생각이 들었고결국엔 구글링 해보는 수 밖에 없었다.그 결과 밑과 같은 쿼리문 실행!with recursive cte (hour) as( select 0 union all select hour + 1 f..
임빵빵
mj.space