20240813 TIL
1. 타이타닉 생존 분류 문제
- Kaggle 타이타닉 예측 대회
- 주제: 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제
- Y(종속변수): 사망(0), 생존(1)
- X(독립변수): 티켓등급, 성별, 요금 등
<실습>
2. 로지스틱회귀 이론
▶ 오즈비(Odds ratio) : 실패확률 대비, 성공확률
그러나 바로 사용 불가능
왜? P는 확률 값으로 0,1 사이 값인데 P가 증가할수록 오즈비가 급격하게 증가하기 때문에 --> 선형성을 따르지 않게 됨
따라서 로그를 씌워 완화
- 오즈비와 확률의 관계 / 로짓과 확률의 관계
로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨 --> 로지스틱 "회귀" 라고 불리는 이유
▶ 로지스틱 함수
- 시그모이드 함수 중 하나로 딥러닝에서 다시 활용
- 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 됨
- 확률 0.5 기준으로 그보다 높으면 사건 일어남(P(Y) = 1), 그렇지 않으면 사건 일어나지 않음(P(Y) = 0)
3. 분류 평가 지표
-ADsP에서도 중요하게 다루는 개념이므로 알아두면 좋음
- 표기법
- 실제와 예측이 같으면 True / 다르면 False
- 예측을 양성으로 했으면 Positive / 음성으로 했으면 Negative
- 해석
- TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
- FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
- FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
- TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수
▶ 지표
1. 정밀도(Precision)
2. 재현율(Recall)
3. f-1 Score
4. 정확도(Accuracy)
4. 로지스틱회귀 실습
5. 회귀, 분류 정리
- 사실 상 로지스틱회귀는 선형회귀의 아이디어에서 종속 변수(Y)만 가공한 것이기 때문에 장, 단점 같음
- 로지스틱회귀
- 장점: 역시 직관적이며 이해하기 쉽다.
- 단점: 복잡한 비선형 관계를 모델링 하기 어려울 수 있음
- Python 패키지
- sklearn.linear_model.LogisticRegresson
▶ 선형회귀와 로지스틱회귀의 공통점
모델 생성 쉬움
가중치(혹은 회귀계수)를 통한 해석이 쉬운 장점
X변수에 범주형, 수치형 변수 둘 다 사용 가능
▶ 차이점
선형회귀(회귀) | 로지스틱회귀(분류) | |
Y(종속변수) | 수치형 | 범주형 |
평가척도 | Mean Square Error R Square(선형 회귀만) | Accuracy F1 - score |
sklearn 모델 클래스 | sklearn.linear_model.linearRegression | sklearn.linear_model.LogistricRegression |
sklearn 평가 클래스 | sklearn.metrics.mean_squared_error skelarn.metrics.r2_score |
sklearn.metrics.accuracy_score skelearn.metrics.f1_score |
'✨Today I Learned' 카테고리의 다른 글
머신러닝 심화: 회귀, 분류 모델링 심화 (0) | 2024.08.16 |
---|---|
머신러닝 심화 : EDA (0) | 2024.08.14 |
머신러닝 기초 : 회귀분석 기초, 심화 (0) | 2024.08.09 |
머신러닝 기초(회귀분석 - 선형회귀 이론까지) (0) | 2024.08.08 |
데이터 리터러시 (0) | 2024.07.03 |