원문 : https://yozm.wishket.com/magazine/detail/1931/
➕ 아티클 요약 및 주요 내용
요약 :
1. 선형회귀
-가장 기초적인 머신러닝 모델
-여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것
장점
- 모델이 간단하기 때문에 구현과 해석이 쉬움
- 모델링 하는 데 오랜 시간 걸리지 않음
단점
- 최신 알고리즘에 비해 예측력 떨어짐
- 독립변수와 예측 변수의 선형 관계를 전제로 하기 때문에 이런 전제에서 벗어나는 데이터에서 좋은 예측 보여주기 어려움
유용한 곳
- 연속된 변수 예측에 사용
2. 로지스틱 회귀
-기본 분석 모델
-알고리즘의 근간을 선형 회귀 분석에 두고 있음
-Yes/No처럼 두 가지로 나뉘는 분류 문제 다룸
장점
- 선형 회귀 분석만큼 구현하기 용이
- 기울이를 사용해 각 변수의 중요성 쉽게 파악
단점
- 선형 회귀 분석을 근간으로 하고 있기 때문에, 선형관계가 아닌 데이터에 대한 예측력 떨어짐
유용한 곳
- Yes/No, True/False 와 같은 두 가지 범주로 나뉜 값 예측
- 분류문제에 있어 기준선으로 자주 활용(타 모델과 비교 목적)
3. K-최근법 이웃(KNN)
-거리 기반 모델
-선형 관계를 전제로 하지 않음 즉, 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델
-가까이에 있는 데이터를 고려햐여 예측값 결정
장점
- 직관적이고 간단
- 별도의 가정 없음
단점
- 데이터가 커질수록 상당히 느려질 수 있음
- 아웃라이어에 취약
유용한 곳
- 주로 분류에 사용, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들로 분류 가능
- 작은 데이터셋에 적합
4. 나이브 베이즈
-베이즈 정리를 적용한 조건부 확률 기반의 분류 모델(조건부 확률은 A가 일어났을 때 B가 일어날 확률)
-스팸 메일 필터처럼 자연어 처리가 목적일때는 좋은 선택(딥러닝보다 간단한 방법으로 자연어 처리를 원할 때)
장점
- 비교적 간단한 알고리즘에 속하며 속도 빠름
- 작은 훈련셋으로도 잘 예측
단점
- 모든 독립변수가 각각 독립적임을 전제로 하는데 장점이 되기도 단점이 되기도 함
- 실제로 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만, 실제 데이터에서 그런 경우가 많지 않기 때문에 단점
유용한 곳
- 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용
- 자연어 처리에서 간단하지만 좋은 성능
- 범주 형태의 변수가 많을 때 적합
5. 결정 트리
-관측값과 목푯값을 연결시켜주는 예측모델로서 나무 모양으로 데이터 분류
-수많은 트리 기반 모델의 기본 모델
-각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델 만든다
장점
- 데이터에 대한 가정 없음(데이터에 대한 가정이 없어 어디에나 자유롭게 적용 가능)
- 아웃라이어에 영향 거의 받지 않음
- 트리그래프를 통해 직관적으로 이해하고 설명 가능
단점
- 트리가 무한정 깊어지면 오버피팅 문제 야기
- 발전된 트리 기반 모델들에 비하면 상당히 예측력 떨어짐
유용한 곳
- 종속변수가 연속형 데이터와 범주형 데이터 모두에 사용 가능
- 모델링 결과가 시각화할 목적으로 가장 유용
- 아웃라이어가 문제될 정도로 많을 때 선형모델보다 좋은 대안
6. 랜덤 포레스트
-결정 트리의 단점인 오버피팅 문제를 완화시켜주는 발전된 형태의 트리 모델
-랜덤으로 생성된 무수히 많은 트리를 이용하여 예측
-> 여러 모델을 활용하여 하나의 모델을 이루는 기법을 앙상블 기법
장점
- 아웃라이어에 거의 영향 받지 않음
- 선형/비선형 데이터에 상관없이 잘 작동
단점
- 학습 속도가 상대적으로 느린 편
- 수많은 트리를 동원하기 때문에 모델에 대한 해석 어려움
유용한 곳
- 앙상블 기법을 사용한 트리 기반 모델 중 가장 보편적인 방법
7. XG부스트
-순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘
-트리 모델 기반으로 한 최신 알고리즘 중 하나로, 빠른 속도와 더 좋은 예측 능력을 보여줌
-손실함수뿐만 아니라 모형 복잡도까지 고려
장점
- 예측 속도가 상당히 빠르며 예측력 또한 좋음
- 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능
단점
- 복잡한 모델인 만큼 해석에 어려움
- 더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다로움
유용한 곳
- 캐글 컴퍼티션 우승자가 많이 사용하는 성능이 검증된 모델
- 가장 인기 있는 모델이므로 구글 검색에서 수 많은 참고 자료들을 쉽게 접할 수 있음
8. 라이트GBM
-XGBoost 이후로 나온 최신 부스팅 모델
-리프 중심 트리 분할 방식을 사용
장점
- XG부스트보다 빠르고 높은 정확도를 보여줌
- 예측에 영향을 미친 변수의 중요도 확인 가능
- 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능 보여줌
단점
- 복잡한 모델인 만큼 해석에 어려움
- 하이퍼파라미터 튜닝 까다로움
유용한 곳
- 표로 정리된 데이터에서 캣부스트, XGBoost와 함께 가장 좋은 성능을 보여주는 알고리즘
9. K-평균 군집화
-비지도 학습의 대표적인 알고리즘 중으로 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 머신러닝 기법
-거리 기반으로 작동하기 때문에 데이터 위치가 가까운 데이터끼리 한 그룹으로 묶음
장점
- 구현이 비교적 간단
- 클러스터링 결과를 쉽게 해석 가능
단점
- 최적의 k값을 자동으로 찾지 못하고 사용자가 직접 선택
- 거리 기반 알고리즘이기 때문에 변수의 스케일에 따라 다른 결과를 나타낼 수 있음
유용한 곳
- 수많은 데이터를 가지고 있을 때, 데이터를 하나하나 직접 살펴보기에 시간적 한계가 있을때
- 이러한 상황에서 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점 제공
10. 주성분 분석(PCA)
-비지도 학습에 속하기 때문에 종속 변수는 존재하지 않고 어떤 것을 예측하지도 분류하지도 않음
-목적은 데이터의 차원 축소 --> 변수의 개수는 줄이되, 가능한 그 특성을 보존해내는 기법
-기존 변수들의 정보를 모두 반영하는 새로운 변수들을 만드는 방식으로 차원 축소
장점
- 다차원을 2차원에 적합하도록 차원 축소하여 시각화에 유용
- 변수 간의 높은 상관관계 문제 해결
단점
- 기존 변수가 아닌 새로운 변수를 사용하여 해석하는데 어려움
- 차원이 축소됨에 따라 정보 손실 불가피
유용한 곳
- 다차원 변수들을 2차원 그래프로 표현하는 데 사용 가능
- 변수가 너무 많아 모델 학습에 시간이 너무 오래 걸릴 때 유용
- 오버피팅 방지하는 용도로 사용 가능
주요 포인트 :
- 머신러닝 실무에서 자주 사용되는 10가지 핵심 알고리즘을 소개하고, 각 알고리즘의 기본 개념, 장단점, 그리고 적합한 데이터 유형을 설명주요 알고리즘에는 선형 회귀, 로지스틱 회귀, 결정 트리, 랜덤 포레스트, XGBoost 등이 포함되며, 특히 트리 기반 모델의 중요성이 강조
- 이를 통해 독자들은 다양한 머신러닝 문제에 적합한 알고리즘을 선택하고 적용할 수 있게 됨
➕ 핵심 개념 및 용어 정리
핵심 개념 :
- 머신러닝 알고리즘들
- 적용 분야: 각 알고리즘이 어떤 문제에 적합한지, 예를 들어 회귀 분석, 분류 문제 등에 어떻게 활용되는지를 다룸
- 장단점: 알고리즘의 장단점이 정리되어 있어, 특정 상황에 어떤 알고리즘이 적합한지 판단 가능
- 트리 기반 모델의 중요성: 트리 기반 알고리즘이 실무에서 특히 중요하게 다루어짐.
용어 정리:
요약 부분에서 용어도 같이 정리
➕느낀 점
ADsP를 공부하면서 다 나왔던 용어들인데 이 아티클을 읽으면서 좀 더 자세하게 알 수 있어서 좋았다.
또 머신러닝 강의에 도움이 될 수 있을 것 같고 실무에서 머신러닝으로 데이터 분석하기 전 미리 자주 사용하는 10가지 알고리즘에 알 수 있어서 좋았다. 그리고 각 알고리즘마다 어디서 유용하게 사용하는지 알 수 있어서 나중에 프로젝트때나 실무때 잘 활용할 수 있을 것 같아 그 부분이 좋았다. 그래도 여전히 어렵긴 하다 ^^...
'아티클스터디' 카테고리의 다른 글
[아티클 스터디] SNS 광고속성이 구매의도 및 브랜드 태도에 미치는 영향 : 설득지식의 조절효과를 중심으로 (2) | 2024.10.02 |
---|---|
아티클 스터디 : 조직 상황에 맞는 BI 툴 고르기 (5) | 2024.09.03 |
아티클 스터디 : 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 3장 (0) | 2024.07.24 |
아티클 스터디 : 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 1장/2장 (0) | 2024.07.22 |
아티클 스터디 : 그 데이터는 잘못 해석되었습니다 (0) | 2024.07.17 |