본문 바로가기

(머신러닝) Regression 회귀 분석에 대해 정확히 알아보자

Derrick 발행일 : 2024-02-27
728x90
반응형

 

Regression(회귀분석)이란?
어떨때 이 분석을 사용하고 대표적인 기법은?

 

[ 선형회귀분석 차트 예시 ]

 


1. Definition

회귀(Regression)이란 사전적 의미로 "go back to an earlier and worse condition"으로 예전의 대표적인 상태로 돌아가는 특성에 기반한 분석을 의미한다. 쉽게 말해 "데이터를 가장 잘 표현하는 함수를 찾는 방법"이며, 이를 통해 "수치적 값을 예측할 수 있는 분석"이라고 보면 된다.

 

아버지의 키에 따른 아들의 키에 대한 분석을 하면서 처음으로 회귀(regression) 문제로 나왔다. 

- 장점
 → Model이 간단하기 때문에 모델의 학습시간이 짧음
 → 선형 데이터에 적합
 → 직관적인 해석이 가능 (현업에서 유용하게 사용)

- 단점
 → 비선형 데이터에 부적합
 → 다차원의 데이터의 경우, 결과의 신뢰도가 낮음

 

반응형

2. Regression 방법들

Regression하는 데는 수많은 방법들이 있다.
대표적으로, Simple Linear Regression, Polynomial Regression, Logistic Regression 등

 

[    Simple Linear Regression & Polynomial Regression ]

- Simple Linear Regression
: 랜덤한 선(x값을 변경하면서 랜덤하게)을 그리고, 데이터의 point와 선과의 거리를 모두 계산한다. 그 계산된 거리값을 'Residual(잔차)'라고 하고, 이를 통해서 해당 선이 표현할 수 있는 오류에 대해 알 수 있게 된다.
 → 그리고 오류율이 적은 방향으로 x값(=기울기)와 절편을 조절하면서 데이터를 이상적으로 해석할 수 있는 선을 찾는다. 즉, 주어진 데이터들을 제일 잘 표현할 수 있는 최적의 기울기와 절편을 계산해서 수식이 완성

- Polynomial Regression
: Simple Linear의 x를 제곱/세제곱 등을 함으로써 휘어진 선상을 생성하여 데이터와 선과의 거리(오차)를 최소화할 수 있다. 비교적 비선형적인 데이터도 표현할 수 있도록 된다.
실제 현업데이터에서는 1차적으로 polynomial regression을 시도를 하고
 # Polynomial Regression 적용 예시

- 목표 : 의류 회사의 매출금액 예측
: 의류의 종류마다 비중치를 다르게 두고(ex, 반팔은 매출액의 25% 등), polynomial의 변수에 할당해서 regression하면 월별로 매출금액의 예상추이를 뽑아낼 수 있다. 매출액을 미리 알 수 있다면, regression 결과를 보면서 필요한 것을 발주하는데 활용할 수 있다. 

 

# Logistic Regression
: 아래 예시와 같이 Simple linear와 polynomial로 표현할 수 없을 때(ex, Sigmoid 함수) 'Logistic Regression'을 사용하는 경우가 많다. 0 또는 1값으로 나눌 수 있는 regression이라고 보면 된다.

 

Logistic Regression의 위와 같은 특징으로 Binary Classification을 할 수도 있다. 

 

 

학습 참고 : 50개 프로젝트로 완벽하게 끝내는 머신러닝 SIGNATURE

 

 

댓글