Br) ML - 선형 회귀분석

Br) ML - 선형 회귀분석

브라이틱스(Brightics)에서 선형 회귀분석을 하는 방법을 알아본다.


Machine Learning

※ 본 내용은 Load 함수 블럭에서 bike.csv 파일을 불러온 후에 진행한다.
bike.csv 다운받기 [클릭]
사전 준비


개요

선형 회귀분석(linear regression)은 일반적으로 다중 선형 회귀분석(multiple linear regression)을 지칭하며 이는 연속형 종속변수 하나와 두 개 이상의 독립변수를 사용하여 종속변수와 독립변수의 관계를 포함하여 다양한 통계적 특성을 알아보는 방법이다. 이 때 독립변수가 하나인 경우 단순 선형회귀(simple linear regression)라고 한다.

Brightics에서는 선형 회귀분석을 실시하기 위해 Linear Regression Train, Linear Regression Predict, Split Data, Evaluate Regression 함수 블럭을 활용한다.

이론

향후 보충 예정

가정

설명력

다중 공선성의 문제

분산 팽창 계수(VIF)

오차 평가 지표

MAE
MSE
RMSE
MAPE

잔차 분석

표준화 회귀 계수

Cook’s Distance


설정

Linear Regression Train

선형 회귀분석 모형을 학습할 때 사용하는 블럭이다. Linear Regression Train 블럭의 설정 창은 다음과 같다.
Linear Regression Train 블럭 설정 창

-Feature Columns: 독립변수 지정
-Label Column: 종속변수 지정
-Fit Intercept: 절편(intercept) 적합 여부(True/False)
-VIF: 다중공선성 확인 지표인 분산팽창계수 연산 여부(True/False)
-Group By: 특정 변수를 기준으로 회귀분석을 별도로 실시

Linear Regression Predict

선형 회귀분석 모형을 학습 모델을 기반으로 예측 값을 생산할 때 사용하는 블럭이다. Linear Regression Predict 블럭의 설정 창은 다음과 같다.
Linear Regression Predict 블럭 설정 창

Inputs의 table 항목에는 예측을 실시할 데이터를 지정해주며 보통 Split Data 또는 Filter 블럭에서 나온 데이터를 입력해준다.
Prediction Column Name 에는 예측값이 있는 변수명을 지정할 수 있다. 기본 값은 “prediction”이고 필요시 변경 가능하다.

Evaluate Regression

두 수치형 변수를 입력으로 받으며 보통 수치 예측모델의 평가를 위해서 사용한다. Evaluate Regression 블럭의 설정 창은 다음과 같다.
Evaluate Regression 블럭 설정 창


결과

독립변수는 기온(temp), 휴일 여부(holiday) 로 설정하고 종속변수는 정기권 자전거 대여 수(registered)로 다중 선형 회귀분석을 실시한 결과는 다음과 같다.
Linear Regression Train 결과
Linear Regression Predict 결과
Evaluate Regression 결과

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×