본문 바로가기
대외활동

[BDA 11기]데이터 분석 모델링반 ML1 2주차

by 야딩 2025. 9. 19.


2주차 수업 내용

 

▶ 가변수화

  • 범주형을 숫자형으로 바꿔주는 것을 의미한다.
  • get_dummies( ) 함수를 이용할 수 있다.

▶ 데이터 분할

  1. x, y
    •    x : Features, 요인
    •    y : Target, Label
  2. Train, Validation, Test
    •    Train : 모델을 생성할 때 사용한다.
    •    Validation : 모델의 성능을 검증하는데 사용한다.
    •    Test : 모델의 성능을 평가하기 위해 사용한다.

데이터 분할 비율

선형회귀 ( Linear Regression)

  • 선형회귀( Linear Regression) 란 데이터를 하나의 직선으로 요약한 것
    • 단순회귀 (Simple Regression) : 하나의 Feature로 하나의 Target을 예측
    • 다중회귀 (Multiple Regression) : 여러개의 Feature로 하나의 Target을 예측
  • 해석적 방법 : Least Squares Method
    • 최소제곱법을 이용해 회귀 계수를 결정

최소제곱법 공식

모델링 절차

   1. 필요한 함수 불러오기

 

   2. 모델 선언

 

   3. 학습

 

          ∘ 회귀계수 예측하기

 

   4. 예측

 

   5. 평가

 

모델 평가

  • 오차의 비로 평가
    • 평균 모델의 오차 대비 회귀모델이 해결한 오차의 비율

  • 오차의 양과 율로 평가

 


코드 실습
# 1. 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import *

-----------------------------------------------------------

# 2. 데이터 준비
data = "분석할 데이터파일 불러오기"

target = '예측하고 싶은 변수'
x = data.drop(target, axis=1) # axis=0 행, 1 열
y = data.loc[:, target]

## 가변수화
cat_cols = ['가변수화 할 변수']
x_cat = pd.get_dummies(x, columns=cat_cols, drop_first=True)

## 데이터 분할
x_train, x_val, y_train, y_val = train_test_split(x_cat, y, test_size = .3, random_state = 20)

------------------------------------------------------------------------------------------

# 3. 모델링
from sklearn.linear_model import LinearRegression

## 모델선언
model = LinearRegression() 

## 모델 학습
model.fit(x_train, y_train) 

## 회귀계수 확인
print('회귀계수 : ', model1.coef_)
print('절편 : ', model1.intercept_)

## 모델 예측
pred = model.predict(x_val)

## 모델 평가
r2_score(y_val, pred1) # R2 Score
mean_absolute_error(y_val, pred1) # MAE
mean_squared_error( y_val, pred1) # MSE

BDA 학회 플랫폼

 

https://www.instagram.com/official.bdaa/

 

로그인 • Instagram

 

www.instagram.com

 

 

BDA 학회의 인스타그램입니다.

빅데이터 분석 학회인 만큼 데이터에 관련된 정보가 많이 올라오는데요,

데이터 분석 관련 공모전, 채용 공고, 데이터 용어 등 다양한 콘텐츠를 확인할 수 있습니다.

데이터 직무에 관심이 있으시다면 한번 둘러보시는것도 좋을거같아요.