본문 바로가기
728x90
반응형

overfitting 방지3

(머신러닝) Overfitting은 꼭 해결해야되는 문제일까? 머신러닝의 목표는 training dataset을 이용하여 모델을 학습하고, 학습된 모델을 이용하여 관측되지 않았던 새로운 데이터에 대해 예측을 수행하는 것이다. 따라서 training set에 포함되지 않은 데이터들을 test set으로 구성하고, 이 test set에 대해 모델의 성능을 측정함으로써 새로운 데이터에 대한 모델의 성능을 평가한다. → 따라서 머신러닝 모델은 train set만을 가지고 test set에 대한 정확한 예측이 가능하도록 training하게 되는데, 이 과정에서 overfitting이 일어나게 되고, 일반화를 위한 모델의 경우 이를 방지하지만 오히려 overfitting이 필요한 경우가 있을 수 있다. 모델 학습하면서 종종 발생하는 Overfitting 꼭 해결해야되는 문제일.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 쉽게 이해하는 Cross Validation. 기법과 원리는? Cross Validation이란 무엇이고 기법의 원리는? 1. Cross Validation? 1) Definition Cross Validation이란 결과에 대한 분산을 줄이기 위해 사용하는 기법이다. ex) 성능 결과가 어떤거는 성능이 98%, 다른 거는 35% 등으로 들쭉날쭉하게 결과의 분산이 너무 크면 어떤 모델이 좋은 것인지 판단하기 어려워진다. → 'K-fold Cross validation'이 대표적으로 많이 사용된다. Q) Cross Validation(교차 검증)이 필요한 이유? : 만들어진 모델이 test set에만 잘 동작하는(=과적합, overfitting)되는 것을 해결하기 위해 필요하다 → 고정된 test set을 가지고 모델의 성능을 확인하고 parameter를 수정하는 것.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는? Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28.
반응형