본문 바로가기

728x90

early stop2

(머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는?

Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28.

[Pytorch] Overfitting(과적합) 방지하는 방법

1. Feature 줄이기 (모델의 복잡도 줄이기) - Overfitting을 방지하기 위한 첫번째 방법은 모델의 "Feature를 줄이는 방법"이다. 보통 Neural Network의 복잡도는 hidden layer(은닉층)의 수, parameter의 수로 결정되는데, 모델의 복잡도가 수준 이상으로 높아도 Overfitting(과적합)이 일어날 수 있다. ex) 3개 층의 hidden layer를 2개로 줄이는 등 2. Data Augmentation (데이터 증식) 적은 양의 Training data로 학습시킨 모델의 경우, 해당 데이터만의 패턴을 모두 학습하여 Overfitting이 발생할 확률이 높다. 이를 방지하기 위해 의도적으로 기존의 데이터를 조금씩 변형하여 데이터의 총량을 늘리는 데, 이 .. AI ｜Computer Vision/Basic Pytorch 2022. 5. 15.

이전 1 다음

티스토리툴바