본문 바로가기
728x90
반응형

Machine Learning/데이터 분석 이론과 기초13

(머신러닝) 학습된 모델을 평가하는 척도는 어떤 것이 있을까? 학습된 모델들을 평가하는 척도에 대해서 알아보자 (Model metrics) 1. 모델 평가 척도는 왜 필요할까? - 모델이 "잘" 학습되었는가를 확인할 수 있는 평가 수준이 필요 → 현업에서는 공통적으로 공감할 수 있는 지표가 필요하다. 모델링을 하는 사람과 현업을 하는 사람들의 언어는 전혀 다르기 때문에 모두가 공통적으로 공감할 수 있는 지표가 필요하다. 2. 많이 쓰이는 척도 모델을 평가하는 척도에는 일반적으로 많이 쓰이는 것과 잘 쓰이지는 않지만, 알아두면 언젠가 쓰일 수 있는 척도들이 있다. # 일반적으로 많이 사용되는 모델 평가 척도 (분류) - Accuracy (정확도) : 분류의 전체적인 정확도를 확인할 수 있는 지표 - Recall (재현율) : 분류하고자 하는 클래스를 분류하였는지를 측.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) Overfitting은 꼭 해결해야되는 문제일까? 머신러닝의 목표는 training dataset을 이용하여 모델을 학습하고, 학습된 모델을 이용하여 관측되지 않았던 새로운 데이터에 대해 예측을 수행하는 것이다. 따라서 training set에 포함되지 않은 데이터들을 test set으로 구성하고, 이 test set에 대해 모델의 성능을 측정함으로써 새로운 데이터에 대한 모델의 성능을 평가한다. → 따라서 머신러닝 모델은 train set만을 가지고 test set에 대한 정확한 예측이 가능하도록 training하게 되는데, 이 과정에서 overfitting이 일어나게 되고, 일반화를 위한 모델의 경우 이를 방지하지만 오히려 overfitting이 필요한 경우가 있을 수 있다. 모델 학습하면서 종종 발생하는 Overfitting 꼭 해결해야되는 문제일.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 쉽게 이해하는 Cross Validation. 기법과 원리는? Cross Validation이란 무엇이고 기법의 원리는? 1. Cross Validation? 1) Definition Cross Validation이란 결과에 대한 분산을 줄이기 위해 사용하는 기법이다. ex) 성능 결과가 어떤거는 성능이 98%, 다른 거는 35% 등으로 들쭉날쭉하게 결과의 분산이 너무 크면 어떤 모델이 좋은 것인지 판단하기 어려워진다. → 'K-fold Cross validation'이 대표적으로 많이 사용된다. Q) Cross Validation(교차 검증)이 필요한 이유? : 만들어진 모델이 test set에만 잘 동작하는(=과적합, overfitting)되는 것을 해결하기 위해 필요하다 → 고정된 test set을 가지고 모델의 성능을 확인하고 parameter를 수정하는 것.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는? Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28.
(머신러닝) Clustering이란? K-means 알고리즘 원리 간단 정리! Clustering이란? 대표적인 K-means 알고리즘의 원리 간단 정리! 1. Clustering(군집)이란? Clustering이란, 비슷한 특성(feature)을 가진 데이터들을 하나의 그룹으로 묶는 작업을 의미한다. → 특성의 유사도를 판단하는 기준 : Distance, Connectivity, Distribution, Density 등 → 대표적인 비지도학습(unsupervised learning) 중 하나이다. 실제 현업에서는 regression도 classification 문제도 아닌 문제점들이 있다. 이와 같은 supervised 유형의 정답이 있는 문제들도 많지만, 정답이 없는 unsupervised 유형의 경우도 많다. ex) 신제품에 대한 잠재 소비자들의 수 예상 # 좋은 Clust.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Classification(분류)에 대해 정확히 알고 가자 이번 게시물을 통해서 흔히 많이 들어본 Classification(분류)에 대한 기본적인 개념과 알고리즘의 원리 및 종류를 간단히 알고, binary classification이 무엇이고 우리가 당면한 문제가 binary classification인지 multiclass classification인지를 판단하고, 이를 어떤 방법으로 풀 수 있는지 살펴보자. Classification(분류)란? 분류 알고리즘의 원리와 binary classification에 대해 알아보자 1. Classification? 1) Definition Regression이 데이터를 가장 잘 표현할 수 있는 함수를 찾는 방법이라면, Classification은 데이터를 가장 잘 나누는(=분류하는) 함수를 찾는 방법이다. 위 왼쪽.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Regression 회귀 분석에 대해 정확히 알아보자 Regression(회귀분석)이란? 어떨때 이 분석을 사용하고 대표적인 기법은? 1. Definition 회귀(Regression)이란 사전적 의미로 "go back to an earlier and worse condition"으로 예전의 대표적인 상태로 돌아가는 특성에 기반한 분석을 의미한다. 쉽게 말해 "데이터를 가장 잘 표현하는 함수를 찾는 방법"이며, 이를 통해 "수치적 값을 예측할 수 있는 분석"이라고 보면 된다. 아버지의 키에 따른 아들의 키에 대한 분석을 하면서 처음으로 회귀(regression) 문제로 나왔다. - 장점 → Model이 간단하기 때문에 모델의 학습시간이 짧음 → 선형 데이터에 적합 → 직관적인 해석이 가능 (현업에서 유용하게 사용) - 단점 → 비선형 데이터에 부적합 → 다.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Supervised vs Unsupervised Learning 간단 정리 머신러닝에서 'Supervised'와 'Unsupervised Learning'에 대해 학습하고 그 차이점을 알아보자 Supervised Learning vs Unsupervised Learning 1. Supervised Learning (지도 학습) - 타겟 Y가 명확하게 존재하는 경우 사용하는 학습방법 ex) 어떤 사람이 상품을 샀다/안샀다 등 - 현업에서 만날 수 있는 대다수의 문제가 이 'supervised learning'에 해당 → Regression, Classification, Deep learning X(독립변수)와 Y(종속변수) 사이의 관계를 찾고, 이를 이용하여 미래의 Y(=target)값을 예측하는 원리 - Y가 categorical일 경우, Classification(분류) 영역.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Data Cleaning과 Sampling 샘플링 기법 총정리! 이번 게시물에서는 'Data Cleaning'과 'Data Sampling'에 대해서 학습해보자. → Data Cleaning이란 무엇이고 왜 해야 되는 걸까? → Data Sampling은 왜 필요하고 상황별 어떤 기법을 사용해야될까? Data Cleaning과 Data Sampling이란? 샘플링의 유형과 상황별 어떤 기법을 사용해야될까? 1. Missing Value Data Cleaning이란 모델에 데이터를 넣기 전에 데이터를 쓸 수 있도록 만드는 프로세스를 말한다. Data Cleaning을 학습하기 전에 그 타겟인 'Missing Value'에 대해 알아야 할 필요가 있다. - 실제 데이터에서는 N/A, Null 등의 이상값들이 존재한다 → Missing value 처리 → N/A (Not .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Feature Selection는 무엇이고 왜 꼭 알아야 하는 걸까? Feature Selection란 무엇이고 데이터 분석 프로세스에서 왜 필요한 걸까? 그리고 어떤 종류가 있는지 살펴보자. Feature Selection이란? 머신러닝 데이터 분석에 꼭 과정이다? 1. Feature Selection? Feature Selection이란, 패턴이 지니고 있는 다수의 특징 중에서 당면한 결정을 하는데 필요 충분하다고 생각되는 소수의 특징을 골라 내는 것을 의미한다. 데이터가 수집되었는데 엄청 많은 데이터들(ex, 2~3천개 등)이 있다면, 그냥 돌릴 수가 없다. 메모리 이슈도 있으며 성능도 당연히 제대로 안 나올 것이다. # 운영적 관점 1) 적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용 감소 2) 적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 26.
반응형