본문 바로가기
728x90
반응형

Machine Learning28

(sklearn) DataHandling 기초 & 실습 - 결측치 처리 # 결측치 처리 - 일반적인 처리 방법 - sklearn을 이용한 처리 방법 - pandas를 이용한 처리 방법 파이썬 기본 함수와 특성을 이용해서 데이터를 다루는 실습을 해보자 1. Import & DataFrame 생성 결측치를 처리하는 다양한 방법에 대해 공부해보자 # 필요한 패키지 import import numpy as np import pandas as pd from sklearn.impute import SimpleImputer, KNNImputer, MissingIndicator import warnings warnings.filterwarnings('ignore') import warnings warnings.filterwarnings('ignore') : warning을 'ignore'.. Machine Learning/Basic of Python (Colab) 2024. 3. 29.
쉽게 이해하는 파이썬 numpy, pandas 정리 & 예제! 파이썬/데이터분석에서 꼭 알아야 하는 numpy, pandas 패키지에 대해 쉽게 이해해보자 1. Numpy - C로 구현된 숫자 관련된 자료형을 처리할 수 있는 함수의 집합 - python의 성능 문제를 대부분 상쇄해줄 수 있는 패키지 1) 배열 기초 - numpy.array(list.dtype)의 구조로 배열을 만들 수 있음 → 파이썬으로 list를 먼저 만들고, numpy.array를 통해서 변환해주는 개념 - 함수를 이용하여 배열 만들기 → 규모가 큰 배열의 경우에는 numpy에 내장된 함수를 사용하여 처음부터 배열을 생성하는 것이 효율적 - 대표적인 함수 → zeros, ones, full, arrange, linspace, rando.random, random.normal 등 2차원의 배열인 .. Machine Learning/Basic of Python (Colab) 2024. 3. 24.
(파이썬 기초) if, for, while, try, except 쉽게 비교 정리 파이썬에서 자주 사용되는 if, for, while, try, except statement에 대해 쉽게 학습하자! 1. if (조건문) - 대부분의 프로그래밍 언어에서 지원하는 문법 - 직관적으로 특정 조건을 검사할 때 사용 if문에 조건을 넣지 않는 경우도 있다. 이 경우, 해당 값 자체가 True 혹은 False일때 실행문이 실행된다. if == 1 이런식으로 '=='으로 기입해야 된다. 하나만 적으면 잘못된 문법! # 실무에서 많이 쓰이는 표현 → 리스트에 데이터값들을 모두 담아두고 들어온 데이터의 길이(len)가 정상적인지 확인할 때 많이 사용한다. > 데이터를 입력받을 때, Feature들을 넣을 column의 숫자가 학습이랑 테스트가 같아야 한다. > 학습 전에 길이를 검토할 때 유용 2. .. Machine Learning/Basic of Python (Colab) 2024. 3. 13.
데이터 분석할 때 꼭 알아야 하는 Python 기본 함수 총정리! 데이터 분석할 때 꼭 알아야 하는 Python 기본 함수 정리! 1. 자료형 기본적으로 Python에는 자료형을 포함하여 연산을 할 수 있는 내장함수가 있다. 파이썬은 다른 언어와 다르게 자료형을 직접 지정하지 않는다. C와 C++의 경우, 특정 변수에 대한 자료형을 지정해줘야 하지만, 파이썬은 자료형을 추측해서 지정되므로, 변환할 때만 기입해주면 된다. → 따라서 자료형은 어떤 종류가 있는지만 알면 된다. # Number - 정수(int), 부동소수점(float), 복소수(complex)를 표현할 수 있는 자료형 # Sequence - 문자열(str), 리스트(list), 튜플(tuple) 등의 자료형으로 순서를 표현하는 자료형 → 리스트는 test 데이터와 train 데이터를 만들때 한줄씩 돌아가면서.. Machine Learning/Basic of Python (Colab) 2024. 3. 11.
(데이터분석) Anaconda & Python 설치 Google Colab 꿀팁 정리! Anaconda 및 Python 설치! Google Colab 사용법과 꿀팁! 1. Anaconda 설치 공부하면서 진행하는 실습은 대부분 Google colab에서 실시하지만 간혹 colab에서 사용할 수 없는 경우가 있어서 Anaconda를 통해 학습을 하기 좋다. 1) 구글 'anaconda' 검색해서 설치 : 'Download' 누른 후에 'Next, I agree'만 누르면 다운로드 끝 → 제일 최신버전으로 다운로드가 되는데, 사양 구분이 필요하면 버전을 체크해보고 다운로드하면 된다. # Anaconda 설치 링크 https://www.anaconda.com/download Free Download | Anaconda Anaconda's open-source Distribution is the .. Machine Learning/Basic of Python (Colab) 2024. 3. 9.
(머신러닝) 학습된 모델을 평가하는 척도는 어떤 것이 있을까? 학습된 모델들을 평가하는 척도에 대해서 알아보자 (Model metrics) 1. 모델 평가 척도는 왜 필요할까? - 모델이 "잘" 학습되었는가를 확인할 수 있는 평가 수준이 필요 → 현업에서는 공통적으로 공감할 수 있는 지표가 필요하다. 모델링을 하는 사람과 현업을 하는 사람들의 언어는 전혀 다르기 때문에 모두가 공통적으로 공감할 수 있는 지표가 필요하다. 2. 많이 쓰이는 척도 모델을 평가하는 척도에는 일반적으로 많이 쓰이는 것과 잘 쓰이지는 않지만, 알아두면 언젠가 쓰일 수 있는 척도들이 있다. # 일반적으로 많이 사용되는 모델 평가 척도 (분류) - Accuracy (정확도) : 분류의 전체적인 정확도를 확인할 수 있는 지표 - Recall (재현율) : 분류하고자 하는 클래스를 분류하였는지를 측.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) Overfitting은 꼭 해결해야되는 문제일까? 머신러닝의 목표는 training dataset을 이용하여 모델을 학습하고, 학습된 모델을 이용하여 관측되지 않았던 새로운 데이터에 대해 예측을 수행하는 것이다. 따라서 training set에 포함되지 않은 데이터들을 test set으로 구성하고, 이 test set에 대해 모델의 성능을 측정함으로써 새로운 데이터에 대한 모델의 성능을 평가한다. → 따라서 머신러닝 모델은 train set만을 가지고 test set에 대한 정확한 예측이 가능하도록 training하게 되는데, 이 과정에서 overfitting이 일어나게 되고, 일반화를 위한 모델의 경우 이를 방지하지만 오히려 overfitting이 필요한 경우가 있을 수 있다. 모델 학습하면서 종종 발생하는 Overfitting 꼭 해결해야되는 문제일.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 쉽게 이해하는 Cross Validation. 기법과 원리는? Cross Validation이란 무엇이고 기법의 원리는? 1. Cross Validation? 1) Definition Cross Validation이란 결과에 대한 분산을 줄이기 위해 사용하는 기법이다. ex) 성능 결과가 어떤거는 성능이 98%, 다른 거는 35% 등으로 들쭉날쭉하게 결과의 분산이 너무 크면 어떤 모델이 좋은 것인지 판단하기 어려워진다. → 'K-fold Cross validation'이 대표적으로 많이 사용된다. Q) Cross Validation(교차 검증)이 필요한 이유? : 만들어진 모델이 test set에만 잘 동작하는(=과적합, overfitting)되는 것을 해결하기 위해 필요하다 → 고정된 test set을 가지고 모델의 성능을 확인하고 parameter를 수정하는 것.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는? Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28.
(머신러닝) Clustering이란? K-means 알고리즘 원리 간단 정리! Clustering이란? 대표적인 K-means 알고리즘의 원리 간단 정리! 1. Clustering(군집)이란? Clustering이란, 비슷한 특성(feature)을 가진 데이터들을 하나의 그룹으로 묶는 작업을 의미한다. → 특성의 유사도를 판단하는 기준 : Distance, Connectivity, Distribution, Density 등 → 대표적인 비지도학습(unsupervised learning) 중 하나이다. 실제 현업에서는 regression도 classification 문제도 아닌 문제점들이 있다. 이와 같은 supervised 유형의 정답이 있는 문제들도 많지만, 정답이 없는 unsupervised 유형의 경우도 많다. ex) 신제품에 대한 잠재 소비자들의 수 예상 # 좋은 Clust.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
반응형