본문 바로가기
728x90
반응형

Machine Learning27

(Regression) Feature selection을 보완한 기법, 'Penalty Term'이란? 기존의 Feature Selection의 한계점을 보완한 Penalty Term은 무엇이고 어떻게 사용하나? # 함께 보면 학습에 도움되는 게시물 (feature selection 기법) 2024.04.07 - [Machine Learning/Regression Problem] - (Regression) Overfitting 방지하는 Feature Selection 기법의 종류 정리 (Regression) Overfitting 방지하는 Feature Selection 기법의 종류 정리 Feature Selection을 왜 해야 하는지 어떤 종류들과 어떻게 사용하면 되는지 학습해보자 # 함께 보면 좋은 게시물 (모델 평가 및 지표) 2024.04.05 - [Machine Learning/Regression.. Machine Learning/Regression Problem 2024. 4. 10.
(Regression) Overfitting 방지하는 Feature Selection 기법의 종류 정리 Feature Selection을 왜 해야 하는지 어떤 종류들과 어떻게 사용하면 되는지 학습해보자 # 함께 보면 좋은 게시물 (모델 평가 및 지표) 2024.04.05 - [Machine Learning/Regression Problem] - (Regression) Model 평가 및 지표 해석하는 방법! - 성능지표 총 정리 (Regression) Model 평가 및 지표 해석하는 방법! - 성능지표 총 정리 모델의 성능이 얼마나 잘 나왔는지 확인하고 위한 Model 평가와 지표들에 대해서 학습해보자 (지난 게시물 참고) # 지난 게시물 (β(계수) 추정법 & p-value란?) 2024.04.05 - [Machine Learning/Regression Problem] - derrick.tistory... Machine Learning/Regression Problem 2024. 4. 7.
(Regression) Model 평가 및 지표 해석하는 방법! - 성능지표 총 정리 모델의 성능이 얼마나 잘 나왔는지 확인하고 위한 Model 평가와 지표들에 대해서 학습해보자 (지난 게시물 참고) # 지난 게시물 (β(계수) 추정법 & p-value란?) 2024.04.05 - [Machine Learning/Regression Problem] - (Regression) 모델의 에러를 가장 낮출 수 있는 'β(계수) 추정법' p-value란? (Regression) 모델의 에러를 가장 낮출 수 있는 'β(계수) 추정법' p-value란? 모델의 에러(Error) 수식('E(Y) = β(0) +β(1)X')를 바탕으로 가장 낮은 에러를 취하기 위한 β(계수)의 값은 무엇인지 추정하는 법에 대해 학습해보자 모델의 Error를 가장 낮추기 위한 'β (계수) 추정법' derrick.tist.. Machine Learning/Regression Problem 2024. 4. 5.
(Regression) 모델의 에러를 가장 낮출 수 있는 'β(계수) 추정법' p-value란? 모델의 에러(Error) 수식('E(Y) = β(0) +β(1)X')를 바탕으로 가장 낮은 에러를 취하기 위한 β(계수)의 값은 무엇인지 추정하는 법에 대해 학습해보자 모델의 Error를 가장 낮추기 위한 'β (계수) 추정법' 1. Mathematical Expression 1) Simple & Multi-Linear Regression 위의 수식처럼 참값(Y)에 불가피하게 붙는 Error(ε)를 가장 낮출 수 있는 추정값(E(Y), y^) β값을 찾아내는 것이 목표이다. 위의 수식과 같이 Error(ε)는 참값과 추정값(E(y))의 차이로 볼 수 있다. 'β0'은 y절편으로 x가 0일때의 값이고, 'β1'의 값은 추정한 모델의 기울기이다. → Multi-linear regression의 경우, 독립 .. Machine Learning/Regression Problem 2024. 4. 5.
(Regression) 쉽게 이해하는 Loss Function - Error, Variance, Bias 관계는? 현업 문제에서 접목시킬 수 있는 머신러닝 알고리즘 중, 가장 기본이 되는 것은 'Regression'. 기초적인 Loss function부터 Regularized Linear Model까지 학습을 해보자. Regression 알고리즘에서의 Loss Function이란? 1. Error of Model Loss function은 모델의 성능을 측정하거나 학습할 때 모델이 얼마만큼 잘 학습할 수 있는지 기준(척도)이다. # 좋은 알고리즘(Algorithm)의 기준 : 예상하고 있는 expected output의 퀄리티가 높게 나오는 경우와 에러도 낮은 경우에 해당된다. → 여기서의 에러(Error)는 loss function으로 정의될 수 있다. 1) 학습할 수 있는 데이터셋이 있고 2) 이 데이터셋을 알고.. Machine Learning/Regression Problem 2024. 4. 5.
왜 데이터 분석가도 Cloud를 알아야 할까? on-premise란? Cloud, 데이터 분석가도 꼭 알아야 하는걸까? 1. On-premise On-premise는 회사 내에 IDC에 존재하는 플랫폼을 의미한다. - Legacy system을 Cloud로 전환하는 것은 많은 비용과 Risk를 수반 - 여전히 많은 회사에서 On-premise에서 서비스를 운영중 → 그럼에도 불구하고 대부분의 회사에서 Cloud 도입을 검토하고 있거나 PoC 수행중 - Cloud 환경에서 분석이 가능한 분석가와 Local에서만 분석 가능한 분석가? → Cloud를 몰라도 분석은 할 수 있지만, Cloud를 아는 분석가는 더욱 경쟁력을 확보할 수 있다. 그래서 Cloud 환경에서의 분석도 해보는 것이 굉장히 중요하다. 2. MLOps 그럼 MLOps 관점에서 본다면? - 초기 ML 프로세스와.. Machine Learning/Data Load (Cloud AWS) 2024. 4. 2.
요즘 사람들은 다 쓴다는 Public Cloud란? 초간단 쉽게 이해하자 Data Loading from Cloud - Public Cloud - 1. Cloud - Cloud란? 데이터를 인터넷과 연결된 중앙컴퓨터에 저장하여 인터넷에 접속하기만 하면 언제든지 서비스를 이용할 수 있음을 의미하는 개념이다. - Cloud를 이용하면 작업한 컴퓨터에서만 데이터를 불러올 수 있는 것이 아니라 마치 여러 장소에서 동일한 구름을 관찰할 수 있듯이 어디서나 필요한 서비스를 활용할 수 있다. 2022년에는 대기업 신규 소프트웨어 투자의 20% 이상이 'Cloud First' → 'Cloud Only' 전략 → 많은 서비스를 클라우드로 관리한다 → CSP(Cloud Service Provider), AWS, 마이크로소프트, 구글 등이 보안, 전기 공급, 서버 냉각 문제 등의 모든 것을 관리.. Machine Learning/Data Load (Cloud AWS) 2024. 4. 2.
(파이썬) 쉽게 이해하고 써먹는 matplotlib로 시각화하기 Github에서 데이터를 불러와서 다양한 상황에 대해 matplotlib를 어떻게 활용할 수 있는지 학습해보자 # 다룰 데이터 리스트 1) 인구에 대한 정보를 시각화 → 인구밀집도 분석(scatter, encircle) 2) 자동차 연비, 실린더 갯수, 배기량 등의 상관관계 → 배기량에 따른 고속도로 연비 변화량 (histogram) → 각 자동차 feature 간 상관관계 분석 (heatmap) → 자동차 모델별 차량 주행거리 분석 → 실린더 갯수에 따른 도심 연비 시각화 → 차급에 따른 도심 연비 비교 → 자동차의 종류별 비율 → 자동차 회사별 시장 점유율 파이썬에서 데이터 분석을 할 때 중요한 시각화 과정! matplotlib를 활용하여 직접 실습해보자 1. 인구 데이터 시각화 & 분석 1) Imp.. Machine Learning/Basic of Python (Colab) 2024. 4. 2.
(파이썬) DataHandling 기초 & 실습(2) - 데이터 슬라이싱, 필터링 데이터 다루는 실습(1)에 이어서 데이터를 불러와서 슬라이싱과 필터링을 통해 실제로 어떻게 활용될 수 있는지 학습해보자 # Data handling 기초 & 실습(1) 첨부 2024.03.29 - [Machine Learning/Basic of Python (Colab)] - (sklearn) DataHandling 기초 & 실습 - 결측치 처리 (sklearn) DataHandling 기초 & 실습 - 결측치 처리 # 결측치 처리 - 일반적인 처리 방법 - sklearn을 이용한 처리 방법 - pandas를 이용한 처리 방법 파이썬 기본 함수와 특성을 이용해서 데이터를 다루는 실습을 해보자 1. Import & DataFrame 생성 결측치를 derrick.tistory.com # 실습 파일 첨부 # .. Machine Learning/Basic of Python (Colab) 2024. 4. 1.
(sklearn) DataHandling 기초 & 실습 - 결측치 처리 # 결측치 처리 - 일반적인 처리 방법 - sklearn을 이용한 처리 방법 - pandas를 이용한 처리 방법 파이썬 기본 함수와 특성을 이용해서 데이터를 다루는 실습을 해보자 1. Import & DataFrame 생성 결측치를 처리하는 다양한 방법에 대해 공부해보자 # 필요한 패키지 import import numpy as np import pandas as pd from sklearn.impute import SimpleImputer, KNNImputer, MissingIndicator import warnings warnings.filterwarnings('ignore') import warnings warnings.filterwarnings('ignore') : warning을 'ignore'.. Machine Learning/Basic of Python (Colab) 2024. 3. 29.
반응형