본문 바로가기
728x90
반응형

Machine Learning28

(머신러닝) Classification(분류)에 대해 정확히 알고 가자 이번 게시물을 통해서 흔히 많이 들어본 Classification(분류)에 대한 기본적인 개념과 알고리즘의 원리 및 종류를 간단히 알고, binary classification이 무엇이고 우리가 당면한 문제가 binary classification인지 multiclass classification인지를 판단하고, 이를 어떤 방법으로 풀 수 있는지 살펴보자. Classification(분류)란? 분류 알고리즘의 원리와 binary classification에 대해 알아보자 1. Classification? 1) Definition Regression이 데이터를 가장 잘 표현할 수 있는 함수를 찾는 방법이라면, Classification은 데이터를 가장 잘 나누는(=분류하는) 함수를 찾는 방법이다. 위 왼쪽.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Regression 회귀 분석에 대해 정확히 알아보자 Regression(회귀분석)이란? 어떨때 이 분석을 사용하고 대표적인 기법은? 1. Definition 회귀(Regression)이란 사전적 의미로 "go back to an earlier and worse condition"으로 예전의 대표적인 상태로 돌아가는 특성에 기반한 분석을 의미한다. 쉽게 말해 "데이터를 가장 잘 표현하는 함수를 찾는 방법"이며, 이를 통해 "수치적 값을 예측할 수 있는 분석"이라고 보면 된다. 아버지의 키에 따른 아들의 키에 대한 분석을 하면서 처음으로 회귀(regression) 문제로 나왔다. - 장점 → Model이 간단하기 때문에 모델의 학습시간이 짧음 → 선형 데이터에 적합 → 직관적인 해석이 가능 (현업에서 유용하게 사용) - 단점 → 비선형 데이터에 부적합 → 다.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Supervised vs Unsupervised Learning 간단 정리 머신러닝에서 'Supervised'와 'Unsupervised Learning'에 대해 학습하고 그 차이점을 알아보자 Supervised Learning vs Unsupervised Learning 1. Supervised Learning (지도 학습) - 타겟 Y가 명확하게 존재하는 경우 사용하는 학습방법 ex) 어떤 사람이 상품을 샀다/안샀다 등 - 현업에서 만날 수 있는 대다수의 문제가 이 'supervised learning'에 해당 → Regression, Classification, Deep learning X(독립변수)와 Y(종속변수) 사이의 관계를 찾고, 이를 이용하여 미래의 Y(=target)값을 예측하는 원리 - Y가 categorical일 경우, Classification(분류) 영역.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Data Cleaning과 Sampling 샘플링 기법 총정리! 이번 게시물에서는 'Data Cleaning'과 'Data Sampling'에 대해서 학습해보자. → Data Cleaning이란 무엇이고 왜 해야 되는 걸까? → Data Sampling은 왜 필요하고 상황별 어떤 기법을 사용해야될까? Data Cleaning과 Data Sampling이란? 샘플링의 유형과 상황별 어떤 기법을 사용해야될까? 1. Missing Value Data Cleaning이란 모델에 데이터를 넣기 전에 데이터를 쓸 수 있도록 만드는 프로세스를 말한다. Data Cleaning을 학습하기 전에 그 타겟인 'Missing Value'에 대해 알아야 할 필요가 있다. - 실제 데이터에서는 N/A, Null 등의 이상값들이 존재한다 → Missing value 처리 → N/A (Not .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Feature Selection는 무엇이고 왜 꼭 알아야 하는 걸까? Feature Selection란 무엇이고 데이터 분석 프로세스에서 왜 필요한 걸까? 그리고 어떤 종류가 있는지 살펴보자. Feature Selection이란? 머신러닝 데이터 분석에 꼭 과정이다? 1. Feature Selection? Feature Selection이란, 패턴이 지니고 있는 다수의 특징 중에서 당면한 결정을 하는데 필요 충분하다고 생각되는 소수의 특징을 골라 내는 것을 의미한다. 데이터가 수집되었는데 엄청 많은 데이터들(ex, 2~3천개 등)이 있다면, 그냥 돌릴 수가 없다. 메모리 이슈도 있으며 성능도 당연히 제대로 안 나올 것이다. # 운영적 관점 1) 적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용 감소 2) 적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 26.
(머신러닝) Feature Engineering의 종류와 기법 기초 정리! 데이터 분석을 할 때, 다양하고 많은 Feature(독립 변수)에 대해 모델에 데이터를 넣기 전에 잘 학습되어서 성능이 잘 나오도록 하는 작업을 'Feature Engineering'이라고 한다. 원하는 Feature를 데이터 input으로 사용할 수 있는 형태로 바꾸는 작업부터 종류가 여러가지 있고 해당 목적에 맞는 기법도 다양하다. 이번 게시물을 통해서 특정 기법에 대해 자세히 학습하는 것보다 'Feature Engineering'에 대한 전반적인 이해와 그 종류를 살펴보자. Feature Engineering은 왜 필요한가? 어떤 종류의 도구들과 기법들이 있을까? 1. 인코딩 (Encoding) - 컴퓨터는 정보에 대한 개념이 없기 때문에 각 데이터를 컴퓨터가 인식할 수 있도록 해줘야 한다. - 문.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 26.
머신러닝(ML)으로 현업에서 해결할 수 있는 문제 유형 총 정리! 본격적인 데이터 분석을 학습하기 전에 머신러닝으로 어떠한 문제점들을 해결할 수 있는지에 대해 살펴보자. 어떤 경우와 문제를 머신러닝 모델로 분석하고 해결할 수 있을까? 유형별로 확인해보자. 머신러닝으로 접근/해결할 수 있는 문제점들은? 1. Forecast (예측) 1) Forecast란? 머신러닝으로 분석할 수 있는 많은 문제들 중에 가장 대표적인 것은 'Forecast(예측)' - 시간의 흐름에 따라 기록된 데이터를 이용하여 변수들간의 인과관계를 분석하여 미래를 예측하는 영역 → Time series(시계열) 데이터 자체만으로 미래를 예측하는 영역 - 주 활용 영역은 날씨 예측, 주식 예측, 상품 판매량 예측 등 - 숫자가 존재하는 모든 영역에서 연구되고 구현되는 분야 - 대표적인 알고리즘은 AR(I.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 25.
현업 데이터 분석의 오해와 진실 - 실패와 성공한 사례 분석 이번 게시물에서는 AI, Machine Learning(ML)의 역사, 중요한 전환포인트와 현재 수준을 확인해보고 데이터분석이 실제 현업에서 어떻게 사용되고 있는지 알아보자. 그리고 대부분의 기업들이 AI, ML 시스템을 도입하려고 하지만, 실패하는 이유는 무엇이고 성공하는 기업의 사례는 어떤 것이 있는지 살펴보자 데이터 분석은 현업에서 어떻게 사용되나? 많은 기업들이 AI/ML 도입에 실패/성공하는 이유와 사례는? 1. AI / ML 시대 1) 역사적 흐름 보통 사람들이 AI, Machine Learning을 최신 기술이라고 생각하고 있지만, 이미 머신러닝/딥러닝에 대한 수학적 수식들은 과거부터 수세기에 걸쳐서 만들어져있다. 하지만, 중요한 것은 '그 수식과 AI 기술이 최근들어 잘 사용되고 있는 것인.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 23.
반응형