본문 바로가기
728x90
반응형

분류 전체보기426

(머신러닝) 쉽게 이해하는 Cross Validation. 기법과 원리는? Cross Validation이란 무엇이고 기법의 원리는? 1. Cross Validation? 1) Definition Cross Validation이란 결과에 대한 분산을 줄이기 위해 사용하는 기법이다. ex) 성능 결과가 어떤거는 성능이 98%, 다른 거는 35% 등으로 들쭉날쭉하게 결과의 분산이 너무 크면 어떤 모델이 좋은 것인지 판단하기 어려워진다. → 'K-fold Cross validation'이 대표적으로 많이 사용된다. Q) Cross Validation(교차 검증)이 필요한 이유? : 만들어진 모델이 test set에만 잘 동작하는(=과적합, overfitting)되는 것을 해결하기 위해 필요하다 → 고정된 test set을 가지고 모델의 성능을 확인하고 parameter를 수정하는 것.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1.
(머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는? Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28.
[서초] 서래족발, 서울 족발맛집 정착. 쫄깃하고 맛있고 양도 Good! 집으로 돌아가던 중, '저녁 어디서 뭐 먹지..' 하다가 방배동에 족발 맛집으로 보이는 곳이 있어 방문한 이곳. 내돈내산한 솔직한 후기와 아쉬웠던 점까지 모두 공유드립니다😄 서초 족발맛집, "서래족발" - 주소 - 서울 서초구 방배로 189 1층 (큰 도로변에 있음) - 내방역 6번 출구 보도 100미터 이내 - - 영업시간 - 화~금 : 10:00 ~ 02:00 토~월 : 11:30 ~ 02:00 브레이크타임 : 15:00 ~ 17:00 - 주차 - 음식점 뒤편에 주차공간이 있는데 아주아주 협소합니다. 운전초보는 근처 공영주차장에 주차하세요! 들어가서 차가 많다 싶으면 평행주차 하지마시고 그냥 주차장으로! (나오는 골목도 좁아서 긁고, 긁히고, 니가 나가네 내가 나가네 싸웁니다) - 메뉴 - 서래족발 .. (국내) 여행 & 맛집/서울 2024. 2. 28.
(머신러닝) Clustering이란? K-means 알고리즘 원리 간단 정리! Clustering이란? 대표적인 K-means 알고리즘의 원리 간단 정리! 1. Clustering(군집)이란? Clustering이란, 비슷한 특성(feature)을 가진 데이터들을 하나의 그룹으로 묶는 작업을 의미한다. → 특성의 유사도를 판단하는 기준 : Distance, Connectivity, Distribution, Density 등 → 대표적인 비지도학습(unsupervised learning) 중 하나이다. 실제 현업에서는 regression도 classification 문제도 아닌 문제점들이 있다. 이와 같은 supervised 유형의 정답이 있는 문제들도 많지만, 정답이 없는 unsupervised 유형의 경우도 많다. ex) 신제품에 대한 잠재 소비자들의 수 예상 # 좋은 Clust.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Classification(분류)에 대해 정확히 알고 가자 이번 게시물을 통해서 흔히 많이 들어본 Classification(분류)에 대한 기본적인 개념과 알고리즘의 원리 및 종류를 간단히 알고, binary classification이 무엇이고 우리가 당면한 문제가 binary classification인지 multiclass classification인지를 판단하고, 이를 어떤 방법으로 풀 수 있는지 살펴보자. Classification(분류)란? 분류 알고리즘의 원리와 binary classification에 대해 알아보자 1. Classification? 1) Definition Regression이 데이터를 가장 잘 표현할 수 있는 함수를 찾는 방법이라면, Classification은 데이터를 가장 잘 나누는(=분류하는) 함수를 찾는 방법이다. 위 왼쪽.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Regression 회귀 분석에 대해 정확히 알아보자 Regression(회귀분석)이란? 어떨때 이 분석을 사용하고 대표적인 기법은? 1. Definition 회귀(Regression)이란 사전적 의미로 "go back to an earlier and worse condition"으로 예전의 대표적인 상태로 돌아가는 특성에 기반한 분석을 의미한다. 쉽게 말해 "데이터를 가장 잘 표현하는 함수를 찾는 방법"이며, 이를 통해 "수치적 값을 예측할 수 있는 분석"이라고 보면 된다. 아버지의 키에 따른 아들의 키에 대한 분석을 하면서 처음으로 회귀(regression) 문제로 나왔다. - 장점 → Model이 간단하기 때문에 모델의 학습시간이 짧음 → 선형 데이터에 적합 → 직관적인 해석이 가능 (현업에서 유용하게 사용) - 단점 → 비선형 데이터에 부적합 → 다.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Supervised vs Unsupervised Learning 간단 정리 머신러닝에서 'Supervised'와 'Unsupervised Learning'에 대해 학습하고 그 차이점을 알아보자 Supervised Learning vs Unsupervised Learning 1. Supervised Learning (지도 학습) - 타겟 Y가 명확하게 존재하는 경우 사용하는 학습방법 ex) 어떤 사람이 상품을 샀다/안샀다 등 - 현업에서 만날 수 있는 대다수의 문제가 이 'supervised learning'에 해당 → Regression, Classification, Deep learning X(독립변수)와 Y(종속변수) 사이의 관계를 찾고, 이를 이용하여 미래의 Y(=target)값을 예측하는 원리 - Y가 categorical일 경우, Classification(분류) 영역.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Data Cleaning과 Sampling 샘플링 기법 총정리! 이번 게시물에서는 'Data Cleaning'과 'Data Sampling'에 대해서 학습해보자. → Data Cleaning이란 무엇이고 왜 해야 되는 걸까? → Data Sampling은 왜 필요하고 상황별 어떤 기법을 사용해야될까? Data Cleaning과 Data Sampling이란? 샘플링의 유형과 상황별 어떤 기법을 사용해야될까? 1. Missing Value Data Cleaning이란 모델에 데이터를 넣기 전에 데이터를 쓸 수 있도록 만드는 프로세스를 말한다. Data Cleaning을 학습하기 전에 그 타겟인 'Missing Value'에 대해 알아야 할 필요가 있다. - 실제 데이터에서는 N/A, Null 등의 이상값들이 존재한다 → Missing value 처리 → N/A (Not .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27.
(머신러닝) Feature Selection는 무엇이고 왜 꼭 알아야 하는 걸까? Feature Selection란 무엇이고 데이터 분석 프로세스에서 왜 필요한 걸까? 그리고 어떤 종류가 있는지 살펴보자. Feature Selection이란? 머신러닝 데이터 분석에 꼭 과정이다? 1. Feature Selection? Feature Selection이란, 패턴이 지니고 있는 다수의 특징 중에서 당면한 결정을 하는데 필요 충분하다고 생각되는 소수의 특징을 골라 내는 것을 의미한다. 데이터가 수집되었는데 엄청 많은 데이터들(ex, 2~3천개 등)이 있다면, 그냥 돌릴 수가 없다. 메모리 이슈도 있으며 성능도 당연히 제대로 안 나올 것이다. # 운영적 관점 1) 적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용 감소 2) 적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 26.
(머신러닝) Feature Engineering의 종류와 기법 기초 정리! 데이터 분석을 할 때, 다양하고 많은 Feature(독립 변수)에 대해 모델에 데이터를 넣기 전에 잘 학습되어서 성능이 잘 나오도록 하는 작업을 'Feature Engineering'이라고 한다. 원하는 Feature를 데이터 input으로 사용할 수 있는 형태로 바꾸는 작업부터 종류가 여러가지 있고 해당 목적에 맞는 기법도 다양하다. 이번 게시물을 통해서 특정 기법에 대해 자세히 학습하는 것보다 'Feature Engineering'에 대한 전반적인 이해와 그 종류를 살펴보자. Feature Engineering은 왜 필요한가? 어떤 종류의 도구들과 기법들이 있을까? 1. 인코딩 (Encoding) - 컴퓨터는 정보에 대한 개념이 없기 때문에 각 데이터를 컴퓨터가 인식할 수 있도록 해줘야 한다. - 문.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 26.
반응형