728x90 반응형 전체 글418 (데이터분석) Anaconda & Python 설치 Google Colab 꿀팁 정리! Anaconda 및 Python 설치! Google Colab 사용법과 꿀팁! 1. Anaconda 설치 공부하면서 진행하는 실습은 대부분 Google colab에서 실시하지만 간혹 colab에서 사용할 수 없는 경우가 있어서 Anaconda를 통해 학습을 하기 좋다. 1) 구글 'anaconda' 검색해서 설치 : 'Download' 누른 후에 'Next, I agree'만 누르면 다운로드 끝 → 제일 최신버전으로 다운로드가 되는데, 사양 구분이 필요하면 버전을 체크해보고 다운로드하면 된다. # Anaconda 설치 링크 https://www.anaconda.com/download Free Download | Anaconda Anaconda's open-source Distribution is the .. Machine Learning/Basic of Python (Colab) 2024. 3. 9. 더보기 ›› (머신러닝) 학습된 모델을 평가하는 척도는 어떤 것이 있을까? 학습된 모델들을 평가하는 척도에 대해서 알아보자 (Model metrics) 1. 모델 평가 척도는 왜 필요할까? - 모델이 "잘" 학습되었는가를 확인할 수 있는 평가 수준이 필요 → 현업에서는 공통적으로 공감할 수 있는 지표가 필요하다. 모델링을 하는 사람과 현업을 하는 사람들의 언어는 전혀 다르기 때문에 모두가 공통적으로 공감할 수 있는 지표가 필요하다. 2. 많이 쓰이는 척도 모델을 평가하는 척도에는 일반적으로 많이 쓰이는 것과 잘 쓰이지는 않지만, 알아두면 언젠가 쓰일 수 있는 척도들이 있다. # 일반적으로 많이 사용되는 모델 평가 척도 (분류) - Accuracy (정확도) : 분류의 전체적인 정확도를 확인할 수 있는 지표 - Recall (재현율) : 분류하고자 하는 클래스를 분류하였는지를 측.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1. 더보기 ›› (머신러닝) Overfitting은 꼭 해결해야되는 문제일까? 머신러닝의 목표는 training dataset을 이용하여 모델을 학습하고, 학습된 모델을 이용하여 관측되지 않았던 새로운 데이터에 대해 예측을 수행하는 것이다. 따라서 training set에 포함되지 않은 데이터들을 test set으로 구성하고, 이 test set에 대해 모델의 성능을 측정함으로써 새로운 데이터에 대한 모델의 성능을 평가한다. → 따라서 머신러닝 모델은 train set만을 가지고 test set에 대한 정확한 예측이 가능하도록 training하게 되는데, 이 과정에서 overfitting이 일어나게 되고, 일반화를 위한 모델의 경우 이를 방지하지만 오히려 overfitting이 필요한 경우가 있을 수 있다. 모델 학습하면서 종종 발생하는 Overfitting 꼭 해결해야되는 문제일.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1. 더보기 ›› (머신러닝) 쉽게 이해하는 Cross Validation. 기법과 원리는? Cross Validation이란 무엇이고 기법의 원리는? 1. Cross Validation? 1) Definition Cross Validation이란 결과에 대한 분산을 줄이기 위해 사용하는 기법이다. ex) 성능 결과가 어떤거는 성능이 98%, 다른 거는 35% 등으로 들쭉날쭉하게 결과의 분산이 너무 크면 어떤 모델이 좋은 것인지 판단하기 어려워진다. → 'K-fold Cross validation'이 대표적으로 많이 사용된다. Q) Cross Validation(교차 검증)이 필요한 이유? : 만들어진 모델이 test set에만 잘 동작하는(=과적합, overfitting)되는 것을 해결하기 위해 필요하다 → 고정된 test set을 가지고 모델의 성능을 확인하고 parameter를 수정하는 것.. Machine Learning/데이터 분석 이론과 기초 2024. 3. 1. 더보기 ›› (머신러닝) 데이터를 'Train, Validation, Test'로 나누는 이유는? Train, Validation, Test data에 대해 학습하고, 데이터를 왜 나누는지도 정확히 알아보자 Train / Validation / Test 데이터를 어떤 목적으로 나누는 걸까? 1. Train / Test 1) 어떻게 좋은 모델을 선택할까? regression, classification 등의 많은 시도 끝에 '어떻게 좋은 모델을 선택할까?' 라는 질문은 마지막까지 계속 생기게 된다. 하지만, 그 과정에서 전체 데이터를 어떻게 나누고 어떤 순서로 성능을 측정하는지 알아보자 # 데이터 성능도 측정 프로세스 1. 전체 데이터를 Train 데이터와 Test 데이터로 나눔 → Train 데이터와 Test 데이터는 겹치는 부분이 있으면 안됨 → 둘은 가능한 최대한 독립적인 관계를 갖는 것이 좋음 .. Machine Learning/데이터 분석 이론과 기초 2024. 2. 28. 더보기 ›› [서초] 서래족발, 서울 족발맛집 정착. 쫄깃하고 맛있고 양도 Good! 집으로 돌아가던 중, '저녁 어디서 뭐 먹지..' 하다가 방배동에 족발 맛집으로 보이는 곳이 있어 방문한 이곳. 내돈내산한 솔직한 후기와 아쉬웠던 점까지 모두 공유드립니다😄 서초 족발맛집, "서래족발" - 주소 - 서울 서초구 방배로 189 1층 (큰 도로변에 있음) - 내방역 6번 출구 보도 100미터 이내 - - 영업시간 - 화~금 : 10:00 ~ 02:00 토~월 : 11:30 ~ 02:00 브레이크타임 : 15:00 ~ 17:00 - 주차 - 음식점 뒤편에 주차공간이 있는데 아주아주 협소합니다. 운전초보는 근처 공영주차장에 주차하세요! 들어가서 차가 많다 싶으면 평행주차 하지마시고 그냥 주차장으로! (나오는 골목도 좁아서 긁고, 긁히고, 니가 나가네 내가 나가네 싸웁니다) - 메뉴 - 서래족발 .. (국내) 여행 & 맛집/서울 2024. 2. 28. 더보기 ›› (머신러닝) Clustering이란? K-means 알고리즘 원리 간단 정리! Clustering이란? 대표적인 K-means 알고리즘의 원리 간단 정리! 1. Clustering(군집)이란? Clustering이란, 비슷한 특성(feature)을 가진 데이터들을 하나의 그룹으로 묶는 작업을 의미한다. → 특성의 유사도를 판단하는 기준 : Distance, Connectivity, Distribution, Density 등 → 대표적인 비지도학습(unsupervised learning) 중 하나이다. 실제 현업에서는 regression도 classification 문제도 아닌 문제점들이 있다. 이와 같은 supervised 유형의 정답이 있는 문제들도 많지만, 정답이 없는 unsupervised 유형의 경우도 많다. ex) 신제품에 대한 잠재 소비자들의 수 예상 # 좋은 Clust.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27. 더보기 ›› (머신러닝) Classification(분류)에 대해 정확히 알고 가자 이번 게시물을 통해서 흔히 많이 들어본 Classification(분류)에 대한 기본적인 개념과 알고리즘의 원리 및 종류를 간단히 알고, binary classification이 무엇이고 우리가 당면한 문제가 binary classification인지 multiclass classification인지를 판단하고, 이를 어떤 방법으로 풀 수 있는지 살펴보자. Classification(분류)란? 분류 알고리즘의 원리와 binary classification에 대해 알아보자 1. Classification? 1) Definition Regression이 데이터를 가장 잘 표현할 수 있는 함수를 찾는 방법이라면, Classification은 데이터를 가장 잘 나누는(=분류하는) 함수를 찾는 방법이다. 위 왼쪽.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27. 더보기 ›› (머신러닝) Regression 회귀 분석에 대해 정확히 알아보자 Regression(회귀분석)이란? 어떨때 이 분석을 사용하고 대표적인 기법은? 1. Definition 회귀(Regression)이란 사전적 의미로 "go back to an earlier and worse condition"으로 예전의 대표적인 상태로 돌아가는 특성에 기반한 분석을 의미한다. 쉽게 말해 "데이터를 가장 잘 표현하는 함수를 찾는 방법"이며, 이를 통해 "수치적 값을 예측할 수 있는 분석"이라고 보면 된다. 아버지의 키에 따른 아들의 키에 대한 분석을 하면서 처음으로 회귀(regression) 문제로 나왔다. - 장점 → Model이 간단하기 때문에 모델의 학습시간이 짧음 → 선형 데이터에 적합 → 직관적인 해석이 가능 (현업에서 유용하게 사용) - 단점 → 비선형 데이터에 부적합 → 다.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27. 더보기 ›› (머신러닝) Supervised vs Unsupervised Learning 간단 정리 머신러닝에서 'Supervised'와 'Unsupervised Learning'에 대해 학습하고 그 차이점을 알아보자 Supervised Learning vs Unsupervised Learning 1. Supervised Learning (지도 학습) - 타겟 Y가 명확하게 존재하는 경우 사용하는 학습방법 ex) 어떤 사람이 상품을 샀다/안샀다 등 - 현업에서 만날 수 있는 대다수의 문제가 이 'supervised learning'에 해당 → Regression, Classification, Deep learning X(독립변수)와 Y(종속변수) 사이의 관계를 찾고, 이를 이용하여 미래의 Y(=target)값을 예측하는 원리 - Y가 categorical일 경우, Classification(분류) 영역.. Machine Learning/데이터 분석 이론과 기초 2024. 2. 27. 더보기 ›› 반응형 이전 1 2 3 4 5 6 ··· 42 다음