본문 바로가기
728x90
반응형

Data Analyst/Kaggle & DACON7

[HDAT] HEV/PHEV 차량 에너지 흐름상태(HevMode) 예측하는 모델 실습 ※ 2022 HDAT-DA (Hyundai motor group Data Analytic Test) HevMode 예측 모델 실습 : HEV/PHEV 차량의 에너지 흐름 상태 정보인 'HevMode' 정보에 대한 상세 데이터 분석 및 이를 통한 에너지 흐름 상태(HevMode) 예측하는 모델을 생성하는 것이 목표 # 단계별 Flow 정리 1) Dataset check : 데이터 불러오기 & Train, Test dataset, Submission (총 3가지 파일) 2) EDA(Exploratory Data Analysis) : Column들과 Target의 분포도 시각화, 결측값 점검, Correlation 분석 3) Feature Engineering : Feature간 관계성 분석 및 데이터 전처리.. Data Analyst/Kaggle & DACON 2022. 12. 4.
[Titanic] Model Development(ML) - Randomforest (지도학습) ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check, EDA, Feature Engineering 이후 머신러닝(ML) 모델을 만들고, 예측하기 → 지도학습, Sklearn 1. Model 생성 및 테스트 (ML, Randomforest) - RandomForestClassifier : 이진 분류 (Classifier 알고리즘) - Forest : Decision Tree를 랜덤하게 만들고, ensemble 시킨 형태 1.1. 필요한 라이브러리 선언 - 데이터분석과 머신러닝은 'Sklearn' 라이브러리를 반드시 숙지해야 한다. - 학습하지 않은 Test set을 입력해도 성능도 확인! from sklearn.ensemble import R.. Data Analyst/Kaggle & DACON 2022. 12. 4.
[Titanic] Feature Engineering(2) - One hot encoding, correlation ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check, EDA 이후 Feature Engineering 과정을 통해 모델 학습도와 성능 향상 - 문자값을 수치로 변환(Initial, Embarked, Sex), One-hot encoding(Initial, Embarked), Feature간 상관관계(correlation) 확인 - Feature Engineering(1) - 결측값(null) 처리 과정에 이어서 학습 2. String 데이터 형태 → Interger 로 변환 - String 데이터를 모델 학습에 유용하게 학습시킬 수 있도록 수치로 변경하는 작업 - 일일이 하드코딩으로 바꾸는 것보다, mapping(=map() 함수)를 통해 .. Data Analyst/Kaggle & DACON 2022. 11. 29.
[Titanic] Feature Engineering(1) - 결측값(Null) 처리 ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check, EDA 이후 Feature Engineering 과정을 통해 모델 학습도와 성능 향상 - Null값 채우기(Age, Embarked), 카테고리화(Age) - Feature Engineering은 모델의 학습과 성능도(=정확도)를 높이기 위해 학습 데이터의 패턴이 잘 보일 수 있도록 수정하여 Target값을 잘 예측(predict)할 수 있도록 하는 중요한 과정이다. - 각 Feature의 특성에 맞는 엔지니어링 작업을 수행 1. 결측값(Null) 채우기 1.1. Age, Name → Initial 로 치환 후 Null 채우기 - Name이 탑승객별로 너무 상이하여, 이름에 있는 타이틀(.. Data Analyst/Kaggle & DACON 2022. 10. 30.
[Titanic] EDA (Exploratory Data Analysis) - 타이타닉 데이터 분석(2) ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check(타이타닉 첫번째 chapter) 이후, EDA 과정을 통해 Feature 분석 단계 → 타이타닉 데이터분석(1) 에 이어서 4. Violinplot (Age, Sex, Pclass) - 3개의 dimension에서 Pclass, Sex, Age를 한 눈에 비교하며 분석할 수 있도록 시각화해보자 - Seaborn - violinplot 사용. 먼저 필사를 통해 결과물을 확인하고 익혀가는 방식으로 공부하자 f, ax = plt.subplots(1,2,figsize=(18,8)) # x축 : Pclass, y축 : Age, 색깔(Survived) sns.violinplot('Pclass', 'A.. Data Analyst/Kaggle & DACON 2022. 10. 7.
[Titanic] EDA (Exploratory Data Analysis) - 타이타닉 데이터 분석(1) ※ 타이타닉에 승선한 사람들의 데이터를 활용하여 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check(타이타닉 첫번째 chapter) 이후, EDA 과정을 통해 Feature 분석 단계 - Target Label인 'Survived'를 제외한 총 11개의 Feature 중 어떤 Feature를 고려하면 강력한 insight를 얻을 수 있을지 가설과 결과를 도출하기 위해 EDA(Exploratory Data Analysis) 단계는 매우 중요하다. → 여기서 insight란, 통계적인 insight. 즉, 본인이 원하는 수치나 그림(그래프)를 출력하고 특정 결과를 도출 하는 과정을 말한다. → 더불어 출력한 시각화된 데이터를 통해 말하고자/보고자 하는 것들을 해석할 수 있는 역량이 .. Data Analyst/Kaggle & DACON 2022. 10. 6.
[Titanic] Dataset Check (Train & Test dataset, Null data) - 생존자 예측 ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ 단계별 Flow 정리 1) Dataset check : Train, test dataset 확인 및 Null data 분포 분석 (모델 성능을 위해) 2) EDA(Exploratory Data Analysis) : 각각의 Column들을 분석하고, Feature간 어떤 관계성을 가지는지 분석 3) Feature Engineering : 모델 생선 전, 성능을 높이기 위해 엔지니어링 작업 수행 4) Model 생성 : Sklearn 라이브러리 활용 / 딥러닝 : Tensorflow or pytorch 등 사용 5) Model Training 및 Prediction : Train data를 훈련 후에 Test data.. Data Analyst/Kaggle & DACON 2022. 9. 24.
반응형