본문 바로가기
728x90
반응형

타이타닉 데이터분석5

[Titanic] Feature Engineering(2) - One hot encoding, correlation ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check, EDA 이후 Feature Engineering 과정을 통해 모델 학습도와 성능 향상 - 문자값을 수치로 변환(Initial, Embarked, Sex), One-hot encoding(Initial, Embarked), Feature간 상관관계(correlation) 확인 - Feature Engineering(1) - 결측값(null) 처리 과정에 이어서 학습 2. String 데이터 형태 → Interger 로 변환 - String 데이터를 모델 학습에 유용하게 학습시킬 수 있도록 수치로 변경하는 작업 - 일일이 하드코딩으로 바꾸는 것보다, mapping(=map() 함수)를 통해 .. Data Analyst/Kaggle & DACON 2022. 11. 29.
[Titanic] Feature Engineering(1) - 결측값(Null) 처리 ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check, EDA 이후 Feature Engineering 과정을 통해 모델 학습도와 성능 향상 - Null값 채우기(Age, Embarked), 카테고리화(Age) - Feature Engineering은 모델의 학습과 성능도(=정확도)를 높이기 위해 학습 데이터의 패턴이 잘 보일 수 있도록 수정하여 Target값을 잘 예측(predict)할 수 있도록 하는 중요한 과정이다. - 각 Feature의 특성에 맞는 엔지니어링 작업을 수행 1. 결측값(Null) 채우기 1.1. Age, Name → Initial 로 치환 후 Null 채우기 - Name이 탑승객별로 너무 상이하여, 이름에 있는 타이틀(.. Data Analyst/Kaggle & DACON 2022. 10. 30.
[Titanic] EDA (Exploratory Data Analysis) - 타이타닉 데이터 분석(2) ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check(타이타닉 첫번째 chapter) 이후, EDA 과정을 통해 Feature 분석 단계 → 타이타닉 데이터분석(1) 에 이어서 4. Violinplot (Age, Sex, Pclass) - 3개의 dimension에서 Pclass, Sex, Age를 한 눈에 비교하며 분석할 수 있도록 시각화해보자 - Seaborn - violinplot 사용. 먼저 필사를 통해 결과물을 확인하고 익혀가는 방식으로 공부하자 f, ax = plt.subplots(1,2,figsize=(18,8)) # x축 : Pclass, y축 : Age, 색깔(Survived) sns.violinplot('Pclass', 'A.. Data Analyst/Kaggle & DACON 2022. 10. 7.
[Titanic] EDA (Exploratory Data Analysis) - 타이타닉 데이터 분석(1) ※ 타이타닉에 승선한 사람들의 데이터를 활용하여 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ Dataset Check(타이타닉 첫번째 chapter) 이후, EDA 과정을 통해 Feature 분석 단계 - Target Label인 'Survived'를 제외한 총 11개의 Feature 중 어떤 Feature를 고려하면 강력한 insight를 얻을 수 있을지 가설과 결과를 도출하기 위해 EDA(Exploratory Data Analysis) 단계는 매우 중요하다. → 여기서 insight란, 통계적인 insight. 즉, 본인이 원하는 수치나 그림(그래프)를 출력하고 특정 결과를 도출 하는 과정을 말한다. → 더불어 출력한 시각화된 데이터를 통해 말하고자/보고자 하는 것들을 해석할 수 있는 역량이 .. Data Analyst/Kaggle & DACON 2022. 10. 6.
[Titanic] Dataset Check (Train & Test dataset, Null data) - 생존자 예측 ※ 타이타닉에 승선한 사람들의 데이터로 승객들의 생존여부를 예측하는 모델 구축 / 개발 ※ 단계별 Flow 정리 1) Dataset check : Train, test dataset 확인 및 Null data 분포 분석 (모델 성능을 위해) 2) EDA(Exploratory Data Analysis) : 각각의 Column들을 분석하고, Feature간 어떤 관계성을 가지는지 분석 3) Feature Engineering : 모델 생선 전, 성능을 높이기 위해 엔지니어링 작업 수행 4) Model 생성 : Sklearn 라이브러리 활용 / 딥러닝 : Tensorflow or pytorch 등 사용 5) Model Training 및 Prediction : Train data를 훈련 후에 Test data.. Data Analyst/Kaggle & DACON 2022. 9. 24.
반응형