본문 바로가기
728x90
반응형

Data Analyst/Project & Practice8

TED 강연 데이터 분석하기! 가장 인기 있는 강의 유형은? TED 강연의 관련하여 주어진 통계 자료(ted.csv)에 대해 아래와 같이 분석하고, 인기 있는 강연은 어떤 요소들이 있는지 파이썬을 통해 수치로 분석해보고, 그래프로 시각화해보자 - 가장 인기 있는 강연의 유형 Top5은? - 강연을 끝까지 들은 비율 (강연 길이와 비교/분석) - 강연에 지원되는 언어의 수에 따른 조회수 분석 - 강의에 대한 다양한 평가와 해당 평가에 대한 키워드 분석 이전 게시물(CSV, JSON 형태의 데이터를 효율적으로~)에서 학습한 assert(), map(), filter() 함수를 이용하면 더 쉽고 간단하게 할 수 있다. # 이전 게시물 (csv, json 데이터 처리) 2024.01.11 - [Data Analyst/Project & Practice] - CSV, JSO.. Data Analyst/Project & Practice 2024. 1. 21.
CSV, JSON 데이터 처리 - lambda, assert, map, filter 등 파이썬 데이터 분석을 하는 많은 경우에 주어지는 데이터들은 대부분 CSV, JSON 형태가 많습니다. 간단한 텍스트가 아닌 복잡한 형태로 된 데이터들을 어떻게 효율적으로 처리하고 분석하는지 기초부터 실습을 통해 학습합니다. 파이썬 데이터를 다룰 때 꼭 알아야 하는 함수나 문법은 아니지만, 알고 있다면 매우 유용하게 사용할 수 있는 것들을 배워보자. 이번 게시물을 통해 학습한 내용을 바탕으로, 다음 게시물에서는 테드(Ted) 강연에서 지금껏 가장 인기 있는 동영상과 Hot한 주제는 무엇인지 분석하는 미션을 수행해봅시다. CSV, JSON 형태의 데이터들을 다룰 때 효율적으로 분석하고 처리할 수 있는 Tip들과 고급 함수들을 학습합니다. 1. CSV 'CSV'란, JSON과 비슷하게 자료의 형식 중 하나로 .. Data Analyst/Project & Practice 2024. 1. 11.
넷플릭스 영화 추천 알고리즘 파이썬 코드로 구현하기! 시청데이터로 예상 선호도 산출! 타이타닉, 쥬라기공원, 스타워즈를 본 나와 비슷한 유저는? 실제 넷플릭스 데이터 대회에 사용된 데이터의 일부를 JSON, 사전형(Dictionary)로 변환하고 재정렬해보며 비슷한 성향의 유저를 찾을 수 있다. 그리고 사람들에게 작품을 추천해주거나 A작품과 B작품이 얼마나 비슷한지 분석할 수 있는 코드를 한번 생성하는 실습을 진행해보자. - 회원별로 시청한 작품 정리하기 - 두 작품의 유사도 비교하기 - 예상 선호도 점수 구하기 - 사용자(User)가 시청한 영화들을 기반으로 선호할만한 영화 Top 10 추천받기 이전 게시물(JSON을 Dictionary로 변환할때 ~)을 공부하면서 기본적인 이론과 코드 원리를 공부하고 실습하면 더 쉽게 할 수 있을 것 같다. # 이전 게시물 2023.12.04 - [D.. Data Analyst/Project & Practice 2023. 12. 4.
JSON 형식을 dictionary로 변환할때 알아야 할 이론과 실습! (w/넷플릭스 시청데이터) JSON 데이터 형식을 배우고 파이썬의 딕셔너리, 집합 등의 데이터 구조로 변환하여 주어진 데이터를 분석하는 법에 대해 학습합니다. 이후 실제로 넷플릭스 데이터 경진대회에서 사용되었던 JSON 데이터의 일부분을 활용하여 사람들에게 작품을 추천해주거나 A작품과 B작품이 얼마나 비슷한지 등을 분석할 수 있는 실습을 진행해봅니다! # JSON : JavaScript Object Notation → 데이터를 효과적으로 교환하기 위해 사용되는 경량의 데이터 형식 → 프로그래밍 언어와 플랫폼에 독립적이기 때문에 대부분의 언어에서 지원. 특히 웹개발에 유용 JSON 형식으로 python 딕셔너리로 변환해서 분석하기! 넷플릭스 시청 데이터 분석하기 위한 기초 이론/실습 진행! 1. 딕셔너리(Dictionary) 딕셔너.. Data Analyst/Project & Practice 2023. 12. 4.
[파이썬 데이터분석] 가장 많이 사용하는 '영어 단어'는? 코드 구현! 약 1억 개의 영어 단어와 그 빈도수를 정리/구성된 British National Corpus(BCN) 단어 모음을 분석하고 그래프로 시각화해보자. 그리고나서 '이상한 나라의 엘리스' 동화책에 등장하는 단어와 BCN의 영어단어의 사용빈도 수를 비교해보자. BCN과 영어동화책에서 가장 많이 사용된 영어 단어는 무엇일까? → 'corpus.txt' 를 이용해서 가장 많이 사용된 영어 단어 분석 (하나의 텍스트파일 - BCN 자료) → 'alice/chapter1~5.txt' 를 이용하여 영어동화책에 사용된 영어 단어 분석 (여러 개의 텍스트파일 - 동화책) → 'matplotlib' 을 이용해 단어별 사용빈도를 보여주는 막대 그래프 작성 → 아래 주어진 단계를 통해 각각의 필요한 함수들을 생성하고, main.. Data Analyst/Project & Practice 2023. 11. 20.
데이터 분석 - 파일/데이터의 구조/그래프 다루기 기초 정리! 데이터 분석을 하는데 있어 "다룰 줄 알아야 하는 기초적인 3가지"를 학습하자! 이번에 학습한 내용과 코드를 바탕으로 다음 게시물에서는 "대략 1억 개의 영문단어들 중 가장 많이 사용되는 단어 10,000개를 추출하고 시각화"해보자. "파일, 데이터의 구조, 그래프를 다루는 방법" 학습하고 다음 게시물을 통해 영어 단어의 사용 빈도수를 분석하는 실습을 진행하자 1. 파일 다루기 (open, close, read, write 등) 파일 다루기는 파일을 열고 닫는 함수부터 읽고 쓰는 함수까지 있다. 아래 코드로 확인해보자. → open() 함수를 통해 지정한 파일 이름에 해당하는 파일을 열고, 읽거나 수정할 수 있다. → 'with ~ as' 구문을 이용하면 파일을 자동으로 닫을 수 있고, for문을 통해 .. Data Analyst/Project & Practice 2023. 11. 18.
[파이썬] 트럼프 대통령이 1년 동안 게시한 트위터 데이터 분석!! 트럼프 대통령은 트위터를 굉장히 많이 사용하는 것으로 유명하다. 여기서 많이 사용하는 단어와 해시테크 그리고 언제 트위터를 많이 사용했는지 등을 알아보고 보기 쉽게 정리해보자. 구체적으로 트럼프 대통령이 2017년 1월 20일 취임 후, 1년 동안 게시한 2,500여 개의 트위터를 분석해보자. - 가장 많이 사용한 해시테크(#) - 가장 많이 사용한 키워드 - 가장 많이 사용한 멘션(@) - 월별 트위터 통계 분석 후, 데이터의 유형에 적합한 시각화 코드(막대 그래프, 단어 구름)를 작성해보자. 이전의 파이썬 데이터 분석 기초단계의 실습을 복습하고 트럼프 대통령의 트위터를 분석하고 데이터의 유형에 맞게 시각화해보자! 1. 필요한 라이브러리 import 하기 먼저 데이터분석에 필요한 라이브러리를 impor.. Data Analyst/Project & Practice 2023. 11. 16.
[파이썬] 데이터 분석하기 위해 꼭 알아야 할 기초 7가지!! (이론+실습) # 데이터 분석 기초단계의 목표 1) 파이썬 문법과 프로그래밍의 개념 이해하기 2) 실제 데이터를 다루고 분석하기 3) 상위 단계로 넘어갈 수 있는 기초 기르기 본격적인 데이터 분석에 들어가기에 앞서 파이썬 문법과 프로그래밍의 개념 이해가 선행되고, 실제 데이터를 다루고 분석하며, 더 높은 상위 단계로 넘어갈 수 있는 기초를 다지는 것이 무엇보다 중요하다. → 꼭 알아야 할 기초 7가지로 분류해서 이론과 실습을 통해 학습하자. → 단계별 필요한 과정들을 이해하고, 실습으로 트럼프 대통령의 트위터 데이터를 분석하는 실습을 진행하자. 파이썬 데이터 분석하기 위해 꼭 알아야 할 기초 7가지 정리!! 이론과 실습으로 공부해보자 1. for 반복문을 통한 데이터 추출하는 법 3가지 1) for 반복문(리스트) f.. Data Analyst/Project & Practice 2023. 11. 14.
반응형