본문 바로가기
728x90
반응형

분류 전체보기428

[파이썬 데이터분석] 가장 많이 사용하는 '영어 단어'는? 코드 구현! 약 1억 개의 영어 단어와 그 빈도수를 정리/구성된 British National Corpus(BCN) 단어 모음을 분석하고 그래프로 시각화해보자. 그리고나서 '이상한 나라의 엘리스' 동화책에 등장하는 단어와 BCN의 영어단어의 사용빈도 수를 비교해보자. BCN과 영어동화책에서 가장 많이 사용된 영어 단어는 무엇일까? → 'corpus.txt' 를 이용해서 가장 많이 사용된 영어 단어 분석 (하나의 텍스트파일 - BCN 자료) → 'alice/chapter1~5.txt' 를 이용하여 영어동화책에 사용된 영어 단어 분석 (여러 개의 텍스트파일 - 동화책) → 'matplotlib' 을 이용해 단어별 사용빈도를 보여주는 막대 그래프 작성 → 아래 주어진 단계를 통해 각각의 필요한 함수들을 생성하고, main.. Data Analyst/Project & Practice 2023. 11. 20.
데이터 분석 - 파일/데이터의 구조/그래프 다루기 기초 정리! 데이터 분석을 하는데 있어 "다룰 줄 알아야 하는 기초적인 3가지"를 학습하자! 이번에 학습한 내용과 코드를 바탕으로 다음 게시물에서는 "대략 1억 개의 영문단어들 중 가장 많이 사용되는 단어 10,000개를 추출하고 시각화"해보자. "파일, 데이터의 구조, 그래프를 다루는 방법" 학습하고 다음 게시물을 통해 영어 단어의 사용 빈도수를 분석하는 실습을 진행하자 1. 파일 다루기 (open, close, read, write 등) 파일 다루기는 파일을 열고 닫는 함수부터 읽고 쓰는 함수까지 있다. 아래 코드로 확인해보자. → open() 함수를 통해 지정한 파일 이름에 해당하는 파일을 열고, 읽거나 수정할 수 있다. → 'with ~ as' 구문을 이용하면 파일을 자동으로 닫을 수 있고, for문을 통해 .. Data Analyst/Project & Practice 2023. 11. 18.
[파이썬] 트럼프 대통령이 1년 동안 게시한 트위터 데이터 분석!! 트럼프 대통령은 트위터를 굉장히 많이 사용하는 것으로 유명하다. 여기서 많이 사용하는 단어와 해시테크 그리고 언제 트위터를 많이 사용했는지 등을 알아보고 보기 쉽게 정리해보자. 구체적으로 트럼프 대통령이 2017년 1월 20일 취임 후, 1년 동안 게시한 2,500여 개의 트위터를 분석해보자. - 가장 많이 사용한 해시테크(#) - 가장 많이 사용한 키워드 - 가장 많이 사용한 멘션(@) - 월별 트위터 통계 분석 후, 데이터의 유형에 적합한 시각화 코드(막대 그래프, 단어 구름)를 작성해보자. 이전의 파이썬 데이터 분석 기초단계의 실습을 복습하고 트럼프 대통령의 트위터를 분석하고 데이터의 유형에 맞게 시각화해보자! 1. 필요한 라이브러리 import 하기 먼저 데이터분석에 필요한 라이브러리를 impor.. Data Analyst/Project & Practice 2023. 11. 16.
[파이썬] 데이터 분석하기 위해 꼭 알아야 할 기초 7가지!! (이론+실습) # 데이터 분석 기초단계의 목표 1) 파이썬 문법과 프로그래밍의 개념 이해하기 2) 실제 데이터를 다루고 분석하기 3) 상위 단계로 넘어갈 수 있는 기초 기르기 본격적인 데이터 분석에 들어가기에 앞서 파이썬 문법과 프로그래밍의 개념 이해가 선행되고, 실제 데이터를 다루고 분석하며, 더 높은 상위 단계로 넘어갈 수 있는 기초를 다지는 것이 무엇보다 중요하다. → 꼭 알아야 할 기초 7가지로 분류해서 이론과 실습을 통해 학습하자. → 단계별 필요한 과정들을 이해하고, 실습으로 트럼프 대통령의 트위터 데이터를 분석하는 실습을 진행하자. 파이썬 데이터 분석하기 위해 꼭 알아야 할 기초 7가지 정리!! 이론과 실습으로 공부해보자 1. for 반복문을 통한 데이터 추출하는 법 3가지 1) for 반복문(리스트) f.. Data Analyst/Project & Practice 2023. 11. 14.
[파이썬 통계] 사건과 조건부확률 & 확률분포 응용하는 법! 사건과 확률에 대한 용어와 개념, 조건부 확률과 독립의 개념을 배우고 확률분포까지 확장하여 응용하는 법을 학습해보자! 1. 사건과 확률의 개념 1) 확률 여러 가능한 결과 중 하나 혹은 일부가 일어날 가능성으로 0과 1 사이의 값으로 정의 ex) 동전을 던지는 사건에 대해 앞면이 나올 확률 0.5 # 확률의 용어 - 실험(Experiment) or 시행(Trial) : 여러 가능한 결과 중 하나가 일어나도록 하는 행위 (ex, 주사위를 1번 던짐) - 표본공간(Sample Space) : 실험에서 나타날 수 있는 모든 결과들을 모아둔 집합 (ex, 1~6의 눈) - 사건(Event) : 표본공간의 일부분(부분집합) 사건 A가 일어날 확률; P(A), or Pr(A) (ex, 1의 눈, 짝수가 나올 확률).. Data Analyst/Basic Python 2023. 11. 6.
[파이썬 통계] 데이터를 논리적 수치로 해석하는 법! (대표값, 퍼진정도 등) 중심위치와 퍼진 정도의 측도 계산법에 대해 학습하고 이를 통해 상자그림을 그려보자. 더불어 2가지 변수의 관계를 파악하는 법 공부! 1. 중심위치의 측도 그래프나 도표에 의한 분석의 단점으로 인해 수치를 통해 연속형 자료를 요약해야할 경우가 있다. → 많은 양의 데이터를 유의미한 수치로 요약하여 대략적인 분포상태를 파악 가능하여 단점 보완! 수치를 통한 연속형 자료를 요약할 때는 아래와 같이 크게 4가지로 할 수 있다. (중심위치와 퍼진 정도의 측도, 도수분포표, 상자그림) 1) 중심위치의 측도 *** : 주어진 데이터들이 가지고 있는 가운데(중심) 위치를 찾는다. → 데이터의 대표값 이 대표값이 나머지 다른 데이터들을 대표한다. 2) 퍼진 정도의 측도 *** : 데이터들이 중심 위치로부터 얼마나 떨어져.. Data Analyst/Basic Python 2023. 11. 6.
[파이썬 확률 통계] 시각화를 통한 데이터 요약하는법! 이론과 실습! 파이썬을 통해 데이터를 분석하고 입맛에 맞게 다루기 위해 필요한 기초적인 통계학을 학습해보자! 0. 통계란? 많은 데이터들에 대한 "해석하고 정리 및 요약"하는 작업을 통계라고 칭한다. 이제부터 아래의 순서대로 파이썬을 활용한 통계학을 학습할려고 한다. (시각화를 통한 자료의 요약 - 논리적인 자료의 요약 - 확률 - 가설검정 및 추론) 기본적으로 통계학적인 내용을 다루어서 데이터들이 의미하는 특징을 찾아보고, 이를 텍스트 혹은 숫자로 표현할 뿐만 아니라 그래프로 시각화하는 것이 첫번째 목표이다. 이 때, 크게 "시각화를 통한 자료의 요약"과 "논리적인 자료의 요약"으로 나누어서 데이터를 이해할 필요가 있다. → '시각화'라는 것은 그래프나 그림을 통해서 자료들의 특징을 살펴보고 '논리적인'이라는 것은 .. Data Analyst/Basic Python 2023. 10. 17.
[Kaggle 데이터분석] 월드컵 경기 데이터의 다양한 속성 분석해보기! 실습! 지금까지 학습한 Pandas와 Numpy 등의 내용을 바탕으로 월드컵 경기 데이터의 다양한 속성들을 확인해보고 그래프로 시각화해보자 1. 데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미하며, 데이터 분석은 대개 아래의 단계로 이루어진다. 1) 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세운다. 2) 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 한다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있다. 3) 데이터 전처리 데이터를 분석하기 전, 필요한.. Data Analyst/Basic Python 2023. 9. 30.
Matplotlib 데이터 시각화, 꼭 알아야 할 이론부터 실습까지! 총정리! 지금까지 학습한 Numpy, Pandas의 내용과 matplotlib 라이브러리의 시각화 기능으로 실습을 통해 데이터를 시각화해보자 1. Matplotlib이란? Matplotlib이란, 파이썬에서 데이터를 그래프나 차트로 시각화할 수 있는 라이브러리 Numpy, Pandas와 같은 라이브러리들과 함께 결합해서 다양한 그래프들을 손쉽게 그릴 수 있음 1) 그래프 그리기 (Statement & Object-Oriented Interface) 'matplotlib.pyplot'을 import하고 plt.plot에 데이터를 넣어주면 그래프가 출력된다. > 아래의 코드에서는 plt.plot(x, y)에 순차적으로 x와 y값이 들어가게 된다. # Statement Interface (자동으로 Figure와 ax .. Data Analyst/Basic Python 2023. 9. 29.
Pandas 함수 활용법! - 조건검색, 함수로 데이터 처리 등 심화학습! Pandas 함수 활용법을 실습을 통해 학습해보자 Pandas를 다루기 위한 다양한 도구들을 활용! 1. 조건으로 검색하기 1) masking 연산 Numpy array와 동일하게 masking 연산이 가능하다. import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"]) df["A"] < 0.5 - np.random.rand(5, 2), columns=["A", "B"] : 0~1 사이의 실수 중 5개를 랜덤하게 추출하여 2차원으로 생성하며, column의 이름은 'A'와 'B'로 지정 - df["A"] < 0.5 : A column에 있는 Series 데이터가 0.5보다 작은 경우(=참.. Data Analyst/Basic Python 2023. 9. 26.
반응형