본문 바로가기
728x90
반응형

Data Analyst/Basic Python14

마크다운 문법 핵심만 초간단 정리! 꼭 알아야 할 것들만 알자! 마크다운(Markdown)이란 일반 텍스트 기반의 경량화된 마크업 언어이다. 일반 텍스트로 서식이 있는 문서를 작성하는 데 사용되며, 일반 마크업 언어에 비해 문법이 쉽고 간단하다는 특징이 있다. Jupyter Notebook에서는 여러 설명이 필요한 경우에 마크다운 셀로 표현할 수 있어서, 핵심적인 부분만 숙지할 필요가 있다. 마크다운 문법 핵심 초간단 정리! 1. 제목 크기 제목의 크기를 통해서 대제목, 소제목을 분류해서 데이터나 정보를 기록할 수 있다. - 가장 큰 제목(H1) : 맨 앞에 '#' 하나 붙이고 한 칸 띄어쓴 다음에 입력 - 두번째 제목(H2) : 맨 앞에 '##' - 세번째 제목(H3) : 맨 앞에 '###' - 네번째 제목(H4) : 맨 앞에 '####' - 기울어진 볼드체(H5).. Data Analyst/Basic Python 2024. 1. 25.
데이터 분석이란? Jupyter Notebook 사용법 간단 정리! 많은 사람들이 '데이터 분석'이란 용어를 많이 들어봤고 실제로 그 방향으로 공부를 하고 있는 분들도 꽤 많다. 그렇다면, 여기서 '데이터 분석'은 어떤 것을 의미하고 어떤 과정을 거쳐서 프로젝트를 수행하는지 기초부터 확인해보자. 그리고 데이터 분석에 유용하게 사용되는 Tool인 'Jupyter Notebook'의 사용법을 숙지해보자. 데이터 분석이란? Jupyter Notebook 사용법 간단 정리! 1. 데이터 분석이란? 1) 데이터와 정보 가장 먼저 '데이터'와 '정보'의 의미를 한번 더 짚고 넘어가야 한다. - 데이터 : 현실 세계의 일들을 관찰하고 측정해서 얻은 값 (사실에 기반한 가공되지 않은 데이터) ex) 8월의 날씨(온도는 30℃, 습도는 90% 등) - 정보 : 그 데이터를 처리해서 얻는.. Data Analyst/Basic Python 2024. 1. 24.
[파이썬 통계] 사건과 조건부확률 & 확률분포 응용하는 법! 사건과 확률에 대한 용어와 개념, 조건부 확률과 독립의 개념을 배우고 확률분포까지 확장하여 응용하는 법을 학습해보자! 1. 사건과 확률의 개념 1) 확률 여러 가능한 결과 중 하나 혹은 일부가 일어날 가능성으로 0과 1 사이의 값으로 정의 ex) 동전을 던지는 사건에 대해 앞면이 나올 확률 0.5 # 확률의 용어 - 실험(Experiment) or 시행(Trial) : 여러 가능한 결과 중 하나가 일어나도록 하는 행위 (ex, 주사위를 1번 던짐) - 표본공간(Sample Space) : 실험에서 나타날 수 있는 모든 결과들을 모아둔 집합 (ex, 1~6의 눈) - 사건(Event) : 표본공간의 일부분(부분집합) 사건 A가 일어날 확률; P(A), or Pr(A) (ex, 1의 눈, 짝수가 나올 확률).. Data Analyst/Basic Python 2023. 11. 6.
[파이썬 통계] 데이터를 논리적 수치로 해석하는 법! (대표값, 퍼진정도 등) 중심위치와 퍼진 정도의 측도 계산법에 대해 학습하고 이를 통해 상자그림을 그려보자. 더불어 2가지 변수의 관계를 파악하는 법 공부! 1. 중심위치의 측도 그래프나 도표에 의한 분석의 단점으로 인해 수치를 통해 연속형 자료를 요약해야할 경우가 있다. → 많은 양의 데이터를 유의미한 수치로 요약하여 대략적인 분포상태를 파악 가능하여 단점 보완! 수치를 통한 연속형 자료를 요약할 때는 아래와 같이 크게 4가지로 할 수 있다. (중심위치와 퍼진 정도의 측도, 도수분포표, 상자그림) 1) 중심위치의 측도 *** : 주어진 데이터들이 가지고 있는 가운데(중심) 위치를 찾는다. → 데이터의 대표값 이 대표값이 나머지 다른 데이터들을 대표한다. 2) 퍼진 정도의 측도 *** : 데이터들이 중심 위치로부터 얼마나 떨어져.. Data Analyst/Basic Python 2023. 11. 6.
[파이썬 확률 통계] 시각화를 통한 데이터 요약하는법! 이론과 실습! 파이썬을 통해 데이터를 분석하고 입맛에 맞게 다루기 위해 필요한 기초적인 통계학을 학습해보자! 0. 통계란? 많은 데이터들에 대한 "해석하고 정리 및 요약"하는 작업을 통계라고 칭한다. 이제부터 아래의 순서대로 파이썬을 활용한 통계학을 학습할려고 한다. (시각화를 통한 자료의 요약 - 논리적인 자료의 요약 - 확률 - 가설검정 및 추론) 기본적으로 통계학적인 내용을 다루어서 데이터들이 의미하는 특징을 찾아보고, 이를 텍스트 혹은 숫자로 표현할 뿐만 아니라 그래프로 시각화하는 것이 첫번째 목표이다. 이 때, 크게 "시각화를 통한 자료의 요약"과 "논리적인 자료의 요약"으로 나누어서 데이터를 이해할 필요가 있다. → '시각화'라는 것은 그래프나 그림을 통해서 자료들의 특징을 살펴보고 '논리적인'이라는 것은 .. Data Analyst/Basic Python 2023. 10. 17.
[Kaggle 데이터분석] 월드컵 경기 데이터의 다양한 속성 분석해보기! 실습! 지금까지 학습한 Pandas와 Numpy 등의 내용을 바탕으로 월드컵 경기 데이터의 다양한 속성들을 확인해보고 그래프로 시각화해보자 1. 데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미하며, 데이터 분석은 대개 아래의 단계로 이루어진다. 1) 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세운다. 2) 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 한다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있다. 3) 데이터 전처리 데이터를 분석하기 전, 필요한.. Data Analyst/Basic Python 2023. 9. 30.
Matplotlib 데이터 시각화, 꼭 알아야 할 이론부터 실습까지! 총정리! 지금까지 학습한 Numpy, Pandas의 내용과 matplotlib 라이브러리의 시각화 기능으로 실습을 통해 데이터를 시각화해보자 1. Matplotlib이란? Matplotlib이란, 파이썬에서 데이터를 그래프나 차트로 시각화할 수 있는 라이브러리 Numpy, Pandas와 같은 라이브러리들과 함께 결합해서 다양한 그래프들을 손쉽게 그릴 수 있음 1) 그래프 그리기 (Statement & Object-Oriented Interface) 'matplotlib.pyplot'을 import하고 plt.plot에 데이터를 넣어주면 그래프가 출력된다. > 아래의 코드에서는 plt.plot(x, y)에 순차적으로 x와 y값이 들어가게 된다. # Statement Interface (자동으로 Figure와 ax .. Data Analyst/Basic Python 2023. 9. 29.
Pandas 함수 활용법! - 조건검색, 함수로 데이터 처리 등 심화학습! Pandas 함수 활용법을 실습을 통해 학습해보자 Pandas를 다루기 위한 다양한 도구들을 활용! 1. 조건으로 검색하기 1) masking 연산 Numpy array와 동일하게 masking 연산이 가능하다. import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"]) df["A"] < 0.5 - np.random.rand(5, 2), columns=["A", "B"] : 0~1 사이의 실수 중 5개를 랜덤하게 추출하여 2차원으로 생성하며, column의 이름은 'A'와 'B'로 지정 - df["A"] < 0.5 : A column에 있는 Series 데이터가 0.5보다 작은 경우(=참.. Data Analyst/Basic Python 2023. 9. 26.
Pandas 기초부터 실습까지! Series와 DataFrame 다루는 법! Numpy 기반 라이브러리인 Pandas의 데이터 조작 방법을 학습하고 실습을 통해 Pandas의 기본 자료 형태인 Series와 DataFrame을 다뤄보자 1. Pandas란? Pandas란, 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리이다. 대용량 Array 데이터를 쉽게 처리가능한 numpy를 기반으로 구성되어있어서 다양한 기능들을 제공한다. ex) 행과 열을 가진 2차원 데이터와 엑셀 데이터에 대해서 DataFrame이라는 효율적인 자료구조를 제공한다. 2. Series 데이터 1) Series란? Series란, numpy array가 보강된 형태인 Data와 Index를 가지고 있다. (특수한 Dictionary 형태?!) 위 Data 부분에는 1~4가 들어가고, .. Data Analyst/Basic Python 2023. 9. 6.
[python] 데이터 분석의 기초! Numpy의 간단 총정리+실습! 데이터셋(DataSet)을 효과적으로 다루기 위한 Numpy 라이브러리를 이론과 실습을 통해 학습하자 1. Numpy? Numerical Python의 약자로, 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리 Q) 그럼 왜 대규모 다차원의 배열일까? A) 데이터들의 대부분은 숫자 배열로 볼 수 있다. ex) 흑백 이미지는 해당 픽셀에 대한 명암으로 2차원의 배열로 표현이 가능하다 사운드 데이터는 시간에 따른 음향을 나타내는 1차언의 배열로 표현 가능하다 이처럼 실생활에서 사용되는 많은 데이터들이 배열로 표현될 수 있기 때문에 데이터를 처리하기 위해서는 결국 배열(array)을 효과적으로 저장하고 가공하는 절차가 필수적이다. 그리고 numpy는 list에 비해 빠른 연산을 지원하고 메모리.. Data Analyst/Basic Python 2023. 8. 30.
반응형