01. 판다스(Pandas)

1. 판다스(Pandas)

- 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나
- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 자료구조를 제공
- 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
- 주로 데이터프레임(DataFrame)이라는 자료구조를 제공.
- 이를 통해, 테이블 형태의 데이터를 다루기 용이합니다.

설치

! pip install pandas

import

import pandas as pd #별칭 사용

2. Series 와 DataFrame

Series	DataFrame

⏺️1차원 표데이터는 시리즈(Series) 표의 데이터부분은 values라고 부름 표의 행 이름을 index라고 부름 시리즈는 index, values로 이루어져 있음 value는 넘파이의 ndarray기반	⏺️2차원 데이터는 데이터프레임(DataFrame) 표의 데이터부분은 values라고 부름 표의 행 이름을 index라고 부름 표의 열 이름을 columns라고 부름 데이터프레임은 index, colu mns, values로 이루어져 있음 value는 넘파이의 ndarray기반

Series

Series

* 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다.

* Series는 다양한 데이터 타입을 가질 수 있으며
정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.

Series 예시

idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']

data = [67, 75, 75, 62, 98]

# Series(데이터, 인덱스) // 인덱스는 생략가능

print(pd.Series(data))

# 시리즈 생성

se1 = pd.Series(data, idx)

print(se1)

# 시리즈의 인덱스 출력

print(se1.index)

# 시리즈의 값 출력

print(se1.values)

* 시리즈 출력
출력형식:
a    1
b    2
c    3
dtype: int64

* 시리즈의 인덱스 출력
출력 형식: Index(['a', 'b', 'c'], dtype='object')

* 시리즈의 값 출력
출력 형식: [1 2 3]

DataFrame

DataFrame

* 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다.

* 데이터프레임은 행과 열로 이루어져 있으며,
각 열은 다양한 데이터 타입을 가질 수 있습니다.

DataFrame 예시

data = [[67, 93, 91],

[75, 69, 96],

[75, 81, 82],

[62, 70, 75],

[98, 45, 87]]

idx= ['김사과', '반하나', '오렌지', '이메론', '배애리']

col = ['국어', '영어', '수학']

# 데이터 프레임 만들기

# DataFrame(데이터, 인덱스, 컬럼 ...)

# 순서 중요 함

pd.DataFrame(data)

pd.DataFrame(data, idx)

pd.DataFrame(data, idx, col)

# 지정 하는 방법(순서 상관 없음)

df = pd.DataFrame(data = data, index = idx, columns = col)

print(df)

* 순서에 맞게 작성
별칭.DataFrame(데이터, 인덱스, 컬럼)

* 각각 지정해주기
지정해주면 순서에 맞게 작성하지 않아도 됨

DataFrame - Values 출력

df1.values

array(안에 출력)

DataFrame - index 출력

df1.index

index 안에 출력, 타입=문자열)

DataFrame - columns 출력

df1.columns

index( 안에 출력, 타입=문자열 )

데이터프레임 생성(지정방법)

# 데이터프레임 생성
# 지정 하는 방법(순서 상관 없음)

print(df.index)

print(df.columns)

print(df.values)

딕셔너리(dictionary)를 사용하여 데이터프레임을 생성

# 딕션너리를 사용하여 데이터프레임을 생성

data = [[67, 93, 91],

[75, 69, 96],

[75, 81, 82],

[62, 70, 75],

[98, 45, 87]]

dic = {

'국어': [67, 75, 75, 72, 98],

'영어': [93, 69, 81, 70, 45],

'수학': [91, 96, 82, 75, 87]

}

df = pd.DataFrame(data = dic, index=idx)

3. CSV파일 읽어오기

파일 읽어오기 (방법)

pd.read_excel('지정된 파일의 경로')

CSV파일 읽어오기 예시

df = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분석/데이터/idol.csv')

🔽 실행방법

1. 드라이브에 '데이터' 폴더 생성 후 'idol.csv' 엑셀파일 넣기

2. 경로복사

3. 코드에 추가

'데이터분석 > 판다스' 카테고리의 다른 글

06. 데이터프레임 합치기 (0)	2024.05.24
05. 그룹, 중복값제거 (0)	2024.05.24
04. 행, 열 추가 삭제, 통계함수 (0)	2024.05.24
03. 결측값(NULL, NaN) (0)	2024.05.24
02. 데이터 정보, 정렬, 범위, 인덱싱 (0)	2024.05.24

leesarr-study

01. 판다스(Pandas)

1. 판다스(Pandas)

2. Series 와 DataFrame

Series

DataFrame

Series

DataFrame

3. CSV파일 읽어오기

'데이터분석 > 판다스' 카테고리의 다른 글

티스토리툴바

01. 판다스(Pandas)

1. 판다스(Pandas)

2. Series 와 DataFrame

Series

DataFrame

Series

DataFrame

3. CSV파일 읽어오기

'데이터분석 > 판다스' 카테고리의 다른 글

관련글

티스토리툴바