1. 판다스(Pandas)
- 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나
- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 자료구조를 제공
- 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
- 주로 데이터프레임(DataFrame)이라는 자료구조를 제공.
- 이를 통해, 테이블 형태의 데이터를 다루기 용이합니다.
- 설치
! pip install pandas
- import
import pandas as pd #별칭 사용
2. Series 와 DataFrame
Series |
DataFrame |
|
|
⏺️1차원 표데이터는 시리즈(Series)
|
⏺️2차원 데이터는 데이터프레임(DataFrame)
|
- Series
Series |
* 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. * Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다. |
- Series 예시
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 75, 62, 98]
# Series(데이터, 인덱스) // 인덱스는 생략가능
print(pd.Series(data))
# 시리즈 생성
se1 = pd.Series(data, idx)
print(se1)
# 시리즈의 인덱스 출력
print(se1.index)
# 시리즈의 값 출력
print(se1.values)
* 시리즈 출력 출력형식: a 1 b 2 c 3 dtype: int64 * 시리즈의 인덱스 출력 출력 형식: Index(['a', 'b', 'c'], dtype='object') * 시리즈의 값 출력 출력 형식: [1 2 3] |
- DataFrame
DataFrame |
* 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. * 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있습니다. |
- DataFrame 예시
data = [[67, 93, 91],
[75, 69, 96],
[75, 81, 82],
[62, 70, 75],
[98, 45, 87]]
idx= ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']
# 데이터 프레임 만들기
# DataFrame(데이터, 인덱스, 컬럼 ...)
# 순서 중요 함
pd.DataFrame(data)
pd.DataFrame(data, idx)
pd.DataFrame(data, idx, col)
# 지정 하는 방법(순서 상관 없음)
df = pd.DataFrame(data = data, index = idx, columns = col)
print(df)
* 순서에 맞게 작성 별칭.DataFrame(데이터, 인덱스, 컬럼) * 각각 지정해주기 지정해주면 순서에 맞게 작성하지 않아도 됨 |
- DataFrame - Values 출력
df1.values
array(안에 출력) |
- DataFrame - index 출력
df1.index
index 안에 출력, 타입=문자열) |
- DataFrame - columns 출력
df1.columns
index( 안에 출력, 타입=문자열 ) |
- 데이터프레임 생성(지정방법)
# 데이터프레임 생성
# 지정 하는 방법(순서 상관 없음)
# 지정 하는 방법(순서 상관 없음)
print(df.index)
print(df.columns)
print(df.values)
- 딕셔너리(dictionary)를 사용하여 데이터프레임을 생성
# 딕션너리를 사용하여 데이터프레임을 생성
data = [[67, 93, 91],
[75, 69, 96],
[75, 81, 82],
[62, 70, 75],
[98, 45, 87]]
dic = {
'국어': [67, 75, 75, 72, 98],
'영어': [93, 69, 81, 70, 45],
'수학': [91, 96, 82, 75, 87]
}
df = pd.DataFrame(data = dic, index=idx)
df
3. CSV파일 읽어오기
- 파일 읽어오기 (방법)
pd.read_excel('지정된 파일의 경로')
- CSV파일 읽어오기 예시
df = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분석/데이터/idol.csv')
df
🔽 실행방법 1. 드라이브에 '데이터' 폴더 생성 후 'idol.csv' 엑셀파일 넣기 2. 경로복사 3. 코드에 추가 |
'데이터분석 > 판다스' 카테고리의 다른 글
06. 데이터프레임 합치기 (0) | 2024.05.24 |
---|---|
05. 그룹, 중복값제거 (0) | 2024.05.24 |
04. 행, 열 추가 삭제, 통계함수 (0) | 2024.05.24 |
03. 결측값(NULL, NaN) (0) | 2024.05.24 |
02. 데이터 정보, 정렬, 범위, 인덱싱 (0) | 2024.05.24 |