본문 바로가기
데이터분석/판다스

01. 판다스(Pandas)

by 사라리24 2024. 5. 22.
SMALL

1. 판다스(Pandas)

- 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나
- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 자료구조를 제공
- 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
- 주로 데이터프레임(DataFrame)이라는 자료구조를 제공.
- 이를 통해, 테이블 형태의 데이터를 다루기 용이합니다.

 

  • 설치
  
     pip install pandas
  

 

  • import
      
      import  pandas as pd #별칭 사용
 

 

 

2. Series 와 DataFrame

 

 

Series   

DataFrame











⏺️1차원
 표데이터는 시리즈(Series)

  • 표의 데이터부분은 values라고 부름
  • 표의 행 이름을 index라고 부름
  • 시리즈는 index, values로 이루어져 있음
  • value는 넘파이의 ndarray기반


⏺️2차원
 데이터는 데이터프레임(DataFrame)

  • 표의 데이터부분은 values라고 부름
  • 표의 행 이름을 index라고 부름
  • 표의 열 이름을 columns라고 부름
  • 데이터프레임은 index, colu mns, values로 이루어져 있음
  • value는 넘파이의 ndarray기반

 

 

 

  • Series 

Series

 

* 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 


* Series는 다양한 데이터 타입을 가질 수 있으며
   정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.

 

 

  • Series 예시
  
 
          idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
          data = [67, 75, 75, 62, 98]

          # Series(데이터, 인덱스) // 인덱스는 생략가능
          print(pd.Series(data))
 
        # 시리즈 생성
          se1 = pd.Series(data, idx)
          print(se1)
        # 시리즈의 인덱스 출력
          print(se1.index)
 
          # 시리즈의 값 출력
          print(se1.values)
 
 




* 시리즈 출력 
출력형식: 
 a    1
 b    2
 c    3
 dtype: int64

* 시리즈의 인덱스 출력
출력 형식: Index(['a', 'b', 'c'], dtype='object')

* 시리즈의 값 출력
출력 형식: [1 2 3]

 

  • DataFrame

DataFrame

 

* 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. 


* 데이터프레임은 행과 열로 이루어져 있으며, 
   각 열은 다양한 데이터 타입을 가질 수 있습니다. 

 

 

  • DataFrame 예시
  
 
            data = [[67, 93, 91],
                           [75, 69, 96],
                           [75, 81, 82],
                           [62, 70, 75],
                           [98, 45, 87]]

            idx= ['김사과', '반하나', '오렌지', '이메론', '배애리']
            col = ['국어', '영어', '수학']

            # 데이터 프레임 만들기
            # DataFrame(데이터, 인덱스, 컬럼 ...)
            # 순서 중요 함
            pd.DataFrame(data)
            pd.DataFrame(data, idx)
            pd.DataFrame(data, idx, col)
 
          # 지정 하는 방법(순서 상관 없음)
          df = pd.DataFrame(data = data, index = idx, columns = col)
          print(df)
 
 

* 순서에 맞게 작성
  별칭.DataFrame(데이터, 인덱스, 컬럼)



* 각각 지정해주기
  지정해주면 순서에 맞게 작성하지 않아도 됨

 
 

 

 

  • DataFrame - Values 출력
 
        df1.values
  

array(안에 출력)

 

  • DataFrame -  index 출력
  
        df1.index
 

index 안에 출력, 타입=문자열)

 

  • DataFrame -  columns 출력
 
          df1.columns
  

index( 안에 출력, 타입=문자열 )

 

  • 데이터프레임 생성(지정방법)
  
          # 데이터프레임 생성
          # 지정 하는 방법(순서 상관 없음)
          print(df.index)
          print(df.columns)
          print(df.values)
 
 
 

 


 

  • 셔너리(dictionary)를 사용하여 데이터프레임을 생성
 
 
 
        # 딕션너리를 사용하여 데이터프레임을 생성
        data = [[67, 93, 91],
                      [75, 69, 96],
                      [75, 81, 82],
                      [62, 70, 75],
                      [98, 45, 87]]

        dic = {
            '국어': [67, 75, 75, 72, 98],
            '영어': [93, 69, 81, 70, 45],
            '수학': [91, 96, 82, 75, 87]
        }

        df = pd.DataFrame(data = dic, index=idx)
        df
 
  

 

3. CSV파일 읽어오기

 

 

  • 파일 읽어오기 (방법)
  
 
         pd.read_excel('지정된 파일의 경로')  
 
 

 

  • CSV파일 읽어오기 예시
  
 
          df = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분석/데이터/idol.csv')
          df
  
 

🔽 실행방법


1. 드라이브에 '데이터' 폴더 생성 후 'idol.csv' 엑셀파일 넣기






2. 경로복사  



3. 코드에 추가