본문 바로가기
데이터분석/판다스

05. 그룹, 중복값제거

by 사라리24 2024. 5. 24.
SMALL

1. 그룹으로 묶기

  

 

  • 그룹으로 묶기
group by 이터를 그룹으로 묶어 분석할 때 사용

 

 
 
 
          # DataFrame을 'group' 열로 그룹화
          df.groupby('group')
 

          # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 각 열에 대해 NA/결측값이 아닌 항목의 수
          df.groupby('group').count()
 

          # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산
          df.groupby('group').mean(numeric_only=True)
 

          # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 합계를 계산
          df.groupby('group').sum(numeric_only=True)
 

          # DataFrame을 'gender' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산
          df.groupby('gender').mean(numeric_only=True)
 
  




 



✅ 문제 풀어보기

❔ 혈액형별로 그룹을 맺어, 키의 평균값을 확인

  
 
          df.groupby('blood')['height'].mean()
 
  
 

 

❔ 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인

 
 
          df.groupby(['blood', 'gender'])['height'].mean()
 
 
  

 

2. 중복값 제거

  

 

  • 중복값 제거
drop_duplicates() 분복된 데이터를 제거
value_counts() - 열의 각 값에 대한 데이터의 개수를 반환.
- NaN은 생략
value_counts(dropna=False) NaN 표기

 

  • 중복된 데이터 제거하기
 
 
            #drop_duplicates() : 중복된 데이터를 제거
            df['blood'].drop_duplicates()
 
          # 'blood' 열에서 중복된 값을 제거하고, 마지막 중복 값만 남기기
          df['blood'].drop_duplicates(keep='last')
 
 
 

 

  • 데이터 개수 확인
 
 
           # 'blood' 열의 각 값에 대한 데이터의 개수를 반환  (NaN 값은 생략)
           df['blood'].value_counts()
 
           # 'company' 열의 각 값에 대한 데이터의 개수를 반환(NaN 값은 생략)
           df['company'].value_counts()
 
           # 'company' 열의 각 값에 대한 데이터의 개수를 반환 (NaN 값도 포함)
           df['company'].value_counts(dropna=False)
 
  

 

 

'데이터분석 > 판다스' 카테고리의 다른 글

07. 등수, 날짜타입  (0) 2024.05.24
06. 데이터프레임 합치기  (0) 2024.05.24
04. 행, 열 추가 삭제, 통계함수  (0) 2024.05.24
03. 결측값(NULL, NaN)  (0) 2024.05.24
02. 데이터 정보, 정렬, 범위, 인덱싱  (0) 2024.05.24