05. 그룹, 중복값제거

1. 그룹으로 묶기

group by

데이터를 그룹으로 묶어 분석할 때 사용

# DataFrame을 'group' 열로 그룹화

df.groupby('group')

# DataFrame을 'group' 열로 그룹화하고, 각 그룹의 각 열에 대해 NA/결측값이 아닌 항목의 수

df.groupby('group').count()

# DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산

df.groupby('group').mean(numeric_only=True)

# DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 합계를 계산

df.groupby('group').sum(numeric_only=True)

# DataFrame을 'gender' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산

df.groupby('gender').mean(numeric_only=True)

✅ 문제 풀어보기

❔ 혈액형별로 그룹을 맺어, 키의 평균값을 확인

df.groupby('blood')['height'].mean()

❔ 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인

df.groupby(['blood', 'gender'])['height'].mean()

2. 중복값 제거

#drop_duplicates() : 중복된 데이터를 제거

df['blood'].drop_duplicates()

# 'blood' 열에서 중복된 값을 제거하고, 마지막 중복 값만 남기기

df['blood'].drop_duplicates(keep='last')

# 'blood' 열의 각 값에 대한 데이터의 개수를 반환 (NaN 값은 생략)

df['blood'].value_counts()

# 'company' 열의 각 값에 대한 데이터의 개수를 반환(NaN 값은 생략)

df['company'].value_counts()

# 'company' 열의 각 값에 대한 데이터의 개수를 반환 (NaN 값도 포함)

df['company'].value_counts(dropna=False)

leesarr-study