본문 바로가기

데이터분석/판다스8

08. apply, map, 산술연산, 원 핫 코딩 1. apply 사용하기 Series나 DataFrame에 구체적인 로직을 적용하고 싶을때 사용apply를 적용하기 위해 별도의 함숙가 먼저 정의되야 함작성된 함수를 apply에 매개변수로 전달함 데이터 확인            df.head()    문자열의 성별정보를 숫자로 변환하기             # 성별이 남자는 1, 여자는 0으로 변환(loc를 사용)          df.loc[df['gender'] == '남자', 'gender'] = 1          df.loc[df['gender'] == '여자', 'gender'] = 0           df.head()  데이터 다시 담기             df = pd.read_csv('/content/drive/MyDrive/1. K.. 2024. 5. 24.
07. 등수, 날짜타입 1. 등수 매기기   등수 매기기rank()데이터프레임 또는 시리즈에 순위를 매기는 함수기본값은 ascendingastype()특정열의 자료형을 변경 rank() : 데이터프레임 또는 시리즈에 순위를 매기는 함수, 기본값은 ascending            df1['브랜드순위'] = df1['브랜드평판지수'].rank()        df1        # 새로운 열이 만들어짐(파생변수)        # 원랭 있는 브랜드 평판지수를 기반으로 변형되어 데이터프레임에 새로운 colunm이 추가됨   더보기 astype(): 특정열의 자료형 바꿔주기              # '브랜드순위' 열을 정수형으로 변환        df1['브랜드순위'] = df1['브랜드순위'].astype(int)       .. 2024. 5. 24.
06. 데이터프레임 합치기 1. 데이터프레임 합치기   데이터프레임 합치기concat()데이터를 합침sort=False 옵션으로 순서가 유지되도록 함axis=0는 기본값axis=1인 경우, 같은 index 결합reset_index()index를 새롭게 적용drop=True 옵션으로 기존 index를 삭제merge()특정 고유한 키(unique, id)값을 기준으로 합침  새로운 CSV 파일 다운 (결합할 데이터)   데이터 불러오고 복사           df1 = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분석/데이터/idol.csv')         df2 = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분서.. 2024. 5. 24.
05. 그룹, 중복값제거 1. 그룹으로 묶기   그룹으로 묶기group by데이터를 그룹으로 묶어 분석할 때 사용              # DataFrame을 'group' 열로 그룹화          df.groupby('group')           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 각 열에 대해 NA/결측값이 아닌 항목의 수          df.groupby('group').count()           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산          df.groupby('group').mean(numeric_only=True)           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열.. 2024. 5. 24.
LIST