본문 바로가기

데이터분석/판다스8

08. apply, map, 산술연산, 원 핫 코딩 1. apply 사용하기 Series나 DataFrame에 구체적인 로직을 적용하고 싶을때 사용apply를 적용하기 위해 별도의 함숙가 먼저 정의되야 함작성된 함수를 apply에 매개변수로 전달함 데이터 확인 df.head() 문자열의 성별정보를 숫자로 변환하기 # 성별이 남자는 1, 여자는 0으로 변환(loc를 사용) df.loc[df['gender'] == '남자', 'gender'] = 1 df.loc[df['gender'] == '여자', 'gender'] = 0 df.head() 데이터 다시 담기 df = pd.read_csv('/content/drive/MyDrive/1. K.. 2024. 5. 24.

07. 등수, 날짜타입 1. 등수 매기기 등수 매기기rank()데이터프레임 또는 시리즈에 순위를 매기는 함수기본값은 ascendingastype()특정열의 자료형을 변경 rank() : 데이터프레임 또는 시리즈에 순위를 매기는 함수, 기본값은 ascending df1['브랜드순위'] = df1['브랜드평판지수'].rank() df1 # 새로운 열이 만들어짐(파생변수) # 원랭 있는 브랜드 평판지수를 기반으로 변형되어 데이터프레임에 새로운 colunm이 추가됨 더보기 astype(): 특정열의 자료형 바꿔주기 # '브랜드순위' 열을 정수형으로 변환 df1['브랜드순위'] = df1['브랜드순위'].astype(int) .. 2024. 5. 24.

06. 데이터프레임 합치기 1. 데이터프레임 합치기 데이터프레임 합치기concat()데이터를 합침sort=False 옵션으로 순서가 유지되도록 함axis=0는 기본값axis=1인 경우, 같은 index 결합reset_index()index를 새롭게 적용drop=True 옵션으로 기존 index를 삭제merge()특정 고유한 키(unique, id)값을 기준으로 합침 새로운 CSV 파일 다운 (결합할 데이터) 데이터 불러오고 복사 df1 = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분석/데이터/idol.csv') df2 = pd.read_csv('/content/drive/MyDrive/1. KDT/5. 데이터 분서.. 2024. 5. 24.

05. 그룹, 중복값제거 1. 그룹으로 묶기 그룹으로 묶기group by데이터를 그룹으로 묶어 분석할 때 사용 # DataFrame을 'group' 열로 그룹화 df.groupby('group') # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 각 열에 대해 NA/결측값이 아닌 항목의 수 df.groupby('group').count() # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산 df.groupby('group').mean(numeric_only=True) # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열.. 2024. 5. 24.

04. 행, 열 추가 삭제, 통계함수 1. 행, 열 추가 및 삭제하기행을 추가 할떄는 dict 형태를 만들고 append함수를 사용하여 데이터 추가ignore_index=True옵션을 추가해야 에러가 발생하지 않음 행 추가 # 추가할 행 딕셔너리 생성 dic = { 'name' : '김사과', 'group' : '과수원', 'company' : '애플', 'gender' : '여자', 'birthday' : '2000-01-01', 'height' : 160, 'blood' : 'A', 'bra.. 2024. 5. 24.

03. 결측값(NULL, NaN) 1. 결측값(NULL, NaN)비어 있는 값. 즉, 결측값이라고 부름pandas에서는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급 결측값 확인하기 # 원래 테이블 확인 df # 비어있는 값 확인(비어있는 값 = true) _ Boolean 값은 뜨지 않음 df.isnull() df.isna() '키'열에서 null 값인 행 찾기 df['height'].isna() df[df['height'].isna()] df[df['height'].isna()]['name'] df[df['height'].notnull()] 문제: 회사가 있는 연예인의 이름,.. 2024. 5. 24.

02. 데이터 정보, 정렬, 범위, 인덱싱 1. info( ) : 데이터 정보 info(): 행(row), 열(column)의 기본적인 정보와 데이터 타입을 반환 df.info() * 20개의 데이터* 열은 8개* Non-Null Coung: null여부 20 non-null 20개의 데이터가 다 채워져 있다 19 non-null 1개의 데이터가 비워져 있다object = '엑셀'에서 문자열float = 실수int = 정수 2. columns : 컬럼명 columns: 컬럼명 확인 하기 # 컬럼명 확인하기 print(df.columns) # 컬럼값 변경하기 new_columns = ['name', 'group', 'comapny', 'gender', .. 2024. 5. 24.

01. 판다스(Pandas) 1. 판다스(Pandas) - 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 자료구조를 제공- 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석- 주로 데이터프레임(DataFrame)이라는 자료구조를 제공. - 이를 통해, 테이블 형태의 데이터를 다루기 용이합니다. 설치 ! pip install pandas import import pandas as pd #별칭 사용 2. Series 와 DataFrame Series DataFrame⏺️1차원 표데이터는 시리즈(Series)표의 데이터부분은 values라고 부름표의 행 이름을 index라고 부름시리즈는 i.. 2024. 5. 22.

이전 1 다음

티스토리툴바