본문 바로가기

전체 글192

05. 그룹, 중복값제거 1. 그룹으로 묶기   그룹으로 묶기group by데이터를 그룹으로 묶어 분석할 때 사용              # DataFrame을 'group' 열로 그룹화          df.groupby('group')           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 각 열에 대해 NA/결측값이 아닌 항목의 수          df.groupby('group').count()           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열에 대해 평균을 계산          df.groupby('group').mean(numeric_only=True)           # DataFrame을 'group' 열로 그룹화하고, 각 그룹의 숫자형 열.. 2024. 5. 24.
04. 행, 열 추가 삭제, 통계함수 1. 행, 열 추가 및 삭제하기행을 추가 할떄는 dict 형태를 만들고 append함수를 사용하여 데이터 추가ignore_index=True옵션을 추가해야 에러가 발생하지 않음 행 추가           # 추가할 행 딕셔너리 생성           dic = {                'name' : '김사과',                'group' : '과수원',                'company' : '애플',                'gender' : '여자',                'birthday' : '2000-01-01',                'height' : 160,                'blood' : 'A',                'bra.. 2024. 5. 24.
03. 결측값(NULL, NaN) 1. 결측값(NULL, NaN)비어 있는 값. 즉, 결측값이라고 부름pandas에서는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급 결측값 확인하기         # 원래 테이블 확인       df         # 비어있는 값 확인(비어있는 값 = true) _ Boolean  값은 뜨지 않음        df.isnull()        df.isna()   '키'열에서 null 값인 행 찾기           df['height'].isna()         df[df['height'].isna()]         df[df['height'].isna()]['name']         df[df['height'].notnull()]     문제: 회사가 있는 연예인의 이름,.. 2024. 5. 24.
02. 데이터 정보, 정렬, 범위, 인덱싱 1. info( ) : 데이터 정보  info(): 행(row), 열(column)의 기본적인 정보와 데이터 타입을 반환           df.info()   * 20개의 데이터* 열은 8개* Non-Null Coung: null여부  20 non-null 20개의 데이터가 다 채워져 있다  19 non-null 1개의 데이터가 비워져 있다object  = '엑셀'에서 문자열float = 실수int = 정수 2. columns : 컬럼명  columns: 컬럼명 확인 하기            # 컬럼명 확인하기         print(df.columns)          # 컬럼값 변경하기          new_columns = ['name', 'group', 'comapny', 'gender', .. 2024. 5. 24.
01. 판다스(Pandas) 1. 판다스(Pandas) - 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 자료구조를 제공- 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석- 주로 데이터프레임(DataFrame)이라는 자료구조를 제공. - 이를 통해, 테이블 형태의 데이터를 다루기 용이합니다. 설치       ! pip install pandas   import            import  pandas as pd #별칭 사용   2. Series 와 DataFrame   Series   DataFrame⏺️1차원 표데이터는 시리즈(Series)표의 데이터부분은 values라고 부름표의 행 이름을 index라고 부름시리즈는 i.. 2024. 5. 22.
02. 행렬연산 1. 행렬 연산넘파이에서는 다차원 배열인 ndarray를 사용하여 행렬 연산을 수행할 수 있다(덧셈, 뺄셈, 곱셈, 나눗셈은 shape이 같아야 함/행렬의 크기가 같아야 함)행렬 연산은 선형 대수와 관련이 깊어, 데이터 과학, 머신러닝, 통계 등 다양한 분야에서 사용 차원출력 ($행 ,$열)          a = np.array([[1, 2, 3],                                   [2, 3, 4]])        b = np.array([[3, 4, 5],                                   [1, 2, 3]])         print(a.shape, b.shape)   행열 덧셈          # 행렬 덧셈        print(a + b).. 2024. 5. 22.
01. 넘파이(Numpy) 넘파이(Numpy) 넘파이(Numpy)는 파이썬에서 사용되는 과학 및 수학 연산을 위한 강력한 라이브러리주로 다차원 배열을 다루는 데에 특화되어 있어, 데이터 분석, 머신러닝, 과학 계산 등 다양한 분야에서 널리 사용넘파이 배열은 C 언어로 구현되어 있어 연산이 빠르고 효율적넘파이 배열은 특히 큰 데이터셋에서 수치 연산을 수행할 때 뛰어난 성능을 보입또한 메모리 사용을 최적화하고 효율적으로 관리합니다 설치       ! pip install numpy    import            import  numpy as np #별칭 사용    1. ndarray ( n-dimensional array)다차원 배열 ndarray 은 생성 될 때 크기와 자료형이 결정된다. (다만, 자료형은 동일해야 함)다차원.. 2024. 5. 22.
04. 이미지 수집 1. Pixabay  이미지 URL 추출해서 저장하기             import chromedriver_autoinstaller          import time          from selenium import webdriver          from urllib.request import Request, urlopen          driver = webdriver.Chrome()          url = 'https://pixabay.com/ko/images/search/강아지/'          driver.get(url)          # 이미지 주소 가져오기          image_xpath = '/html/body/div[1]/div[1]/div/div[2]/div[.. 2024. 5. 21.
03. 인스타그램 1. 로그인  로그인            import chromedriver_autoinstaller          from selenium import webdriver          # 크롬 드라이버 자동 설치 및 설정          driver = webdriver.Chrome()          driver.get('https://www.instagram.com')          # 크롬 드라이버 자동 설치 및 설정          driver = webdriver.Chrome()          driver.get('https://www.instagram.com')          # 로그인할 아이디와 비밀번호          id = '아이디'          pw = '비밀번호'   .. 2024. 5. 21.