본문 바로가기

머신러닝4

09. 랜덤 포레스트 (Random Forest) | Hotel 1. Hotel 데이터셋 파일 가져오기 hotel_df = pd.read_csv('/content/drive/MyDrive/1. KDT/6. 머신러닝 딥러닝/데이터/hotel.csv') hotel_df 정보보기 hotel_df.info() * hotel: 호텔 종류* is_canceled: 취소 여부* lead_time: 예약 시점으로부터 체크인 될 때까지의 기간(얼마나 미리 예약했는지)* arrival_date_year: 예약 연도* arrival_date_month: 예약 월* arrival_date_week_number: 예약 주* arrival_date_day_of_month: 예약 일* stays_in_weekend_.. 2024. 6. 12.

08. SVM, Scaling | 손글씨 1. 손글씨 데이터셋 scikit-learn 라이브러리에서 손글씨 숫자 데이터셋을 불러오기 from sklearn.datasets import load_digits digits 변수에 load_digits() 함수의 결과를 할당 digits = load_digits() digits digits 데이터셋에서 사용 가능한 키(속성)들을 확인data.shape: data 배열의 형태(shape)를 확인 digits.keys() data = digits['data'] data.shape digits 데이터셋에서 'target' 키에 해당하는 값을 가져와 target 변수에 할당 * 'target.. 2024. 6. 12.

06. 의사결정 나무(Decision Tree) | 자전거 1. 자전거 데이터셋 작업파일 import import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt 데이터 가져오기 bike_df = pd.read_csv('/content/drive/MyDrive/1. KDT/6. 머신러닝 딥러닝/데이터/bike.csv') bike_df 정보보기 bike_df.info() 평균치 보기 bike_df.describe() count: 데이터의 개수 (결측값을 제외한 값의 개수)mean: 평균값st.. 2024. 6. 11.

04. 데이터 전처리 | 타이타닉 1. 타이타닉 데이터 자료: https://bit.ly/fc-ml-titanic import import numpy as np import pandas as pd 데이터 불러오기 # 데이터 불러오기 df = pd.read_csv('https://bit.ly/fc-ml-titanic') df 데이터 전처리- 데이터 정제 작업을 뜻함 - 필요없는 데이터를 삭제하고, null이 있는 행을 처리하고, 정규화/표준화 등의 많은 작업들을 포함 - 머신러닝, 딥러닝 실무에서 전처리가 차지하는 중요도는 50% 이상을 차지한다. @. 데이터전처리1. 종속변수와 독립변수 나누기 종속변수와 독립변수 나누기 .. 2024. 6. 10.

이전 1 다음

티스토리툴바