less than 1 minute read

train_test_split()

원본 데이터 세트에서 학습 및 테스트 데이터 세트로 분리

반환값은 튜플 형태로 순차적으로 학습용 데이터 피처 데이터 세트, 테스트용 데이터 피처 데이터 세트, 학습용 데이터 레이블 데이터 세트, 테스트용 데이터 레이블 세트로 반환된다.

주요 파라미터

  1. test_size : 전체 데이터 세트에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인지 결정 (기본 : 0.25)
  2. train_size : 전체 데이터에서 학습 데이터 세트 크기를 얼마로 샘플링할 것인지 결정 (보통 test_size 사용하여 잘 사용 안함)
  3. shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지 결정, 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용 (기본 : True)
  4. random_state : random_state는 호출할 때 마다 동일한 학습/테스트 데이터 세트를 생성하기 위해 주어지는 난수 값
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

print('학습 데이터 피처 데이터 세트 크기 :', X_train.shape)
print('테스트 데이터 피처 데이터 세트 크기 :', X_test.shape)
print('학습 데이터 레이블 데이터 세트 크기 :', y_train.shape)
print('테스트 데이터 레이블 데이터 세트 크기 :', y_test.shape)
학습 데이터 피처 데이터 세트 크기 : (105, 4)
테스트 데이터 피처 데이터 세트 크기 : (45, 4)
학습 데이터 레이블 데이터 세트 크기 : (105,)
테스트 데이터 레이블 데이터 세트 크기 : (45,)

Comments