[ML] 2-1. 모델 선택 - 학습,테스트 데이터 세트 분리
train_test_split()
원본 데이터 세트에서 학습 및 테스트 데이터 세트로 분리
반환값은 튜플 형태로 순차적으로 학습용 데이터 피처 데이터 세트, 테스트용 데이터 피처 데이터 세트, 학습용 데이터 레이블 데이터 세트, 테스트용 데이터 레이블 세트로 반환된다.
주요 파라미터
- test_size : 전체 데이터 세트에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인지 결정 (기본 : 0.25)
- train_size : 전체 데이터에서 학습 데이터 세트 크기를 얼마로 샘플링할 것인지 결정 (보통 test_size 사용하여 잘 사용 안함)
- shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지 결정, 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용 (기본 : True)
- random_state : random_state는 호출할 때 마다 동일한 학습/테스트 데이터 세트를 생성하기 위해 주어지는 난수 값
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)
print('학습 데이터 피처 데이터 세트 크기 :', X_train.shape)
print('테스트 데이터 피처 데이터 세트 크기 :', X_test.shape)
print('학습 데이터 레이블 데이터 세트 크기 :', y_train.shape)
print('테스트 데이터 레이블 데이터 세트 크기 :', y_test.shape)
학습 데이터 피처 데이터 세트 크기 : (105, 4)
테스트 데이터 피처 데이터 세트 크기 : (45, 4)
학습 데이터 레이블 데이터 세트 크기 : (105,)
테스트 데이터 레이블 데이터 세트 크기 : (45,)
Comments