1. Decision Tree Classifier Hyper Parameter
1). max_depth
- 트리의 최대 깊이를 지정한다.
- default = None : min_samples_split 보다 작아질 때까지 계속 깊이를 증가한다.
- 깊이가 깊어지면 최대로 분할하여 과적합 될 수 있으므로 적절한 값으로 제어가 필요하다.
2). min_samples_split
- 분리 노드의 최소 자료 수를 지정한다.
- default = 2 : 2보다 작을 때 실행되지 않는다.
- 노드를 분할하기 위한 최소한의 샘플 데이터 수로 과적합을 제어하는 데 사용된다.
- 작게 설정할수록 분할되는 노드가 많아져 과적합 가능성이 증가한다.
3). min_samples_leaf
- 잎사귀 노드의 최소 자료 수를 지정한다.
- default = 1 : 1보다 작을 때 실행되지 않는다.
- 리프 노드(Leaf node)가 되기 위한 최소한의 샘플 데이터 수를 의미한다.
- min_samples_split과 유사하게 과적합을 제어하는 데 사용된다.
- 데이터 불균형이 있을 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 불균형이 있는 경우 작게 설정해줘야 한다.
- 큰 값일수록 분할이 어렵다.
4). max_features
- 모델 생성 시 사용하는 설명변수의 수를 지정한다.
- default = None : 전체 변수를 사용한다.
- 'sqrt' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.
- 'auto' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.('sqrt'와 동일)
- 'log2' : log2(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.
- 최적 분할을 위해 고려해야 할 최대 features 개수를 의미한다.
- Int 형으로 지정하면 대상 features의 개수, Float 형으로 지정하면 대상 전체 features 중 대상 features의 퍼센트
5). max_leaf_node
- 최대 분리 노드 수를 지정한다.
6). criterion
- 분리 기준을 지정한다.
- default = 'gini'
- 'gini' : 지니 지수
- 'entropy' : 엔트로피 지수
2. Decision Tree Regressor Hyper Parameter
1). max_depth
- 트리의 최대 깊이를 지정한다.
- default = None : min_samples_split 보다 작아질 때까지 계속 깊이를 증가한다.
- 깊이가 깊어지면 최대로 분할하여 과적합 될 수 있으므로 적절한 값으로 제어가 필요하다.
2). min_samples_split
- 분리 노드의 최소 자료 수를 지정한다.
- default = 2 : 2보다 작을 때 실행되지 않는다.
- 노드를 분할하기 위한 최소한의 샘플 데이터 수로 과적합을 제어하는 데 사용된다.
- 작게 설정할수록 분할되는 노드가 많아져 과적합 가능성이 증가한다.
3). min_samples_leaf
- 잎사귀 노드의 최소 자료 수를 지정한다.
- default = 1 : 1보다 작을 때 실행되지 않는다.
- 리프 노드(Leaf node)가 되기 위한 최소한의 샘플 데이터 수를 의미한다.
- min_samples_split과 유사하게 과적합을 제어하는 데 사용된다.
- 데이터 불균형이 있을 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 불균형이 있는 경우 작게 설정해줘야 한다.
- 큰 값일수록 분할이 어렵다.
4). max_features
- 모델 생성 시 사용하는 설명변수의 수를 지정한다.
- default = None : 전체 변수를 사용한다.
- 'sqrt' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.
- 'auto' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.('sqrt'와 동일)
- 'log2' : log2(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.
- 최적 분할을 위해 고려해야 할 최대 features 개수를 의미한다.
- Int 형으로 지정하면 대상 features의 개수, Float 형으로 지정하면 대상 전체 features 중 대상 features의 퍼센트
5). max_leaf_node
- 최대 분리 노드 수를 지정한다.
6). criterion
- default = 'mse'
- 'mse' : 평균제곱오차(Mean Squared Error)
- 'friedman_mse' : friedman에 의해 보완된 mse
- 'mae' : 평균절대오차(Mean Absolute Error)
'정리 필요' 카테고리의 다른 글
Random Forest Hyper Parameter / 하이퍼 파라미터 튜닝 (0) | 2023.01.25 |
---|---|
Over Fitting / 과대적합 (0) | 2023.01.20 |
Decision Tree / 결정 트리 or 의사결정나무 개요 (0) | 2023.01.20 |
그래프별 사용 목적 (0) | 2023.01.20 |
[빅데이터] Over-Sampling/Under-Sampling(과대표집/과소표집) (0) | 2023.01.14 |