728x90

1. Decision Tree Classifier Hyper Parameter

1). max_depth

- 트리의 최대 깊이를 지정한다.

- default = None : min_samples_split 보다 작아질 때까지 계속 깊이를 증가한다.

- 깊이가 깊어지면 최대로 분할하여 과적합 될 수 있으므로 적절한 값으로 제어가 필요하다.

2). min_samples_split

- 분리 노드의 최소 자료 수를 지정한다.

- default = 2 : 2보다 작을 때 실행되지 않는다.

- 노드를 분할하기 위한 최소한의 샘플 데이터 수로 과적합을 제어하는 데 사용된다.

- 작게 설정할수록 분할되는 노드가 많아져 과적합 가능성이 증가한다.

3). min_samples_leaf

- 잎사귀 노드의 최소 자료 수를 지정한다.

- default = 1 : 1보다 작을 때 실행되지 않는다.

- 리프 노드(Leaf node)가 되기 위한 최소한의 샘플 데이터 수를 의미한다.

- min_samples_split과 유사하게  과적합을 제어하는 데 사용된다.

- 데이터 불균형이 있을 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 불균형이 있는 경우 작게 설정해줘야 한다.

- 큰 값일수록 분할이 어렵다.

4). max_features

- 모델 생성 시 사용하는 설명변수의 수를 지정한다.

- default = None : 전체 변수를 사용한다.

- 'sqrt' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.

- 'auto' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.('sqrt'와 동일)

- 'log2' : log2(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.

 - 최적 분할을 위해 고려해야 할 최대 features 개수를 의미한다.

- Int 형으로 지정하면 대상 features의 개수, Float 형으로 지정하면 대상 전체 features 중 대상 features의 퍼센트

5). max_leaf_node

- 최대 분리 노드 수를 지정한다.

6). criterion

- 분리 기준을 지정한다.

- default = 'gini'

- 'gini' : 지니 지수

- 'entropy' : 엔트로피 지수

 

2. Decision Tree Regressor Hyper Parameter

1). max_depth

- 트리의 최대 깊이를 지정한다.

- default = None : min_samples_split 보다 작아질 때까지 계속 깊이를 증가한다.

- 깊이가 깊어지면 최대로 분할하여 과적합 될 수 있으므로 적절한 값으로 제어가 필요하다.

2). min_samples_split

- 분리 노드의 최소 자료 수를 지정한다.

- default = 2 : 2보다 작을 때 실행되지 않는다.

- 노드를 분할하기 위한 최소한의 샘플 데이터 수로 과적합을 제어하는 데 사용된다.

- 작게 설정할수록 분할되는 노드가 많아져 과적합 가능성이 증가한다.

3). min_samples_leaf

- 잎사귀 노드의 최소 자료 수를 지정한다.

- default = 1 : 1보다 작을 때 실행되지 않는다.

- 리프 노드(Leaf node)가 되기 위한 최소한의 샘플 데이터 수를 의미한다.

- min_samples_split과 유사하게  과적합을 제어하는 데 사용된다.

- 데이터 불균형이 있을 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 불균형이 있는 경우 작게 설정해줘야 한다.

- 큰 값일수록 분할이 어렵다.

4). max_features

- 모델 생성 시 사용하는 설명변수의 수를 지정한다.

- default = None : 전체 변수를 사용한다.

- 'sqrt' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.

- 'auto' : sqrt(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.('sqrt'와 동일)

- 'log2' : log2(전체 변수의 수) 값 만큼 변수를 임의로 선택한다.

 - 최적 분할을 위해 고려해야 할 최대 features 개수를 의미한다.

- Int 형으로 지정하면 대상 features의 개수, Float 형으로 지정하면 대상 전체 features 중 대상 features의 퍼센트

5). max_leaf_node

- 최대 분리 노드 수를 지정한다.

6). criterion

- default = 'mse'

- 'mse' : 평균제곱오차(Mean Squared Error)

- 'friedman_mse' : friedman에 의해 보완된 mse

- 'mae' : 평균절대오차(Mean Absolute Error)

반응형