모델 학습 첫번째 머신러닝 모델로 비지도 학습 방식의 이상치 탐지 모델을 사용하였다.
개념 : Isolation Forest는 랜덤 포레스트(Random Forest) 알고리즘을 기반으로 하는 비지도 학습 방식의 이상치 탐지 알고리즘이다. 이 방법은 데이터를 반복적으로 분리하여 이상치를 분리하는 데 소요되는 경로 길이를 측정한다. 일반적인 데이터 포인트는 더 깊은 트리 깊이를 가지며, 이상치는 상대적으로 더 얕은 트리 깊이를 가진다.
<이상치 탐지 원리>
1. | 훈련 데이터에서 무작위로 하나의 특성(feature)와 분할 값(split value)을 선택 |
2. | 선택된 특성에 따라 분할 값을 기준으로 데이터를 두 개의 하위 집합으로 분리 |
3. | 위의 과정을 반복하여 트리를 생성. 이후 각 데이터 포인트가 최종적으로 도달하는 노드까지의 경로 길이를 기록 |
4. | 여러 개의 트리를 생성하여 Isolation Forest를 형성하고, 각 데이터 포인트의 평균 경로 길이를 계산 |
5. | 평균 경로 길이가 짧은 데이터 포인트는 이상치로 판단 |