About me
home
Portfolio
home
🌲

Isolation Forest

모델 학습 첫번째 머신러닝 모델로 비지도 학습 방식의 이상치 탐지 모델을 사용하였다.
개념 : Isolation Forest랜덤 포레스트(Random Forest) 알고리즘을 기반으로 하는 비지도 학습 방식의 이상치 탐지 알고리즘이다. 이 방법은 데이터를 반복적으로 분리하여 이상치를 분리하는 데 소요되는 경로 길이를 측정한다. 일반적인 데이터 포인트는 더 깊은 트리 깊이를 가지며, 이상치는 상대적으로 더 얕은 트리 깊이를 가진다.

<이상치 탐지 원리>

1.
훈련 데이터에서 무작위로 하나의 특성(feature)와 분할 값(split value)을 선택
2.
선택된 특성에 따라 분할 값을 기준으로 데이터를 두 개의 하위 집합으로 분리
3.
위의 과정을 반복하여 트리를 생성. 이후 각 데이터 포인트가 최종적으로 도달하는 노드까지의 경로 길이를 기록
4.
여러 개의 트리를 생성하여 Isolation Forest를 형성하고, 각 데이터 포인트의 평균 경로 길이를 계산
5.
평균 경로 길이가 짧은 데이터 포인트는 이상치로 판단

장점:

단점: