About me
home
Portfolio
home
🥑

Transformer-based 모델 조사

Background :Transformer

최근 딥러닝 기반의 Transformer 모델은 자연어처리, 이미지처리 분야뿐만 아니라 시계열 탐지 분야에서도 놀라운 성능을 발휘하고 있다. 전통적으로 시계열 데이터 분석에는 주로 ARIMA (Auto-regressive Integrated Moving average Model),RNN, LSTM 등의 통계적 방법과 딥러닝 기법들이 사용되었다. 그러나 최근에 이러한 시계열 작업들에 Transformer 모델이 도입되면서 여러 분야에서 뛰어난 성능을 나타내고 있다. Transformer 모델은 단어와 문장 간의 상대적 위치 정보를 고려하는 Attention 메커니즘을 통해 과거의 데이터 패턴을 파악하고 미래의 시계열 데이터를 예측할 수 있는 강력한 과거의 데이터 패턴을 파악하고, 이를 바탕으로 시계열 데이터에서 이상치를 효과적으로 탐지할 수 있는 강력한 도구로 자리잡았다.
Transformer 모델은 머신러닝 모델이나 예전의 딥러닝 모델들보다 개선된 점이 있다. 기존의 순환신경망 기반 모델들은 시계열 데이터를 처리할 때, 긴 시퀀스의 정보를 전달하기 어렵고 연산 속도가 느리다는 단점이 있었다. 그러나 Transformer 모델은 Attention 메커니즘을 통해 더 긴 시퀀스를 처리할 수 있으며, 병렬 처리를 통해 연산 속도를 크게 향상시켰다.
Transformer 아키텍처에서 Attention 메커니즘은 시계열 데이터의 각 요소에 대한 가중치를 계산하는데 사용되며, 이를 통해 모델이 특정 시점의 정보에 집중하도록 돕는 기능을 수행한다. 이 메커니즘은 시계열 데이터 내의 모든 요소 간의 상호 관련성을 측정하여, 중요한 정보를 더 강조하고 덜 중요한 정보를 줄여서 모델의 전반적인 성능을 향상시킨다. Attention 메커니즘은 Transformer 아키텍처의 핵심 구성 요소로, 다양한 시계열 분석 작업에서 효과적인 결과를 보여준다. 이를 통해 예측, 분류 및 이상치 탐지와 같은 시계열 관련 문제를 더욱 정확하게 해결할 수 있게 되는 방식이다.
비지도 학습 시계열 데이터 작업은 레이블이 없는 시계열 데이터를 분석하고 이해하는 데 초점을 맞춘다. 이러한 작업에서는 패턴이나 이상 징후를 찾아내거나, 시계열 데이터의 구조를 알아내는 것이 주요 목표이다. Transformer 모델은 어텐션 메커니즘을 활용하여 비지도 학습 시계열 데이터 작업에서도 높은 성능을 보여주며, 데이터의 복잡한 상관 관계를 파악하여 다양한 시계열 작업에 유용하게 활용되고 있다.
시계열 이상치 탐지를 위한 Transformer 기반 방법론들을 조사한 결과, Anomaly Transformer와 TransAD 두 가지 모델을 후보 모델로 선정하였다. 이 두 모델은 비슷한 시기에 출간되어서 아직 서로간의 성능을 비교한 평가지표는 없다. 두 가지 방법론에 관한 간략한 비교 설명은 아래와 같다.

1. Anomaly Transformer (2022, ICLR)

Anomaly Transformer 방법론은 기존 다변량 시계열 데이터에서의 이상치 탐지의 한계를 지역적 시계열 특징(Prior Association)과 전반적인 시계열 특징(Series Association)을 활용하여 개선한 방법론이다.
이 모델의 아키텍처에서는 지역적 시계열 특징(Prior Association)과 전반적 시계열 특징(Series Association)을 결합하여 Association Discrepancy를 정의하고, MinMax 전략을 통해 학습하여 기존 다변량 시계열 데이터의 이상치 탐지 한계를 개선한 방법론이다. 이를 통해 정상 데이터가 다수인 시계열 데이터에서 이상치 데이터가 묻히는 경향을 줄일 수 있다. 이를 통해 RNN 기반의 시계열 데이터 분석 방법론에서 불량 데이터가 희소하고 정상 데이터가 다수인 시계열 특성 상 이상치 데이터가 묻히는 경향을 개선할 수 있다.
Anomaly Transformer architecture

Anomaly Attention

해당 모델의 핵심은 Anomaly Attention으로 기존 Transformer의 Multi-head attention 대신 Anomaly Attention을 사용
Prior Association(지역적 시계열)(추가)
parameter인 시그마 가우시안 커널 사용
Series Association(전반적 시계열)
Anomaly Transformer 장점:
1.
지역적 시계열 특징(Prior Association)과 전반적 시계열 특징(Series Association)을 결합하여 더욱 정확한 이상치 탐지를 제공한다.
2.
Association Discrepancy를 사용하여 두 Association 간의 유사성 지표를 계산하고, MinMax 전략을 통해 효과적으로 학습한다.
3.
기존 RNN 기반 방법론에서 발생하는 이상치 데이터가 묻히는 문제를 개선하여 시계열 데이터 분석 성능을 향상시킨다.
Anomaly Transformer 단점:
1.
Prior-Series Association 간 학습 방향이 반대이기 때문에, 한쪽 weight가 업데이트 되지 않는 학습 방식을 사용한다. 이는 학습 과정에 불안정성을 초래할 수 있다.

2. TranAD (2022, VLDB)

TranAD는 Transformer와 Adversarial Learning을 동시에 활용하는 방법론이다. 하나의 Encoder와 두 개의 Decoder를 사용하며, 첫 번째 Decoder는 가짜 데이터를 생성하고, 두 번째 Decoder는 이를 복원하는 작업을 통해 학습한다.
TranAD는 두 개의 디코더를 사용하여 Adversarial 훈련을 진행한다. 첫 번째 디코더는 진짜와 유사한 가짜 데이터를 생성하며 차이를 최소화하도록 학습한다. 두 번째 디코더는 진짜 데이터와 가짜 데이터를 구별하도록 학습한다.
TranAD 장점:
1.
두 개의 디코더를 사용하여 Adversarial 훈련을 진행함으로써, 진짜 데이터와 가짜 데이터를 구별하는 능력이 향상된다.
2.
첫 번째 디코더가 진짜와 유사한 가짜 데이터를 생성하여 차이를 최소화하는 방향으로 학습하므로, 이상치 탐지에 더 강인한 모델을 만들 수 있다.
TranAD 단점:
1.
Adversarial 훈련 과정은 복잡하며, 학습이 수렴하기 어려울 수 있다.
2.
두 개의 디코더를 사용하기 때문에, 모델이 더 복잡하고 학습 및 추론 시간이 더 길어질 수 있다.

Anomaly Transformer 선정 이유

Anomaly Transformer가 더 적합한 이유는 지역적 시계열 특징과 전반적 시계열 특징을 결합하여 더욱 정확한 이상치 탐지를 제공하고, 기존 RNN 기반 방법론에서 발생하는 이상치 데이터가 묻히는 문제를 개선하여 시계열 데이터 분석 성능을 향상시키기 때문이다. 또한, Association discrepancy를 사용하여 두 Association 간의 유사성 지표를 계산하고, minmax 전략을 통해 효과적으로 학습할 수 있다. 이 외에도 Anomaly Transformer는 이해하기 쉬운 아키텍처로 구성되어 있어, 다른 태스크에 fine-tuning하기 적합하다고 판단하였다. 이러한 이유로, 이번 공모전에서 학습, 추론할 딥러닝 모델로 Anomaly Transformer가 더 적합하다 판단하여 이 모델을 선정하였다.