About me
home
Portfolio
home

Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study

링크
연도
2021
인용 수
300
저널
IEEE Transactions on Instrumentation and Measurement
진행도
Done
키워드
Unsupervised Learning
transfer learning
Survey
제목: Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study
저자: Zhibin Zhao, Qiyang Zhang, Xiaolei Yu, Chuang Sun, Shibin Wang, Ruqiang Yan, Senior Member, IEEE and Xuefeng Chen, Senior Member, IEEE
목차

개요

배경
IFD(Intelligent fault diagnosis)는 산업 장비의 예측 및 건강 관리(Prognostic and Health Management, PHM)에서 중요한 역할을 한다.
전통적인 기계 학습(ML) 방법의 한계 설명 (수동으로 특징 추출, 신호처리 기법에 의존) → 딥러닝(DL)을 활용한 IFD 등장
또한 실제 환경에서 domain shift 문제 발생
비지도 전이 학습(UDTL)
UDTLdomain shift 문제를 해결
여러 UDTL 방법론들을 소개하며 분류(Taxonomy)를 정립 목차
데이터셋 및 평가 지표 설정 → 방법론 간의 성능 비교

용어 정리

IFD(Intelligent fault diagnosis):
기계 학습 및 데이터 분석 기술을 활용하여 기계 또는 시스템의 고장을 자동으로 감지하고 진단하는 과정. UDTL은 IFD의 한 방법론으로 활용될 수 있다.
domain:
데이터가 생성되거나 수집되는 환경(센서의 유형,위치, 주변환경, ...), 또는 운영 조건(기계의 속도, 부하, 온도, …).
ex) 한 공장에서 수집된 진동 데이터와 다른 공장에서 수집된 진동 데이터는 서로 다른 도메인으로 간주될 수 있다.
domain shift:
학습 데이터(source domain)와 테스트 데이터(target domain) 간의 분포 차이를 의미
source domain:
모델을 학습시키는 데 사용되는 레이블이 있는 데이터의 도메인.
target domain:
모델이 실제로 적용되고 테스트되는 도메인. 레이블이 없는 데이터로 구성되어 있으며, source domain에서 학습된 지식을 전이(transfer)하여 target domain에서의 성능을 높이는 것이 목표이다.
domain-invariant 도메인에 관계없이 일관된 특성을 가지는 feature. UDTL의 목표는 domain-invariant한 feature를 학습하여 도메인 간의 지식 전이(transfer)를 용이하게 하는 것이다.
Transfer Learning(전이 학습):
한 도메인에서 이미 학습한 모델을 다른 도메인(적은 데이터)으로 적용하는 방법. source domain에서 학습된 지식을 target domain에서 재사용하여 학습 성능을 높인다.
UDTL(Unsupervised Deep Transfer Learning):
source domain의 레이블이 있는 data와 target domain의 레이블이 없는(unlabeled data)를 기반으로 모델을 학습하는 방법
Unsupervised domain adaptation: 논문에서는 UDTL과 구분하지 않는다. 같은 의미로 쓰임.
Feature distribution alignment :
서로 다른 도메인(source와 target)에서 추출된 feature들의 분포를 유사하게 만드는 과정을 뜻함.
모델 학습 과정에서 feature extractor를 조정하여 source와 target domain에서 추출된 feature들의 분포를 유사하게 만든다. 이를 통해 domain shift를 줄이고, source domain에서 학습된 지식을 target domain으로 원활하게 전이(transfer)한다.

핵심 아이디어

학습 단계에서 target domain의 데이터를 사용한다.
UDTL = classification + domain alignment
Source domain의 feature와 label을 사용하여 classifier를 학습시키고 + 두 도메인의 feature distribution을 유사하게 만든다.
(이는 뒤에 본론에서 loss function을 통해 구체적으로 설명)

Taxonomy

Single-domain: 하나의 source domain에서 학습된 모델을 target domain에 적용하는 것을 목표로 한다.
Multi-domain: 여러 개의 source domain을 활용하여 모델을 학습한다.
Label-consistent UDTL: 소스 도메인과 타겟 도메인이 동일한 label space을 공유한다고 가정. (예: 두 도메인에서 고장의 종류와 개수가 같음)
Label-inconsistent UDTL: 소스 도메인과 타겟 도메인의 레이블 집합이 다를 수 있음을 가정

Basic DL 모델

“different studies have their own backbones, and it is difficult to determine whose backbone is better. Therefore, direct comparisons with the results listed in other published papers are unfair and unsuitable due to different representative capacities of backbones. In this paper, we try to verify the performance of different UDTL-based IFD methods using the same CNN backbone to ensure a fair comparison.”

III. Label-consisitent UDTL

Label-consisitent UDTL은 소스 도메인과 타겟 도메인이 동일한 레이블 공간(동일한 클래스)을 공유한다고 가정하는 방법이다

A. Network-based UDTL

네트워크 기반 UDTL는 소스 도메인에서 학습된 네트워크의 일부 또는 전체를 타겟 도메인에 적용하는 방법이다.
이 방법은 주로 사전 학습된 모델을 타겟 도메인에 미세 조정(fine-tuning)하여 사용하는 방식이다.

B. Instanced-based UDTL

소스 도메인과 타겟 도메인의 데이터를 재조정(re-weight)하여 타겟 도메인에서의 성능을 향상시키는 방법이다.
이는 주로 소스 도메인 데이터의 중요도를 조정하거나, 통계적 방법(TrAdaBoost, AdaBN)을 사용하여 도메인 간 차이를 줄인다.
Adaptive Batch Normalization (AdaBN)
Adaptive Batch Normalization (AdaBN)는 도메인 적응(domain adaptation)을 위해 Batch Normalization(BN)을 수정한 기법이다. 이는 소스 도메인에서 학습된 모델이 타겟 도메인에서도 잘 일반화되도록 돕는 방법이다.

기본 개념

Batch Normalization (BN)은 딥러닝 모델의 학습에 자주 사용되는 기법이다. 원래 BN은 각 미니배치에서 평균과 분산을 계산하여 입력을 정규화한다. 그러나 도메인 적응 문제에서는 소스 도메인과 타겟 도메인의 분포가 다르다. → 이 경우 소스 도메인에서 학습된 BN 통계가 타겟 도메인에서는 잘 맞지 않을 수 있다.
AdaBN은 이러한 문제를 해결하기 위해 타겟 도메인의 통계를 사용하여 BN을 재조정한다. 이를 통해 모델이 타겟 도메인의 데이터 분포에 더 잘 맞게 된다.

AdaBN의 작동 방식

1.
소스 도메인에서의 학습:
모델이 소스 도메인 데이터로 학습될 때, BN은 소스 도메인 데이터의 배치별 평균(mean)과 분산(variance)을 사용하여 입력을 정규화한다.
2.
타겟 도메인에서의 적응:
타겟 도메인의 데이터가 주어졌을 때, AdaBN은 소스 도메인에서 학습된 모델의 BN 통계를 타겟 도메인의 통계로 업데이트한다.
이를 통해 타겟 도메인의 배치별 평균과 분산을 사용하여 입력을 정규화한다.
원래 BN의 수식
x^=xμbatchσbatch2+ϵ \hat{x} = \frac{x - \mu_{\text{batch}}}{\sqrt{\sigma_{\text{batch}}^2 + \epsilon}}
AdaBN의 수식
AdaBN은 타겟 도메인 데이터의 배치별 평균과 분산을 계산하여 BN 레이어의 이동 평균(mean)과 이동 분산(variance)을 업데이트한다.
(x^target)=xtargetμtargetσtarget2+ϵ(\hat{x}_{\text{target}}) = \frac{x_{\text{target}} - \mu_{\text{target}}}{\sqrt{\sigma_{\text{target}}^2 + \epsilon}}

C. Mapped-based UDTL

소스 도메인과 타겟 도메인의 데이터를 동일한 feature space로 매핑하여, 도메인 간 차이를 최소화하는 방법이다.

0. MMD(Maximum Mean Discrepancy)

(Borgwardt, Karsten M., et al., 2006)
두 확률 분포의 평균 임베딩 간의 거리를 측정하는 방법
MMD는 재현 커널 힐버트 공간(RKHS)에서 정의된다.
(Hibert Space일반화된 유클리드 공간이라고 보면 된다. 무한 차원으로 확장한 개념)

재현 커널 힐버트 공간 (RKHS)

RKHS는 다음과 같은 특성을 가진 함수 공간이다
재현 성질: 함수 공간 내의 모든 함수가 특정 조건을 만족하는 커널 함수에 의해 재현될 수 있다.
내적 정의: 함수 간의 내적(inner product)이 정의되어 있어, 벡터 공간처럼 다룰 수 있다.
마진 분포 P(Xs)P(X_s)Q(Xt)Q(X_t)커널 임베딩을 사용한다.
커널 임베딩은 데이터를 고차원 공간으로 매핑하여 분포의 특성을 반영한다.
MMD는 소스 도메인과 타겟 도메인의 분포를 커널 임베딩한 후 두 분포 간의 제곱 거리로 측정된다. 이를 통해 MMD가 두 분포 간의 차이를 정량적으로 측정한다.
Loss 함수에 사용되어 소스 도메인과 타겟 도메인 간의 분포 차이를 줄여 모델이 타겟 도메인에서도 잘 작동하도록 한다.

1. MK-MMD(Multi-Kernel Maximum Mean Discrepancy)

(Long, Mingsheng, et al., 2015)
MMD를 확장한 버전으로, 여러 개의 커널(ϕ\phi)을 결합하여 두 분포 간의 차이를 더 정확하게 측정한다.
그림 이해
LcL_c: 소프트맥스 크로스 엔트로피 손실, 예측된 출력과 실제 레이블 간의 손실을 측정한다.
𝐿MKMMD𝐿_{MK-MMD}: MK-MMD 손실, 소스 도메인과 타겟 도메인 간의 분포 차이를 줄이기 위해 사용된다.

2. Joint Maximum Mean Discrepancy (JMMD)

(Long, Mingsheng, et al., 2017)
수식 (10)은 소스 도메인 𝑃와 타겟 도메인 𝑄의 조인트 분포 간의 차이를 측정.
ϕl(zls)ϕ^l(z^s_l): 소스 도메인에서 l번째 층의 feature vector를 고차원 공간으로 mapping
ϕl(𝑧lt)ϕ^l(𝑧^t_l): 타겟 도메인에서 l번째 층의 feature vector를 고차원 공간으로 mapping
JMMD(Joint Maximum Mean Discrepancy): 마진 분포뿐만 아니라 데이터와 레이블 간의 관계까지 포함하여(조인트 분포) 차이를 줄인다.
마진 분포 vs 조인트 분포
마진 분포 (Marginal Distribution): 소스 도메인의 입력 데이터 𝑃(𝑋𝑠)𝑃(𝑋_𝑠)와 타겟 도메인의 입력 이터 𝑄(𝑋𝑡)𝑄(𝑋_𝑡)
조인트 분포 (Joint Distribution): 소스 도메인의 입력 데이터와 레이블 𝑃(𝑋𝑠,Ys)𝑃(𝑋_𝑠, Y_s) 및 타겟 도메인의 입력 데이터와 레이블 𝑄(𝑋𝑡,𝑌𝑡)𝑄(𝑋_𝑡,𝑌_𝑡)
추출된 특징은 Bottleneck 레이어를 통해 더 압축되고, 고차원적인 특징이 생성된다.
LJMMDL_{JMMD}: 두 도메인의 특징을 텐서 곱을 통해 결합하여 고차원 공간에서 분포 차이를 최소화한다.
JMMD 기반 UDTL 모델은 소스 도메인과 타겟 도메인의 특징을 동시에 학습하고, 두 도메인의 조인트 분포 차이를 줄여 모델의 성능을 향상시키는 구조를 가지고 있다.
이를 통해 모델은 도메인 간의 차이에 상관없이 고장 진단과 같은 작업에서 높은 성능을 발휘할 수 있게 된다.

3. CORAL(Correlation Alignment)

(Sun, B., & Saenko, K., 2016)
소스 도메인과 타겟 도메인의 공분산 행렬을 정렬하여 두 도메인의 특징 분포 간의 차이를 줄인다
(정렬: 두 도메인의 공분산 행렬을 유사하게 만든다는 뜻. 모델이 도메인 불변 특징을 학습할 수 있도록 하는 과정)
CORAL loss는 두 도메인의 공분산 행렬의 차이를 최소화함으로써, 도메인 간의 분포 차이를 줄인다. → 모델이 타겟 도메인에서도 잘 작동하도록 한다.
d는 특징 벡터의 차원 수
CsC^s , CtC^t 는 각각 공분산 행렬

D. Adversarial-based UDTL

적대적 기반 UDTL적대적 신경망(Adversarial Neural Network)을 사용하여 소스 도메인과 타겟 도메인의 분포를 일치시키는 방법이다. 도메인 판별기(domain discriminator)와 특징 추출기(feature extractor)를 함께 학습시켜, 특징 추출기가 도메인 판별기를 속일 수 있도록 한다.

DANN(Domain-Adversarial Neural Network)

DANN (Ganin, Yaroslav, et al, 2016)

CDAN(Conditional Domain-Adversarial Network)

(Long, Mingsheng, et al, 2018)
CDAN은 DANN의 확장된 버전이다.
DANN: 도메인 분류기를 사용하여 도메인 간의 차이를 최소화함으로써 도메인 불변 특징을 학습
CDAN: DANN의 확장 버전으로, 입력 특징레이블의 조합(x, y)을 사용하여 더 정교한 도메인 불변 특징을 학습

IV. Label-inconsisitent UDTL

Label-Inconsistent UDTL은 실제 응용에서 소스 도메인과 타겟 도메인의 레이블 집합이 일치하지 않는 경우를 다룬다.

A. Partial UDTL

Partial UDTL은 타겟 레이블 집합 𝐶𝑡𝐶_𝑡 가 소스 레이블 집합 𝐶𝑠𝐶_𝑠 의 부분 집합인 경우를 의미한다.
CtCsC_t ⊂ C_s
예를 들어, 소스 도메인에 10개의 클래스가 있고, 타겟 도메인에는 그 중 7개의 클래스만 있을 때, 타겟 도메인의 레이블은 소스 도메인의 레이블의 부분 집합이 된다.
Partial Adversarial Domain Adaptation (PADA)
(Cao, Zhangjie, et al., 2018)
이 방법은 특히 타겟 도메인에서 일부 클래스가 소스 도메인에 없는 경우에 유용하다.
타겟 도메인에 있는 클래스의 중요도를 반영하여 학습하는 방법이다.
이를 통해 소스 도메인의 불필요한 클래스 정보를 억제하고, 타겟 도메인에서 더 나은 성능이 나오도록 돕는다.
1.
γ\gamma 계산
각 클래스의 기여도를 정량화.
이 값은 각 클래스가 타겟 도메인에서 얼마나 자주 예측되는지를 의미
2.
γ\gamma 정규화
0과 1 사이의 값으로 정규화된다.
γ^yis\hat{\gamma}_{y^s_i} : 이 값은 각 소스 도메인 클래스가 타겟 도메인에서 얼마나 중요한지를 나타낸다.
1.
클래스 중요도 반영: 타겟 도메인에서 더 중요한 클래스를 더 높은 가중치로 반영하여 학습 시킨다. 이를 통해 모델이 타겟 도메인의 중요한 클래스에 대해 더 잘 학습할 수 있도록 한다.
2.
source-private 클래스 기여 감소: 타겟 도메인에 없는 소스 도메인의 클래스에 대한 기여도를 줄여, 모델이 타겟 도메인에서 불필요한 클래스 정보에 덜 민감하도록 한다.
vanilla GAN 모델에서의 Discriminator loss
PADA Loss (adversarial loss)

B. Open set UDTL

Partial UDTL과 반대로 이번에는 소스 레이블 집합 𝐶𝑠𝐶_𝑠 이 타겟 레이블 집합 𝐶𝑡𝐶_𝑡 의 부분 집합인 경우를 의미한다.
CsCtC_s ⊂ C_t
타겟 도메인이 소스 도메인에는 없는 새로운 클래스의 데이터를 포함할 수 있는 상황
모델은 타겟 도메인 데이터를 소스 도메인의 클래스에 속하지 않는 경우를 인식하고 이를 다른 클래스로 분류할 수 있어야 한다.
Open Set Back-Propagation(OSBP) 기법
(Saito, Kuniaki, et al., 2018)
알려지지 않은 클래스(unknown class)에 대한 pseudo decision boundary를 설정하기 위해 설계된 적대적 학습(adversarial-based) 방법이다.
(pseudo decision boundary: known class와 unknown class를 구분할 수 있는 경계)
OSBP 모델 구조는 feature extractor 𝐺𝑓𝐺_𝑓𝐶+1 개의 classifier 𝐺𝑐𝐺_𝑐로 구성된다.(C = 알려진 소스 클래스의 수)
Binary Cross Entropy Loss
yiy_i: 실제 레이블 (0 또는 1) pip_i: 모델이 예측한 확률 값 (0~1 사이)
Open Set Back-Propagation(OSBP) Loss
pC+1tp^t_{C+1} : 타겟 샘플이 unknown class로 분류될 softmax 확률
𝜏 : threshold 값. 타겟 샘플이 unknown class로 분류될 softmax 확률에 대한 가중치
“The saddle point (θ^f\hatθ_f, θ^c\hatθ_c) is solved using the following min-max optimization problem
saddle point: θf에 대해서는 maximum, θc에 대해서는 minimum이 되는 지점

특징 추출기 𝜃𝑓𝜃_𝑓 와 분류기 𝜃𝑐𝜃_𝑐 파라미터 최적화

특징 추출기가 Generator 역할, 분류기가 Discriminator 역할이라고 이해하면 된다.
feature extractor(generator)가 classifier(discriminator)를 속이려 하고, classifier는 known class와 unknown class를 잘 구분하려 한다.
(Adversarial 개념이 들어가므로 오히려 L_c를 최대화한다.)
LcL_c를 최대화하여 분류기가 더욱 소스 도메인의 클래스를 잘 분류하도록 도움.
(일반적으로 L_c 를 최소화하는 방향으로 최적화된다)
직접적으로 소스 도메인의 분류 예측 성능을 높임
LOSBPL_{OSBP}를 최소화하여 타겟 도메인의 unknown class 구분 성능을 높임
→ 타겟 도메인에서 알려지지 않은 클래스와 알려진 클래스 간의 경계(boundary)를 학습한다.
[최적화 과정]
1.
step 1: θ^c\hatθ_c를 고정한 상태에서 θfθ_f를 최적화하여 θ^f\hatθ_f를 찾는다.
2.
step 2: θ^f\hatθ_f를 고정한 상태에서 θcθ_c를 최적화하여 θ^c\hatθ_c를 찾는다.
이 과정을 반복하여 두 파라미터가 최적화된 값을 찾아간다.

C. Universal UDTL

(Partial + Open set = Universal)
Universal은 앞선 두 개를 결함한 개념이다.
Universal adaptation network (UAN)
(You, Kaichao, et al., 2019)
Universal Domain Adaptation (CVPR You et al. 2019) → 이 논문에서 제시된 UAN 네트워크를 소개
“You et al. [148] proposed UAN and designed an instance-level transferability criterion, exploiting the domain similarity and prediction uncertainty. The model of UAN is similar to that of DANN, while the difference is that UAN adds a non-adversarial domain discriminator.”
instance-level transferability의 두 가지 요소
1.
도메인 유사성 (Domain Similarity): 도메인 유사성이 높을수록 소스 도메인에서 학습한 정보가 타겟 도메인에서도 유용할 가능성이 크다.
2.
예측 불확실성 (Prediction Uncertainty): 예측 불확실성이 낮을수록 모델이 해당 샘플에 대해 자신있게(certainty) 예측한 것이다.
Non-Adversarial Domain Discriminator
대립적 학습과 달리 별도의 대립적 손실 함수를 사용하지 않는다.
1.
소스 샘플에 대한 transferability (𝜔(𝑥𝑖𝑠𝑥^𝑠_𝑖)): 소스 샘플 𝑥𝑖𝑠𝑥^𝑠_𝑖가 공통 레이블 집합 C C에 속할 확률
2.
타겟 샘플에 대한 transferability (𝜔(𝑥𝑖𝑡𝑥^𝑡_𝑖)): 타겟 샘플 𝑥𝑖t𝑥^t_𝑖가 공통 레이블 집합 C C에 속할 확률
각 값이 높으면 source와 target 둘 다 포함하는 클래스 집합에 속할 확률이 높다는 의미이다.
그러나 테스트 단계에서 𝜔(𝑥𝑖𝑡𝑥^𝑡_𝑖) 임계값 wow_o 보다 높으면 오히려 unknown 클래스로 간주한다.
매우 높은𝜔(𝑥𝑡)) 값을 가지는 샘플이 실제로 타겟 도메인에만 존재하는 새로운 클래스일 가능성을 고려한 것이다.

V. Multi-Domain UDTL

Multi-Domain UDTL은 여러 소스 도메인에서 학습한 모델을 타겟 도메인으로 transfer하는 방법이다.
아래 소개되는 두 가지 네트워크 둘다 Adversarial 학습을 사용한다. (Gradient Reversal Layer(GRL) 사용)

A. Multi-domain adaptation

Multi-Source Unsupervised Adversarial Domain Adaptation (MS-UADA)

(Dai, Yong, et al, 2020)
DANN의 multi-source 확장 버전이라고 이해하면 된다.(근데 특별한 차별점은 없음)

B. Domain generalization (DG)

Invariant Adversarial Network (IAN)

(Li, Xiang, et al., 2020)
IAN의 주요 목적은 타겟 도메인의 데이터를 학습에 포함시키지 않고도 타겟 도메인에서 잘 일반화될 수 있는 모델을 만드는 것이다.
→ zero-shot 학습과 유사한 개념이다.

이후 내용

VI. Datasets

베어링 데이터셋
Case Western Reserve University (CWRU)
Paderborn University (PU)
JiangNan University (JNU)
기어박스(gearbox) 데이터셋
PHM Data Challenge on 2009 (PHM2009)
Southeast University (SEU)

VII. COMPARATIVE STUDIES

소개한 UDTL 연구들(네트워크들) 간의 비교 분석
공통된 Backbone 으로 실험을 진행

VIII. FURTHER DISCUSSIONS

A. Transferability of features

도메인 간 feature 전이 가능성(얼마나 잘 전이되는지)에 대해 논의한다.

C. Negative transfer

도메인 전이 학습에서 발생할 수 있는 문제로, 잘못된 특징 전이로 인해 모델 성능이 저하되는 현상에 대해 설명한다.

D. Physical priors

물리적 사전 지식(도메인 지식 or 공학적 지식)이 도메인 전이 학습에 어떻게 활용될 수 있는지에 대해 논의한다.
물리적 사전 지식을 네트워크에 통합하여 성능을 향상시킬 수 있는 방법들을(논문들)을 소개