About me
home
Portfolio
home

Back to the Feature: Classical 3D Features are All You Need for 3D Anomaly Detection

Anomaly Detection에 있어 3D Data를 어떻게 다룰지에 대한 Insight를 공유
기존의 color-only 방법(2D)이 3D 정보를 목적으로 설계된 Baseline들보다 우수하다는 역설적인 결과 발견.
3D 정보의 효과적 활용 방안 모색
다양한 shape representations을 비교 분석, rotation invariance한 정보가 중요한 역할을 한다는 것을 입증
새로운 3D-only 방법 제안
deep learning, pre-training datasets, color 정보를 사용하지 않고도 기존 방법론들의 성능을 뛰어넘는 간단한 3D-only 방법을 제안.
BTF (Back to the Feature) 방법 제안
3D-only 방법과 color-based features를 결합하여 이전의 3D AD Baseline 성능을 크게 상회함.
MVTec 3D-AD에서 pixel AUROC 99.3% 및 AUPRO 96.4% 달성.

3D 데이터를 표현하는 방법

2D Image의 경우 일반화된 표현 방법 (Representation)이 존재
Pixel (Width x Height x Channel)의 형태
일반적인 색깔이 있는 이미지의 경우 RGB 3채널을 가진 (W x H x 3)의 형태
3D 데이터의 경우 다양한 방법으로 표현
Discretized Representation
Depth Map
Voxel Grid
Pointcloud
Meshes
Implicit Representation
Occupancy Networks
Pointcloud
MVTec 3D Anomaly Detection Dataset
정의
3D Object를 3D 공간 내의 점들의 집합으로, 각 점은 X, Y, Z 좌표를 가지며 때로는 색상이나 강도(intensity) 같은 추가 정보를 포함할 수 있는 형태
Voxel 과의 차이
point cloud는 점들이 공간 상에서 불규칙하게 분포할 수 있으나, voxel은 공간을 균일한 격자로 나누어 각 격자에 값이 할당되어 구조화된 데이터를 형성
Voxel이 공간을 정의하고, 각 블록으로 object를 표현했다면, Pointcloud는 관측 위치 (scan 위치)에서 본 상대적인 x,y,z position

Feature Descriptor

(((3D 데이터는 Feature Descriptor를 사용한다는 내용 )))))
1.
SIFT(Scale-Invariant Feature Transform)
Scale, Rotation에 불변하는 특징점을 추출하는 알고리즘
2.
D-SIFT(Dense SIFT)
기존의 SIFT가 이미지에서 sparse하게 특징점을 추출하는 것과 달리, 이미지 전체 영역에 걸쳐서 균등하게 추출하는 방식
3D Descriptor (for point cloud)의 조건
1.
Transformation Robustness
Point Cloud가 회전하거나 이동되어도, 동일한 위치에서 동일한 특징이 추출되어야 함
2.
Resolution Invariant
Point cloud 이용 시, 계산량을 줄이기 위해 down sampling 후 사용. 3D Descriptor는 downsampled에서도 동일한 값을 유지할 수 있어야 함
3.
Noise Robustness
스캔 데이터를 바탕으로 만들어진 Point cloud 데이터는 종종 noise를 포함. 이러한 Noise에 영향을 받지 않고 안정적인 특징을 추출할 수 있어야 함

MVTec 3D Anomaly Detection

10 Classes
Data format
Point cloud
TIFF 포맷
3xWxH (x,y,z) (W, H는 scanner 시점 기준)
RGB
JPEG 포맷
WxHxC (RGB 3 채널)
Ground Truth
HxW (MVTec 2D 데이터셋과 동일)
1.
Learned representations (학습된 표현)
딥 러닝이나 기계 학습 알고리즘을 사용하여 자동으로 학습된 특징 표현입니다.
대량의 데이터로부터 패턴을 자동으로 추출합니다.
예시:
ImageNet pre-trained 특징
PointNeXt
SpinNet
2.
Handcrafted representations (수작업으로 만든 표현)
인간 전문가가 직접 설계하고 구현한 특징 추출 방법입니다.
도메인 지식을 바탕으로 만들어집니다.
일반적으로 더 간단하고 해석하기 쉽습니다.
예시:
Raw Depth Values
Histogram of Oriented Gradients (HoG)
Dense Scale-Invariant Feature Transform (D-SIFT)
Fast Point Feature Histograms (FPFH)
이 논문의 주요 발견 중 하나는 3D 이상 탐지에서 handcrafted representations, 특히 FPFH가 많은 learned representations보다 더 좋은 성능을 보였다는 점이다. 이는 복잡한 딥 러닝 모델이 항상 최선의 선택이 아닐 수 있다는 것을 시사한다.
1.
Parametric models (매개변수적 모델):
고정된 수의 매개변수를 가진 모델이다.
데이터의 분포나 관계를 특정 수학적 형태로 가정한다.
예: 선형 회귀, 로지스틱 회귀, 신경망 등
장점: 학습이 빠르고, 메모리 효율적이다.
단점: 모델의 가정이 실제 데이터와 맞지 않으면 성능이 떨어질 수 있다.
2.
Non-parametric approaches (비매개변수적 접근):
고정된 매개변수 수를 가정하지 않는다.
데이터의 복잡성에 따라 모델의 복잡성이 증가할 수 있다.
예: k-Nearest Neighbors (kNN), 결정 트리, 커널 밀도 추정 등
장점: 유연하며, 복잡한 패턴을 잘 포착할 수 있다.
단점: 대규모 데이터셋에서는 계산 비용이 높을 수 있다.
논문에서는 non-parametric approaches, 특히 k-Nearest Neighbor 거리를 사용한 방법이 간단하면서도 효과적이라고 언급한다. 이 방법은:
훈련이 필요 없음
정확도가 높음
구현이 간단함
속도를 크게 향상시킬 수 있음
이러한 이유로 논문 저자들은 이상 탐지를 위한 표현 학습에 중점을 두고, 밀도 추정에는 간단한 non-parametric 접근법을 사용하기로 결정했다.