•
Anomaly Detection에 있어 3D Data를 어떻게 다룰지에 대한 Insight를 공유
◦
기존의 color-only 방법(2D)이 3D 정보를 목적으로 설계된 Baseline들보다 우수하다는 역설적인 결과 발견.
◦
3D 정보의 효과적 활용 방안 모색
▪
다양한 shape representations을 비교 분석, rotation invariance한 정보가 중요한 역할을 한다는 것을 입증
•
새로운 3D-only 방법 제안
◦
deep learning, pre-training datasets, color 정보를 사용하지 않고도 기존 방법론들의 성능을 뛰어넘는 간단한 3D-only 방법을 제안.
•
BTF (Back to the Feature) 방법 제안
◦
3D-only 방법과 color-based features를 결합하여 이전의 3D AD Baseline 성능을 크게 상회함.
◦
MVTec 3D-AD에서 pixel AUROC 99.3% 및 AUPRO 96.4% 달성.
3D 데이터를 표현하는 방법
•
2D Image의 경우 일반화된 표현 방법 (Representation)이 존재
◦
Pixel (Width x Height x Channel)의 형태
◦
일반적인 색깔이 있는 이미지의 경우 RGB 3채널을 가진 (W x H x 3)의 형태
•
3D 데이터의 경우 다양한 방법으로 표현
◦
Discretized Representation
▪
Depth Map
▪
Voxel Grid
▪
Pointcloud
▪
Meshes
◦
Implicit Representation
▪
Occupancy Networks
Pointcloud
MVTec 3D Anomaly Detection Dataset
•
정의
◦
3D Object를 3D 공간 내의 점들의 집합으로, 각 점은 X, Y, Z 좌표를 가지며 때로는 색상이나 강도(intensity) 같은 추가 정보를 포함할 수 있는 형태
•
Voxel 과의 차이
◦
point cloud는 점들이 공간 상에서 불규칙하게 분포할 수 있으나, voxel은 공간을 균일한 격자로 나누어 각 격자에 값이 할당되어 구조화된 데이터를 형성
◦
Voxel이 공간을 정의하고, 각 블록으로 object를 표현했다면, Pointcloud는 관측 위치 (scan 위치)에서 본 상대적인 x,y,z position
Feature Descriptor
(((3D 데이터는 Feature Descriptor를 사용한다는 내용 )))))
1.
SIFT(Scale-Invariant Feature Transform)
Scale, Rotation에 불변하는 특징점을 추출하는 알고리즘
2.
D-SIFT(Dense SIFT)
기존의 SIFT가 이미지에서 sparse하게 특징점을 추출하는 것과 달리, 이미지 전체 영역에 걸쳐서 균등하게 추출하는 방식
•
3D Descriptor (for point cloud)의 조건
1.
Transformation Robustness
•
Point Cloud가 회전하거나 이동되어도, 동일한 위치에서 동일한 특징이 추출되어야 함
2.
Resolution Invariant
•
Point cloud 이용 시, 계산량을 줄이기 위해 down sampling 후 사용. 3D Descriptor는 downsampled에서도 동일한 값을 유지할 수 있어야 함
3.
Noise Robustness
•
스캔 데이터를 바탕으로 만들어진 Point cloud 데이터는 종종 noise를 포함. 이러한 Noise에 영향을 받지 않고 안정적인 특징을 추출할 수 있어야 함
MVTec 3D Anomaly Detection
•
10 Classes
•
Data format
◦
Point cloud
▪
TIFF 포맷
▪
3xWxH (x,y,z) (W, H는 scanner 시점 기준)
◦
RGB
▪
JPEG 포맷
▪
WxHxC (RGB 3 채널)
•
Ground Truth
◦
HxW (MVTec 2D 데이터셋과 동일)
1.
Learned representations (학습된 표현)
•
딥 러닝이나 기계 학습 알고리즘을 사용하여 자동으로 학습된 특징 표현입니다.
•
대량의 데이터로부터 패턴을 자동으로 추출합니다.
•
예시:
◦
ImageNet pre-trained 특징
◦
PointNeXt
◦
SpinNet
2.
Handcrafted representations (수작업으로 만든 표현)
•
인간 전문가가 직접 설계하고 구현한 특징 추출 방법입니다.
•
도메인 지식을 바탕으로 만들어집니다.
•
일반적으로 더 간단하고 해석하기 쉽습니다.
•
예시:
◦
Raw Depth Values
◦
Histogram of Oriented Gradients (HoG)
◦
Dense Scale-Invariant Feature Transform (D-SIFT)
◦
Fast Point Feature Histograms (FPFH)
이 논문의 주요 발견 중 하나는 3D 이상 탐지에서 handcrafted representations, 특히 FPFH가 많은 learned representations보다 더 좋은 성능을 보였다는 점이다. 이는 복잡한 딥 러닝 모델이 항상 최선의 선택이 아닐 수 있다는 것을 시사한다.
1.
Parametric models (매개변수적 모델):
•
고정된 수의 매개변수를 가진 모델이다.
•
데이터의 분포나 관계를 특정 수학적 형태로 가정한다.
•
예: 선형 회귀, 로지스틱 회귀, 신경망 등
•
장점: 학습이 빠르고, 메모리 효율적이다.
•
단점: 모델의 가정이 실제 데이터와 맞지 않으면 성능이 떨어질 수 있다.
2.
Non-parametric approaches (비매개변수적 접근):
•
고정된 매개변수 수를 가정하지 않는다.
•
데이터의 복잡성에 따라 모델의 복잡성이 증가할 수 있다.
•
예: k-Nearest Neighbors (kNN), 결정 트리, 커널 밀도 추정 등
•
장점: 유연하며, 복잡한 패턴을 잘 포착할 수 있다.
•
단점: 대규모 데이터셋에서는 계산 비용이 높을 수 있다.
논문에서는 non-parametric approaches, 특히 k-Nearest Neighbor 거리를 사용한 방법이 간단하면서도 효과적이라고 언급한다. 이 방법은:
•
훈련이 필요 없음
•
정확도가 높음
•
구현이 간단함
•
속도를 크게 향상시킬 수 있음
이러한 이유로 논문 저자들은 이상 탐지를 위한 표현 학습에 중점을 두고, 밀도 추정에는 간단한 non-parametric 접근법을 사용하기로 결정했다.