목록으로 돌아가기

1. 문제 (왜 이걸 했는가)

최근 객체 탐지 모델은 점점 더 무거워지고 있지만, 실제 배포 환경은 여전히 제한적인 연산 자원을 가진 Edge 디바이스(Jetson, 임베디드 시스템)가 대부분이다.
YOLOv8m은 균형 잡힌 모델이지만, 실시간 처리가 필요한 환경에서는 여전히 latency가 부담되는 수준이다.

목표:

  • 정확도를 최대한 유지하면서 실제 추론 속도를 개선할 수 있는 구조적 경량화 방법을 찾는다.

2. 기존 방식의 한계

일반적인 pruning 방식은 다음과 같은 한계를 가진다.

  • Unstructured pruning
    • weight를 0으로 만드는 방식
    • 실제 latency 개선이 거의 없음 (sparse 연산 미지원)
  • Heuristic 기반 structured pruning
    • channel importance 기반 제거
    • 하드웨어 최적화 고려 부족
    • FLOPs 감소 대비 실제 latency 개선이 제한적

즉, 연산량 감소가 실제 속도 향상으로 이어지지 않는 문제가 존재한다.


3. FastNAS 접근

NVIDIA ModelOpt의 FastNAS는 단순 pruning과 달리, 주어진 제약 조건(FLOPs 등) 내에서 최적의 subnet을 탐색하는 방식이다.

핵심 특징:

  • 구조 자체를 재설계 (channel width, layer 구조 등)
  • hardware-aware 탐색
  • FLOPs constraint 기반 최적화

실험 목표: 성능은 최대한 유지하면서 $\text{FLOPs} \leq 66\%$ 조건을 만족하도록 설정한다.


4. 실험 설정

  • Model: YOLOv8m (Ultralytics)
  • Optimizer: NVIDIA ModelOpt (FastNAS)
  • Dataset: COCO128 (PoC)
  • Constraint: $\text{FLOPs} \leq 66\%$ of baseline
  • Fine-tuning: 50 epochs

※ 본 실험은 PoC 수준이며, 정확한 성능 평가는 full COCO에서 추가 검증이 필요하다.


5. 결과 - 모델 경량화 및 성능 변화

항목 Baseline Pruned 변화
Parameters 25.9M 17.6M -32%
FLOPs 79.3B 52.0B -34%
Inference Time (ms) 10.77 8.66 -19.6%
mAP@50-95 0.839 0.785 -5.4%p
Recall 0.904 0.871 -3.3%p

6. 분석

6.1 FLOPs vs Latency 괴리

FLOPs는 34% 감소했지만 latency는 19.6%만 개선되었다.
이는 GPU 환경에서 성능이 단순 연산량뿐 아니라 memory access, kernel launch overhead 등에 영향을 받기 때문이다.
연산량 감소가 동일한 비율의 속도 향상으로 이어지지 않는다.


6.2 정확도 하락 원인

정확도 감소는 구조적 pruning의 특성상 자연스럽다.

가능한 원인:

  • feature map channel 감소
  • high-resolution feature 손실
  • 작은 객체 탐지 성능 저하 (recall 감소)

결과적으로 표현력 감소가 detection sensitivity 감소로 이어진다.


6.3 Trade-off 해석

이번 결과는 명확한 trade-off를 보여준다.

  • 속도: +19.6%
  • 정확도: -5.4%p

이 선택은 문제 도메인에 따라 달라져야 한다.


7. 결론

FastNAS를 활용한 구조적 경량화는 단순 pruning 대비 실제 latency 개선을 유도할 수 있는 방법이다.

다음과 같은 경우에 적합하다:

  • Edge 디바이스 배포 (Jetson 등)
  • 실시간 처리(FPS)가 중요한 시스템
  • 객체가 크고 명확한 경우

다음과 같은 경우에는 주의가 필요하다:

  • 작은 객체 탐지가 중요한 경우
  • false negative가 치명적인 시스템

요약

모델 경량화 자체도 중요하지만, 실제 배포 환경에서는 latency가 더 중요한 제약이 되는 경우가 많다.
FastNAS는 FLOPs 감소를 실제 추론 속도 개선으로 연결하는 구조적 접근이라는 점에서 의미가 있다.