데이터 플라이휠 (Data Flywheel) — 자율주행 산업에서 단순 데이터 파이프라인을 넘어 데이터 수집·모델 학습·모델 배포·실주행 환류를 하나의 통합·반복 시스템으로 연결하는 능력. Kognic 톰 달스트림(Tom Dahlstrom)이 알고리즘이 평준화된 시대에 차별 요소가 데이터의 가용성과 반복(iteration) 속도로 이동했다는 진단의 핵심 개념. 자율주행에는 LLM이 활용하는 인터넷 같은 거대 데이터 원천이 없으므로, 누가 더 빠르게 반복할 수 있는가가 승자를 결정한다.
왜 단순 파이프라인으로 부족한가
알고리즘은 누구나 접근할 수 있고 구글·NASA가 사용하는 알고리즘과 거의 동일한 것을 사용할 수 있다(앤드류 응의 진단). 문제는 그 알고리즘을 실제 제품 수준 모델로 훈련시키는 것이며, 이는 데이터 가용성에 달려 있다. 단순히 “가장 많은 데이터”가 아니라 적절한 데이터가 적절한 규모로 존재하는 것이 중요하다.
구성 요소 — 통합·반복 시스템
| 단계 | 역할 |
|---|---|
| 데이터 수집 | 차량 플릿에서 멀티모달 센서 데이터(라이다·카메라·레이다)를 시퀀스로 수집 |
| 롱테일 큐레이션 | 메타데이터 필터링 → 시각적 확인 → VLM 추상적 탐색 → 인간 yes/no 검증 |
| 어노테이션 | Model & Human in the Loop — 자동 라벨링 + 인간 QA |
| 모델 학습 | 합성·증강 데이터 보완 (단 검증에는 한계) |
| 모델 배포 | OTA 업데이트로 차량에 환류 |
| 실주행 환류 | 운전 데이터·시나리오가 다시 수집 단계로 |
SDV 시대 OTA + 지속적 데이터 수집이 가능해지면서 위 6단계가 끊어진 채 운영되지 않고 하나의 빅 루프(big loop) 또는 지속 피드백(continuous feedback) 구조로 닫힌다.
어노테이션의 변화 — 무엇(what) → 왜(why)
End-to-End AI·VLM(Vision Language Model)·VLA(Vision Language Action)로 아키텍처가 이동하면서 어노테이션의 의미도 바뀐다. 기존에는 사람이 차량 주변의 “무엇”을 라벨링(바운딩 박스 등)했지만 VLM 시대는 “왜”를 설명한다 — 특정 상황에서 어떤 요소가 중요한지·차량이 어떤 논리로 행동해야 하는지 피드백.
기계가 잘하는 일(객체 형태·기하학적 특성)은 기계에게, 인간은 의사결정 영향 요소·맥락 피드백을 제공. NVIDIA의 Alpamayo 논문(VLM 기반 주행 시나리오 추론·데이터 정렬)이 이 흐름의 대표 연구.
합성 데이터의 한계
학습 측면에서 합성·증강 데이터는 매우 유용하다. 자율주행 롱테일 문제(매우 드물지만 치명적인 상황)를 실제 도로에서 의도적으로 기록하는 것은 현실적·윤리적으로 어렵다. 그러나 멀티센서 현실성(sensor realism)은 큰 과제로 남는다. 카메라 기반 포토리얼리스틱 시뮬레이션은 발전했지만, 현실 세계 데이터가 거의 없는 상황에서 현실적인 라이다 스캔·레이다 RCS(Radar Cross Section)를 생성하는 것은 어렵다. 특히 검증 단계에서 비실제 데이터 사용은 논쟁적 — 복잡한 합성 시나리오가 실제 환경과 충분히 유사하다는 것을 증명하는 일 자체가 피하려 했던 문제만큼이나 어려울 수 있다.
데이터 자체는 자산이 아니다
“데이터 자체가 자산은 아니다. 진짜 자산은 그 데이터를 실제 모델 성능 향상으로 연결하는 능력이다.” — 달스트림
대규모 차량 데이터를 빠르게 확보하는 환경(중국 시장)이 구조적 우위를 만들 수 있다는 통념에 대해 달스트림은 데이터 규모가 일정 수준 이상 필요하다는 점은 인정하면서도, 결국 데이터를 모델 성능으로 연결하는 능력 — 즉 데이터 플라이휠 — 이 진짜 자산이라고 본다. 중국 시장의 많은 기업이 이 점을 잘 이해하고 있다는 평가.
SDV 시대의 제품 패러다임 변화
“과거에는 자동차가 구매한 순간이 가장 완벽한 상태였다. SDV에서는 그 반대다. 차는 사용되는 동안 계속 개선되어야 한다.” — 달스트림
SDV 시대에는 데이터 플라이휠이 단순 개발 효율 도구가 아니라 제품 수명 주기 자체를 정의한다. 기존 자동차 기업이 이 전환에서 어려움을 겪는 이유는 완전히 다른 제품 개발 철학(판매 시점 완성형)에 맞춰 최적화돼 있었기 때문.