Kognic — 스웨덴 예테보리(Gothenburg) 기반 자율주행 데이터 플랫폼 전문 기업. 멀티모달 센서 데이터의 어노테이션·검증·품질 관리를 통합한 플랫폼을 OEM·Tier-1에 공급한다. 첫 고객은 Volvo Cars 자회사 자율주행 시스템 개발사 Zenseact로, 두 회사 사무실은 같은 거리에서 100 m 거리에 위치하지만 시작부터 별개 독립 회사다.

톰 달스트림 (Tom Dahlstrom) — 데이터 플라이휠 관점 (2026-03)

Kognic의 자율주행 데이터 플랫폼 비즈니스 담당. 2026-04 Automotive Testing Expo 현장 인터뷰. 핵심 진단:

“오늘날 대부분의 알고리즘은 누구나 접근할 수 있다. 문제는 그 알고리즘을 실제 제품 수준의 모델로 훈련시킬 수 있느냐, 그것은 결국 데이터의 가용성에 달려 있다.”

스탠포드대 앤드류 응(Andrew Ng) 발언을 인용하며 자율주행 산업의 차별 요소가 알고리즘에서 데이터로 이동했다고 정리. 자율주행에는 LLM이 활용하는 인터넷 같은 거대 데이터 원천이 없으므로 단순 데이터 파이프라인이 아니라 데이터 플라이휠을 만들어내는 능력이 핵심 과제. 핵심 명제: “승자를 결정하는 것은 누가 더 빠르게 반복(iteration)할 수 있는가다.”

VLM·VLA 시대의 데이터 어노테이션

달스트림에 따르면 자율주행 아키텍처가 인지-예측-계획 계층형에서 End-to-End AI·VLM(Vision Language Model)·VLA(Vision Language Action) 같은 통합 모델로 이동하면서 어노테이션의 성격이 바뀌고 있다. 기존: 사람이 차량 주변의 “무엇(what)“을 라벨링(바운딩 박스 등). VLM 시대: 사람이 “왜(why)“를 설명 — 특정 상황에서 어떤 요소가 중요한지·차량이 어떤 논리로 행동해야 하는지 피드백.

기계가 잘하는 일(객체 형태·기하학적 특성)은 기계에게, 인간은 의사결정에 영향을 주는 요소·맥락 피드백 제공. 달스트림은 NVIDIA의 Alpamayo 논문(VLM 기반 주행 시나리오 추론·데이터 정렬)을 이 흐름의 대표 연구로 제시.

Kognic 플랫폼 — 데이터 품질 메커니즘

자율주행 데이터 어노테이션은 안전과 직결되므로 데이터 품질에 대해 책임을 진다는 입장. 플랫폼·프로세스 내장 QA 메커니즘:

  • 자동 sanity check — 라벨링 오류가 작업 흐름에 들어오는 것을 차단
  • 프로젝트 관리 분석 — 오류 유형을 정량적·정성적으로 분석해 원인 파악
  • 베이지안 확률 기반 KPI 품질 통계

멀티모달 센서 처리

회전형 라이다·플래시/로우 스캐닝 라이다·카메라·레이다 등이 서로 다른 위치·다른 스캔 방식·불완전한 시간 동기화로 운영되어 어떤 두 센서도 같은 객체를 같은 위치·같은 타임스탬프에서 동일하게 관측하지 않는다. Kognic 플랫폼은 시퀀스 기반 멀티 센서 데이터 처리를 지원하며 센서 모달리티 차이·차량 ego motion·시간 차이를 보정하면서도 작업 속도·비용 효율성을 유지하도록 설계.

Model & Human in the Loop — 자동 라벨링 + 인간 QA

시기인간 역할
회사 창업 시점라벨링 대부분 수작업 — 사람이 더 빠르게 작업하도록 돕는 도구 개발
현재고객사가 강력한 자동 라벨링 알고리즘 보유. 인간 역할은 QA 중심으로 이동

자동 라벨링은 고성능 컴퓨팅 환경에서 오프라인으로 실행되어 차량 탑재 모델보다 높은 성능을 보일 수 있지만 완전 신뢰는 어려움. Kognic은 모델 예측을 플랫폼에서 추가 자동화 처리 후 수정·승인 가능성이 높은 객체·프레임에 인간 주의를 집중시키는 흐름을 “Model & Human in the Loop”라고 부른다. 이상은 인간이 모델이 아직 잘하지 못하는 부분에만 시간을 투자하는 것.

합성 데이터의 한계 — 검증 단계의 논쟁

달스트림은 합성·증강 데이터가 학습 측면에서 매우 유용하다고 보지만 멀티센서 현실성은 큰 과제로 남았다고 진단. 카메라 기반 포토리얼리스틱 시뮬레이션은 발전했지만 라이다 스캔·레이다 RCS(Radar Cross Section)는 현실 세계 데이터가 거의 없는 상황에서 현실적 생성이 쉽지 않다. 특히 검증(validation) 단계에서 비실제 데이터 사용에 대한 논쟁: “복잡한 합성 시나리오가 실제 환경과 충분히 유사하다는 것을 증명하는 일이 어쩌면 우리가 피하려 했던 문제만큼이나 어려울 수 있다.”

롱테일 데이터 큐레이션 흐름

이미 가지고 있는 데이터를 들여다보고 이해하는 일은 기술적으로 가능. 보통 여러 단계 겹치는 접근:

  1. 메타데이터 필터링 — 시간·지역·CAN 버스 신호로 조건 좁히기 (예: “비 오는 밤의 고속도로 주행”)
  2. 시각적 확인 — 좁힌 결과가 찾는 장면과 비슷한지 빠르게 확인
  3. VLM 활용 — 추상적 개념까지 탐색 (예: “도로 옆에 사람이 서 있는 상황”)
  4. 인간 yes/no 검증 — 정확도 향상 + 모델 개선에 환류

절충 전략 — 통제 + 외부 공급

달스트림은 OEM·Tier-1이 데이터 파이프라인을 완전 내부화하기 어려운 이유를 비용 예측 불가능성으로 정리. 자동차 기업은 시간에 따라 고정된 비용 구조를 선호하지만 자율주행 데이터 요구사항은 절대 고정되지 않는다. 현재 흐름은 모듈형·유연한 절충 전략 — 데이터 파이프라인 통제권·분석 역량은 내부 유지, 어노테이션 엔진 같은 개별 구성 요소는 외부 공급. 멀티 클라우드·API 기반 구조·유연한 계약으로 공급업체 교체 옵션 확보.

Kognic은 여러 기업 동시 지원으로 비용을 분산해 규모의 경제 확보 — 상대적으로 낮은 리스크로 경쟁력 있는 가격 제공.

SDV 시대의 제품 패러다임

“과거에는 자동차가 구매한 순간이 가장 완벽한 상태였다. 하지만 SDV에서는 그 반대다. 차는 사용되는 동안 계속 개선되어야 한다.” — 달스트림

SDV 시대에는 OTA + 지속적 데이터 수집으로 데이터 수집·모델 학습·모델 배포가 하나의 통합·반복 시스템으로 연결돼야 한다. 달스트림은 이 변화가 기존 자동차 기업에게 결코 쉽지 않다고 평가 — 완전히 다른 제품 개발 철학에 맞춰 최적화돼 있었기 때문.

중국 시장 관찰

대규모 차량 데이터를 빠르게 확보하는 환경은 자율주행 경쟁의 구조적 우위가 될 수 있다는 질문에 달스트림은 “데이터 자체는 자산이 아니다. 진짜 자산은 그 데이터를 실제 모델 성능 향상으로 연결하는 능력”이라고 응답. 중국 시장의 많은 기업이 데이터 플라이휠 구축의 중요성을 잘 이해하고 있다는 인상.

고객사 (2026-03 시점)

자동차 OEM·Tier-1 중심: Qualcomm·Zenseact·Continental·Bosch·Kodiak·ZF·Embotech·Einride·Gatik·JLR 등. 자율주행 트럭 같은 레벨 4 기업과도 협력. 지역별 차이: 유럽은 OEM이 공급업체에 의존하는 경우가 많지만 일본·미국은 OEM 자체 개발 선호 사례가 있다.

같이 보기

참고 자료