E2E 자율주행

End-to-End(E2E) 자율주행 — 기존 자율주행이 인지·예측·판단·제어 등 모듈을 단계적으로 처리하던 방식에서 벗어나, 센서 데이터부터 차량 제어 출력까지 단일 인공지능 네트워크가 일관되게 처리하는 접근법. 분류·구분 자체를 사람이 아닌 AI가 스스로 학습하고 결정한다는 점이 핵심.

규칙기반 vs E2E

방식	특징
규칙기반(Rule-Based)	모듈 단계 처리 — 인지(perception) · 예측(prediction) · 판단(decision) · 제어(control) 분리. 엔지니어가 규칙 직접 작성
End-to-End (E2E)	단일 네트워크 — 무엇이 필요·불필요한지 AI가 스스로 학습·결정. 환원주의 사고에서 탈피

야마모토 잇세이(튜링 CEO):

“분류를 하는 것보다 단일화된 네트워크를 이용하고, 무엇이 필요하고 무엇이 필요 없는지를 사람의 손이 아닌 인공지능이 스스로 학습하고 결정하는 방식.”

환원주의에서의 탈피

기존 공학(기계공학·전기공학 등) 다수가 환원주의(Reductionism)에 기반 — ‘사물을 분해해 세부 구조를 이해하면 전체를 이해할 수 있다’. 환원주의가 20세기 인류 문제 해결의 주요 방식이었으나, 21·22세기 문제 해결 방식은 다를 수 있음 (야마모토).

데이터 의존도

E2E의 핵심 변수는 AI 훈련 데이터의 질·양. Turing 사례 (2025-06):

수준 높은 드라이버 선발·훈련 → 실제 도로 운전 데이터 수집
클렌징·검증 → AI 모델 개발
매일 5시~23시, 8시간씩 데이터 수집 (355일, 주말 포함)
AI 개발팀이 아닌 데이터 수집팀이 사내 최대
구성원 — 테슬라 테스트 드라이버 출신·경찰 오토바이 부대·레이싱 드라이버 출신
‘운전을 잘한다는 것’을 명시적 언어화 없이 경험치를 그대로 AI에 전수

VLM (Vision Language Model)의 역할

LLM의 후속 개념 — Vision(시각) + Language(언어). 자율주행 AI의 상식(common sense)·문맥 이해 핵심.

야마모토 — 신체성(embodiment) 비유:

“2~3살 아이는 신체를 가진 지능체로 태어나지만 신체성을 온전히 획득하지 못해 다양한 행동(던지기·맛보기·만지기·떨어지기)으로 세상을 학습. 자율주행 AI도 그러한 경험을 통해 세계를 이해하도록 만들어야.”

산업 동향 (2025-06)

테슬라(Tesla) FSD — HW·SW 모두 자체 개발 가능한 유일 기업
모멘타(Momenta)(중국) — 자율주행 시스템만 OEM 공급. 토요타가 중국에서 모멘타 솔루션 도입 차량 출시
호라이즌 로보틱스(Horizon Robotics)(중국) — SoC까지 자체 개발
웨이브(Wayve)(영국) — 닛산이 공동 개발
튜링(일본) — 2030년 완전 자율주행 목표, ‘We Overtake Tesla’ 비전
Applied Intuition(미국) — 화이트박스 SDS(Self-Driving System)로 글로벌 OEM 상위 20곳 중 18곳에 공급. L2++에서 L3·L4까지 동일 단일 플랫폼으로 확장하는 경로 제시 — 모듈식 규칙기반과 단일 네트워크 E2E의 절충 사례
일본·한국 OEM은 환원주의·워터폴 개발 익숙 → E2E·애자일 전환 어려움 (야마모토)
토요타·닛산 등이 AI 중심 기업과 협력 본격화

진보 속도 — 지수함수적 발전 가설

박정규 KAIST 교수 — 규칙기반은 선형적 천천히 향상, E2E는 기술 수준이 지수함수적으로 급격 발전 가능성.

야마모토 — LLM·ChatGPT 발전을 보면 2030년 완전 자율주행이 실현되지 못할 이유를 찾지 못한다.

Hybrid E2E 아키텍처 — 보쉬 사례

Robert Bosch CTO 마티아스 필린(2025-09 The Autonomous 키노트)은 모놀리식 1단계 E2E를 거부하고 인식·융합·주행 전략 3블록 구조를 유지하면서 모듈을 E2E로 함께 훈련하는 Hybrid E2E 접근을 강조했다. 인터페이스도 훈련 중 동시에 적응한다.

“구조가 결정적이다. 실제 도로에서 문제가 생겼을 때 추적·검증하고 안전하게 형식 승인을 받으려면 반드시 구조가 필요하다.” — Pillin

보쉬는 중국에서 2 Stage E2E(2024년 SOP) → 1 Stage E2E(2025-09)로 발전했고, 같은 1 Stage E2E를 몇백 시간 학습만으로 독일 IAA 모터쇼에 이전했다. 폭스바겐 CARIAD와 ‘자율주행 얼라이언스(Automated Driving Alliance)‘를 통해 2026년 중반 SOP 적용 준비.

VLM 통합

다음 단계는 VLM(Vision Language Model)을 E2E 스택 중간 계층에 삽입하는 것. VLM은 의미적 정보(semantic information)와 세계 지식(world knowledge)을 추론한다. 예: 고속도로 전방에 트레일러를 끄는 차량 같은 특수 상황을 일반 인식 시스템보다 잘 다룬다. E2E + VLM 결합은 미해결 과제이지만 보쉬는 2026년 도로 구현을 계획.

생성형 AI의 본질적 한계 (Pillin)

한계	의미
스케일링	지도학습은 무한 데이터, 강화학습은 무한 검증 케이스가 필요. 토큰은 이산적이지만 세계는 연속적.
발현(emergence)	어텐션 헤드가 안전 방향으로 자발 형성될 수도, 부정적 방향의 기괴 행동을 만들 수도 있음.
정렬(alignment)	프롬프트 변경에 따른 엉뚱한 행동은 사용 문제가 아닌 모델 수학 구조의 내재 문제.

→ “AI만으로는 완전 자율주행 불가능. 레벨 3 ODD는 극도로 제한적이어야 하고 레벨 4도 백업 오퍼레이터 필요.” Yann LeCun(Meta AI 총괄)의 월드 모델 통합도 언급하며, 보쉬 자체 돌파구로 자율주행 테스트 차원 축소 수학 기법을 2026년 초 논문 발표 예정.

비판적 시각 — 환각·고속도로 한계

The Autonomous 2025 첫 키노트에서 미시 커밍스(Missy Cummings, George Mason University) 교수는 E2E 학습의 환각(hallucination) 문제를 정면 비판했다. 컴퓨터 비전이 존재하지 않는 대상을 인식해 급제동을 거는 ‘팬텀 브레이킹(phantom braking)‘이 미 NHTSA 조사 대상으로 남아 있고, “엔드투엔드 학습이 모든 문제를 해결한다”는 주장은 이 문제를 더 악화시킬지 개선할지조차 확실하지 않다고 지적했다. 또한 미국에서 어떤 자율주행차 회사도 고속도로 자율주행을 일관되게 안전하게 수행하지 못하고 있다고 단언했다.

대표 사례 — 2023년 캘리포니아 Cruise 야간 사고. 인간 운전 차량에 치여 튕겨 나간 보행자가 자율주행차 진로에 들어왔고, 차량이 긴급제동했지만 보행자가 차량 밑으로 들어가자 시스템이 더 이상 ‘사람이 관련된 상황’이 아니라고 인식해 오른쪽으로 이동했다. 충돌 9초 전 보행자를 감지했음에도 가속을 선택했다. 커밍스는 이를 “엣지 케이스가 아니다 — 샌프란시스코에서 무단횡단은 흔하다”고 평가하며, 뉴럴넷이 이해·생각·상상·불확실성 추론을 못한다는 점을 강조했다.

같이 보기

NVIDIA

AE Wiki

탐색기