테슬라 Tesla AIDay 포인트 (자율주행 인공지능/트랜스포머 신경망/특징 벡터공간/인지계획 예측/2D3D4D 시간/카메라비전/강화학습)

※ 전체 내용에 대한 자세한 설명보다는 기록 차원에서 제가 생각하는 핵심 포인트만 골라서 간단하게 정리했습니다.

포인트 요약
– 2D 이미지의 정지된 대상은 그 의미를 파악하는 데 그리 어렵지 않고 그 의미도 변하기 어렵다. 여기까지가 기존의 Perception 단계
– 하지만 여기에 시간 개념을 넣어 Planning 단계에 접어들면 나 또는 상대방이 움직일 때마다 모든 환경이 갖고 있는 의미는 실시간으로 변화하게 된다. 즉 문맥(Context)에 대한 이해가 필요함.
– 따라서 테슬라는 매우 다양한 비전 기술을 통해 자동차, 차선, 표지판 등 도로상의 모든 대상에 대해 ‘시간 변화’에 따른 고유한 특징(Feature) 변화를 최대한 이끌어내고 여기서 나온 초당 수천 개의 값을 트랜스포머(Transformer) 신경망을 통한 벡터 공간(Vectorspace)으로 통합 처리
– 이러한 정보를 활용하여 목적(자율주행 목적지)을 달성하기 위한 최적의 결과값(행동, 의사결정)을 실시간으로 지속계획(Planning) 및 수정
– 즉, 테슬라는 어떤 상황에 처하더라도 각 대상이 어떻게 반응할지(움직일지) 예측할 수 있고, 이를 기반으로 주어진 목적을 위해 어떻게 행동해야 하는지를 아는 AI의 틀(아키텍처)을 구축
– 이미 있었고 다른 업체들도 현재 사용하고 있는 비전 기술인데 여기에 시간 개념까지 넣어 트랜스포머 등 새로운 신경망을 적용해 하나로 완전히 조립하는 게 핵심이다. 이들 알고리즘에 맞춰 하드웨어(도죠 슈퍼컴퓨터)까지 직접 설계해 최적화
– 현재의 FSD가 보여주듯 뼈대만으로는 아직 성능이 나오지 않았지만 아키텍처를 거의 완성했다는 것만으로도 엄청난 성과로 볼 수 있다. 그리고 여기에 살을 붙이는 과정은 많은 사람이 이미 알고 있는 백만대 이상의 차량을 통한 전 세계 리얼월드 데이터 수집, 도조(Dojo) 슈퍼컴퓨터를 통한 AI 학습, FSD 베타 출시를 통한 검증, OTA 업데이트와 같은 테슬라만이 가진 선순환 시스템으로 진행된다.

2) Perception

과거 카메라에서 들어온 2D 이미지 기반 자율주행 기술로 현재 3D+시간(Time) 개념 추가
– 8대의 카메라에서 입력된 이미지를 fusion한 후 object detection과 feature engineering. 그리고 트랜스포머 신경망을 활용한 3차원 공간인 Vector Space에서 예측(Prediction) 작업을 진행한다. 여기에 시간개념까지 추가한 Videocontext model까지 새롭게 탑재
– 얼마 전 테슬라가 트랜스포머를 적용한 것을 확인하고 최근 인공지능 메가트렌드인 초거대 모델을 통한 자율주행 구현이 아닐까 예상했지만 아직 거기까지는 전혀 나오지 않았고 기존 RN 모델을 대신해 8대의 카메라 입력을 vectorspace 상에 통합하는 데만 트랜스포머를 적용한 상태다.
– 이러한 아키텍처를 통해 모델이 추출한 특징(Feature)을 가지고 맵(Map)을 만들어 더욱 진화한 Planning을 진행한다.

<출처 : Tesla AIDay>

3) Planning

위와 같은 Perception 단계를 통해 자율주행차가 세상을 이해했다면 결국 최종 목적지에 도달하기 위한 계획을 수립하는 단계가 바로 Planning
– 자동차 내외부의 모든 대상에 대해 안전에 유의하고 목적지에 무사히 도착하기 위해서는 목적지라는 최종 목표뿐 아니라 이를 수행하기 위한 수천, 수만 가지의 중간 목표와 세부 계획이 실시간으로 세워지고 또 수정돼야 한다.
– 테슬라가 설명한 예에서는 자동주차를 위해 ‘거리’를 기준으로 할 경우 시뮬레이션(강화학습) 상에서 390,320번, ‘내비게이션+거리’ 기준으로는 22,224번의 시도가 필요하다. 그만큼 최적의 기준을 찾기는 매우 어렵고 그 기준을 평가하는 데 오랜 시간이 걸리는 작업

<출처 : Tesla AIDay>

다른 예로 다른 자동차에 보행자가 숨어 있다면 보행자가 어떤 속도로 움직이고 있었는지, 다른 차량의 속도는 어느 정도인지, 이를 고려할 때 가로막힌 보행자의 위치는 지금 어디쯤에 위치하고 있는지 등을 예측해야 한다.
– 테슬라는 이런 작업을 구글 딥마인드(DeepMind) 강화학습 인공지능인 뮤제로와 알파제로를 만드는 것과 같은 방법인 몬테카를로 트리서치와 신경망의 조합으로 해결. 상기 주차 공간 시뮬레이션 상에서 39만회 이상 소요된 시도 횟수를 가장 효율적인 루트 추정으로 288회에서 찾는다.
– 결국 업그레이드된 비전 기술을 통해 도로상의 모든 대상에 대해 시간 변화에 따른 고유한 특징(Feature) 변화를 최대한 추출하고 시뮬레이션 상에서 방대한 경우의 수를 빠르게 계산하는 강화 학습 과정을 더함으로써 FSD는 어떤 상황에서도 상대방의 움직임을 정확하게 예측하고 최적의 액션을 취할 수 있다.

4. 테슬라 AIDAY 관련 상세참고

테슬라(Tesla) 자율주행 신경망 업데이트(1) SemanticSegmentation1) 분류(Classification): … blog.naver.com 1. 테슬라 도조 슈퍼컴퓨터(Dojo)(1) 개념 – ‘도조’는 일본어로 무술훈련을 위한 학교나 수련시설… blog.naver.com 1. 테슬라 AISTack-테슬라는 전 세계에서 약 100만대 가량 판매된 테슬라 차량으로부터 데이터 수집 – 이…blog.naver.com ※ 트랜스포머&자연어 처리에 대한 설명 1.Google반면 텍스트 … blog.naver.com ※ 이전 글 참고 3. 트랜스포머(1) Attentionis Allyou Need-‘Attentionis All…blog.naver.com 1. 에이전트 57(Agent 57) – 에이전트 57은 2020년 4월 공개된 구글 딥마인드(DeepMind)의 인공지능으로…blog.naver.com