자율주행과 지능형 교통시스템 운영을 위해 갖추어야 할 데이터 세트는 매우 다양하다.1)기본적으로 도로 주변을 감지하는 데이터가 있다.
여기에는 도로에서 얻어지는 차량의 속도, 교통량, 흐름에 관한 것이 포함된다. 둘째는 차량 내외부의 센싱을 통해 얻을 수 있는 데이터로 다양한 센서와 내부 장착 장비에서 얻을 수 있는 것이다. 셋째, 협력적 센싱으로 교통시스템 전체를 이용하는 다른 사용자로부터 얻는 정보다. 넷째, 외부 데이터원에서 얻을 수 있는 것으로 날씨, 달력, 예정된 행사, 사회경제적, 인구통계학적 데이터이다. 마지막으로 대중교통 노선과 시간표, 지자체의 자전거 대여 서비스에 관한 데이터처럼 구조적이고 정적인 데이터를 담고 있다.
인공지능 활용 영역에서 가장 관심을 갖는 교통 분야는 자율주행이다. 이를 해결하기 위해 많은 기업이 학습을 위한 데이터셋을 만들고 있다. 이것에 대한 투자는, 국내의 공공 영역을 시작으로 민간에서도 활발하게 행해지고 있다.
특히 자율주행을 위한 오픈데이터 세트 중 알파벳 자회사 웨이모(Waymo)와 승차공유 서비스인 리프트(Lyft)의 데이터 셋이 잘 알려져 있다. 양사 모두, 자신의 데이터 세트를 기반으로 하는 챌린지도 열려 한층 더 흥미롭다.
웨이모 데이터 세트는 간단한 등록 절차를 거치면 접속할 수 있으며, 공개한 데이터 세트에는 모션 데이터 세트와 인지 데이터 세트의 2종류가 있다. 이들 데이터는 다운로드하거나 구글 클라우드 API를 통해 액세스할 수 있다. 물론, 깃발 허브에서도 데이터에의 소개나 액세스가 가능하다.
웨이모 오픈 데이터 셋은 2019.8월에 출시되었으며, 당초에는 1950 세그먼트에 대한 고해상도 센서 데이터와 레이블을 갖춘 퍼셉션 데이터 셋이었다. 2021년 3월 업데이트에 따르면 추가로 확장된 모션 데이터 세트는 10만 개 이상의 세그먼트에 대한 3차원 지도와 개체 궤적으로 구성됐다.

그림 1 웨이모션 데이터 세트 샘플 중 사이클리스트 3차원 데이터[출처:기허브]
2021년 웨이모는 4개의 도전을 구성해 모션 예측, 상호작용 예측, 실시간 3D 탐지, 실시간 2D 탐지를 주제로 진행하고 있다. 모션 예측은 주어진 에이전트의 과거 1초간 해당 장소에서의 트랙으로, 최대 8에이전트의 다음 8초간 위치를 예측하는 문제이다. 상호작용 예측은, 같은 조건을 기초로 상호작용 하는 2개의 에이전트의 8초 후의 위치를 예측하는 과제이다. 실시간 3차원 탐지는 주어진 3개의 라이더 이미지와 관련된 카메라 이미지로 장면에 있는 개체를 탐지한 3차원의 일자로 세워진 박스세트를 만드는 것이다.

그림 2 웨이모의 2021년 챌린지 소개 [출처: 웨이모]
리프트는 2019년 ‘레벨 5’라는 자율주행을 위한 데이터 셋을 공개했다. 여기에는 사람이 손으로 레이블링한 5만5,000개 이상의 3차원 프레임, 7개의 카메라와 최대 3개의 라이더로부터 얻은 데이터, 주행 가능한 도로표면지도, 도로차선, 횡단보도 등을 포함한 고해상도 공간의 시멘틱 지도를 포함한다.
리프트가 생각하는 자율주행의 길은 센서 입력과 지도를 통해 교통 에이전트를 탐지하는 인지 과정, 에이전트의 모션 예측, 그리고 자율주행차가 선택할 경로를 결정하는 경로 계획 과정으로 이뤄진다. 이에 따라 데이터 세트를 인지 데이터 세트와 예측 데이터 세트로 나누었다.
우선 인지 데이터셋은 다양한 영역의 센서를 통해 얻는 원천 데이터로 다른 자동차, 보행자, 교통신호 등에 대한 것으로 리프트 자율주행차량에서 수집한 라이더와 카메라에 입력된 것을 모았다. 여기에는 130만 개의 3D 어노테이션, 3만 개의 라이더 포인트 클라우드, 60분에서 90분 동안의 정경을 담은 350개 이상의 장면 데이터가 있다.

그림3. 리프트 인지 데이터 세트 샘플
이러한 데이터는 모셔널(Motional)의 뉴씬즈(NuScenes) 데이터 포맷으로 제공된다. 이는 과거 작업과의 호환성을 보장하기 위한 것으로 리프트가 자체 맞춤형 뉴씬즈 개발 키트도 함께 제공하고 있다.

그림 4. 뉴 신즈 데이터스 키마 [출처 : 뉴 신즈]
리프트의 모션 예측 데이터 세트는 자동차, 사이클리스트, 보행자, 기타 교통 에이전트의 움직임에 대한 로그 데이터이다. 이는 자동차의 라이더, 카메라, 레이더 데이터를 인지시스템을 통해 처리한 데이터로 모션 예측모델의 학습에 활용할 수 있다. 여기에는 1000시간 이상 교통 에이전트들의 움직임, 23개 차량에서 수집한 16,000마일의 데이터, 15,000개의 시멘틱 맵 어노테이션이 포함되어 있다. 이것을 종합하면 17만개의 형태로 구성되어 있는 것으로, 각 씬은 주어진 특정시간에 차량주변의 상황을 인코딩한 것이다. 데이터셋은 자르(zarr) 포맷으로 제공하며 이를 읽기 위한 파이슨 소프트웨어 키트도 제공한다.
리프트는 2019년 11월부터 1년간, 상금 총액 일시적으로 3D 개체 탐지를 위한 캐글 챌린지도 개최했는데, 여기에 546팀이 참가했다. 우승자는 Neurl PS2019에서 챌린지 수상작을 발표했다. 당시 라이더, 이미지, 맵 등의 데이터 파일을 제공했다. 2020년 11월에는 모션 예측 모델을 위한 캐글 챌린지를 상금 총액 일시적으로 실시하고, 이 때에는 945팀이 참가했다.

그림 5 리프트 예측 데이터 세트 샘플
일반에 공개한 자율주행을 위한 대규모 데이터세트의 하나는 앞에서 서술한 뉴 신즈 데이터세트이다. 2019년 3월 모셔널팀이 공개한 것으로, 미국 보스턴과 싱가포르에서 진수한 1,000개의 운전장면을 모아 매우 복잡하고 도전적인 운전환경을 담고 있다. 수동으로 선정한 20초 길이의 장면은 각각 다양하고 흥미로운 운전 과정, 교통 상황, 예측하지 못한 행동을 보여주기 위해 선택했다.
개체 탐지와 트래킹을 위해 23개 개체 클래스로 어노테이션해 각각 3D 바운딩 박스로 표현했다. 전체 데이터 세트는 140만 개의 카메라 이미지, 3만 9,000개의 라인인 데이터, 140만 개의 레이더 데이터, 4만 개의 키 프레임 안에 140만 개의 개체 바운딩 박스로 구성됐다. 맵 데이터, 원천 센서 데이터 등도 공개할 예정이다. 2019년 CVPR에서 이 데이터셋으로 3D탐지 도전을 연 바 있다.
2020년 7월 뉴씬즈-라이더세그(nu Scenes-lidarseg)라는 데이터가 공개됐고 여기에는 각 키 프레임에서 각 라이더 포인트를 어노테이션해 32개의 가능한 시멘틱 레이블을 달았다. 결과적으로 이 데이터 셋은 140억 개의 어노테이션된 포인트를 포함하며 4만 개의 포인트 클라우드와 1,000개의 장면(850개는 학습과 검증, 150개의 테스트용)으로 구성된다.
자율주행과 교통 분야에 사용된 데이터셋으로는 아스틱스(Astyx), HiRes2019, 구글 랜드맥스(Landmarks), KITTI 데이터셋, 판다세(Pandset) 등이 있다. 카메라 기반의 개체 탐지를 위한 시티스케이프(Cityscapes), 머필러리 비스타스(Mappillary Vistas), 아폴로스케이프스(Apolloscapes), 버클리 딥 드라이드(Deep Drive) 등 데이터셋도 있다.
자율주행을 직접 언급하지는 않았지만 교통영역에서 인공지능 개발을 위해 활용할 수 있는 다양한 데이터셋도 존재한다. 주로 일반교통환경과 도시별 대중교통 관련 데이터, 우버와 같은 라이드 공유 데이터 등 추가 데이터 세트로 활용할 수 있다.
2018년 네이처 사이언티픽 데이터가 펴낸 논문에서는 25개 도시의 대중교통 네트워크 데이터 세트를 소개했다.2)유럽 주요 도시와 호주 도시를 주로 포함했고 미국 디트로이트와 캐나다 위니펙도 포함됐다. 이러한 데이터는 모두 「일반 교통 피드 명세(GTFS:General Transit Feed Specification)」라고 하는 표준 오픈 포맷으로 공개하고 있다. 각 도시의 교통당국이 공개한 경로와 일정 데이터가 담겨 STFS 피드를 구성하는 CSV 텍스트 파일로 제공된다.
논문 저자들은 세계 25개 도시에서 관련된 GTFS 피드를 내려받아 이를 데이터베이스로 저장하고 다중 소스에서 나온 피드를 맞추기도 했다. 정류장마다 GTFS 데이터가 이동 시간에 대한 정보를 모두 갖고 있지 않기 때문에 이를 다시 정류장 간 거리로 강화했다. 이때는 오픈스트리트 맵(Open Street Map) 프로젝트를 통해 길과 관련된 네트워크를 활용했다. 이 데이터 셋은 대중교통 네트워크 분석과 라우팅 알고리즘 계산방식을 개발하기 위한 테스트 베드로 사용할 수 있다.

그림 6. 도시 하나에 대한 데이터 처리를 위한 파이프라인
한편 우버는 우버무브먼트라는 이름으로 사람들의 이동경로 패턴을 공개하고 있다. 2020년 7월에는 뉴 모빌리티 히트 맵을 통해서 8개 도시의 점프 바이크와 스쿠터(킥보드)의 움직임을 보였다.

그림 7. 우버 무브먼트에서 보여주는 샌프란시스코의 오토바이 사용 패턴 [출처 : 우버]
도시의 모빌리티 사용현황도 볼 수 있어 향후 도시교통계획을 수립할 때 매우 중요한 자료가 되는 데이터이다. 우버는 전 세계 55개 도시의 우버 사용 패턴을 검색할 수 있는 무브먼트 페이지도 만들어 공개하고 있다.
카글에서 교통분야의 데이터 세트 중 규모가 큰 것으로는 약 225개가 존재하는데, 자동차 이미지 데이터, 합성한 번호판 데이터, 각 도시교통 데이터, 항공편 데이터, 교통사고 데이터 등 다양한 유형의 데이터 세트가 공개되어 있다. 국내 공공데이터 포털에서는 다양한 교통 관련 데이터를 공개하고 있지만 이를 인공지능 학습을 위한 데이터로 전환하기 위해서는 또 다른 자원을 투입해야 한다.
Reference 참고 문헌
- Lana, I., et. al., “From Data to Actions in Intelligent Transportation Systems: A Perspective of Functional Requirements for Model, Action of Functional Requirements for Model, Action