https://wikidocs.net/163163

포인트 클라우드 처리는 최근 몇 년 동안 자동차 Lidar 센서의 강력한 개선으로 인해 자율 주행에서 점점 더 중요해지고 있습니다. 공급업체의 센서는 주변 환경의 3D 포인트를 실시간으로 전달할 수 있습니다. 장점은 주변 물체의 거리를 직접 측정할 수 있다는 것입니다. 이를 통해 다양한 물체의 위치와 방향을 3D로 정확하게 추정하는 자율 주행용 물체 감지 알고리즘을 개발할 수 있습니다. 이미지와 비교할 때 Lidar 포인트 클라우드는 측정 영역 전체에 분포된 다양한 밀도로 희소합니다. 이러한 점은 순서가 지정되지 않고 지역적으로 상호 작용하며 주로 분리하여 분석할 수 없습니다. 포인트 클라우드 처리는 항상 기본 변환에 대해 불변해야 합니다.

그림 1. Complex-YOLO는 정확한 3D 다중 클래스 경계 상자를 추정하고 지역화하기 위해 Lidar 전용 birds-eye-view RGB 맵에서 직접 작동하는 매우 효율적인 모델입니다. 그림의 위쪽 부분은 예측된 개체와 같은 Velodyne HDL64 포인트 클라우드(Geiger et al. [1])를 기반으로 한 버드 뷰를 보여줍니다. 아래쪽은 3D 상자를 이미지 공간으로 다시 투영하는 방법을 설명합니다. 참고: Complex-YOLO는 입력으로 카메라 이미지가 필요하지 않으며 Lidar 기반 전용입니다.

일반적으로 딥 러닝을 기반으로 하는 객체 감지 및 분류는 잘 알려진 작업이며 이미지에 대한 2D 경계 상자 회귀에 대해 널리 확립되어 있습니다. 연구 초점은 주로 정확성과 효율성 사이의 균형이었습니다. 자율주행에서는 효율성이 훨씬 더 중요합니다. 따라서 최고의 물체 감지기는 RPN(Region Proposal Networks) 또는 유사한 그리드 기반 RPN 접근 방식을 사용합니다. 이러한 네트워크는 매우 효율적이고 정확하며 전용 하드웨어 또는 임베디드 장치에서도 실행할 수 있습니다. 포인트 클라우드에서 물체 감지는 여전히 드물지만 점점 더 중요해지고 있습니다. 이러한 응용 프로그램은 3D 경계 상자를 예측할 수 있어야 합니다.

현재 딥 러닝을 사용하는 세 가지 다른 접근 방식이 있습니다.

  1. Multi-Layer-Perceptrons를 사용한 직접 포인트 클라우드 처리
  2. CNN(Convolutional Neural Networks)을 사용하여 포인트 클라우드를 복셀 또는 이미지 스택으로 변환
  3. 결합된 융합 접근법

Complex-YOLO

이 섹션에서는 포인트 클라우드의 그리드 기반 사전 처리, 특정 네트워크 아키텍처, 학습을 위한 파생된 손실 함수 및 실시간 성능을 보장하기 위한 효율성 설계에 대해 설명합니다.

Point Cloud Preprocessing

Velodyne HDL64 레이저 스캐너로 획득한 단일 프레임의 3D 포인트 클라우드는 원점 바로 앞에서 (그림 4 참조)의 영역을 커버하는 단일 birds-eye-view RGB 맵으로 변환됩니다. 센서의. Chen et al.에서 영감을 받았습니다. (MV3D) , RGB 맵은 높이, 강도 및 밀도로 인코딩됩니다. 그리드 맵의 크기는 및 로 정의됩니다. 따라서 우리는 3D 포인트 클라우드를 약 의 해상도로 2D 그리드로 투영하고 이산화했습니다. MV3D와 비교하여 더 높은 입력 해상도와 함께 더 적은 양자화 오류를 달성하기 위해 셀 크기를 약간 줄였습니다.

결과적으로 3개의 기능 채널( with )은 커버하는 영역의 내부 Ω의 전체 포인트 클라우드 에 대해 계산됩니다. 의 원점에 있는 Velodyne을 고려하고 다음을 정의합니다.

Fig. 2. Complex-YOLO Pipeline. 포인트 클라우드에서 빠르고 정확한 3D 상자 추정을 위한 슬림 파이프라인을 제시합니다. RGB 맵은 CNN에 공급됩니다(Table 1 참조). E-RPN 그리드는 마지막 기능 맵에서 동시에 실행되며 그리드 셀당 5개의 상자를 예측합니다. 각 상자 예측은 회귀 매개변수 (그림 3 참조)와 개체 점수 와 일반 확률 및 클래스 점수 로 구성됩니다.

의 Lidar z 위치를 고려하여 를 선택하여 지상 영역을 약 높이까지 덮고 트럭을 가장 높은 물체로 예상합니다. 보정의 도움으로 매핑 함수 를 mapping으로 정의합니다. 인덱스 i를 사용하여 RGB 맵의 특정 그리드 셀 를 가리킵니다. 세트는 특정 그리드 셀에 매핑된 모든 포인트를 설명합니다.

여기서 N은 에서 로 매핑된 포인트 수를 나타내며 는 그리드 셀 크기에 대한 매개변수입니다. 따라서 는 에 매핑된 모든 포인트의 최대 높이, 최대 강도 및 정규화 밀도를 인코딩합니다(그림 2 참조).