Эволюция автономного вождения: фокус на 3D-семантической сегментации

Введение

Одним из фундаментальных аспектов автономного вождения является двухмерная семантическая сегментация, в которой каждый пиксель связан с семантической меткой, но у этого метода есть несколько недостатков. Семантическая сегментация облака точек (PCSS) — это трехмерный эквивалент семантической сегментации, при котором в трехмерном изображении вместо регулярно распределенных пикселей в двухмерном изображении используются точки с регулярным или неравномерным распределением, и, как мы увидим, этот метод исправляет недостатки 2D-семантической сегментации.

Использование семантической 3D-сегментации становится все более популярным в последние годы благодаря ее способности позволять транспортным средствам лучше понимать свое окружение, независимо от погодных условий или освещения. Эта технология оказалась особенно полезной для управления автономными транспортными средствами в сложной городской среде, где визуальные сигналы могут быть легко затенены или их трудно интерпретировать.

В этой статье мы рассмотрим последние достижения в области 3D-семантической сегментации для приложений автономного вождения. От передовых датчиков и программного обеспечения до новых методов машинного обучения — мы будем исследовать передовые технологии, которые делают автономное вождение более безопасным и эффективным, чем когда-либо прежде. Присоединяйтесь к нам, мы погрузимся в мир семантической 3D-сегментации и узнаем, как эта технология производит революцию в автомобильной промышленности.

Описание проблемы: 3D-семантическая сегментация.

3D-семантическая сегментация — это процесс, который присваивает каждой 3D-точке определенную метку для классификации каждой точки сцены. Облако точек можно получить с помощью отдельных датчиков, способных предоставлять информацию о расстоянии и геометрии сцены, таких как лидары и камеры глубины.
Аналогично изображениям. и видео, облака точек также имеют множество форматов различных организаций и стандартов. Двумя примерами являются формат полигона или треугольника Стэнфорда (PLY) и данные облака точек (PCD), но внутренняя структура данных облаков точек в основном представляет собой набор n-кортежей.

Данные облака точек включают трехмерные координаты и другие свойства, такие как интенсивность и диапазон каждой точки:
• Интенсивность является функцией свойств материала поверхностей, их ориентации относительно лидара. датчик, а также расстояние и атмосферные условия. Обычно более низкая интенсивность означает, что оценка будет менее надежной.
• Диапазон кодирует информацию о расстоянии до различных точек в пространстве.

Благодаря растущему числу алгоритмов стереовидения, а также развитию дешевых 3D-датчиков, облака точек и основные 3D-данные стали более доступными, чем несколько лет назад.
В частности, высокие Облака точек с высоким качеством позволяют нам сопоставлять реальный мир с виртуальным миром. В частности, они генерируют 3D-геометрические структуры, способные моделировать большую часть реальной геометрии анимированных и неодушевленных объектов реального мира.

Современный подход к 3D-семантической сегментации

На основе [1], [2] и [3] подходы 3D-семантической сегментации разделены на три категории:
• Методы, основанные на проекциях
• Метод, основанный на дискретизации
• Метод, основанный на точках

Методы, основанные на проекциях, проецируют 3D-лидарные данные на поверхность для создания 2D-изображений в качестве входных данных глубокой модели. Выходные прогнозы с попиксельными метками перепроецируются на исходные 3D-лидарные точки.
Методы, основанные на дискретизации, преобразуют облако точек в плотное/разреженное дискретное представление, такое как объемное или решетчатое. Это представление сохраняет структуру окрестностей трехмерных облаков точек. Однако преобразование сетки приводит к артефактам дискретизации и потере информации.
Методы, основанные на точках, напрямую работают с нерегулярными облаками точек. Однако облака точек не имеют порядка и неструктурированы, что делает невозможным непосредственное применение стандартных CNN. Основная трудность обработки данных заключается в том, как извлечь локальные контекстные особенности из неструктурированного облака точек.

Выбор метода в зависимости от требований к скорости и точности

Выбор сети был основан на оценке с использованием набора данных semanticKITTI [4], который широко используется для сравнения производительности. Основными критериями выбора были скорость и точность сети.

Сеть должна была иметь возможность выполнять логические выводы со скоростью, соответствующей частоте обновления лидара 10 Гц, сохраняя при этом высокую точность. Среди оцениваемых сетей был выбран метод SalsaNext[5] на основе проекции, поскольку он обеспечивает оптимальный компромисс между скоростью и точностью, что делает его подходящим для реальных время Задачи 3D-семантической сегментации. Его процентная доля составила 59,5, что является одним из самых высоких показателей в своей категории. SalsaNext также сохранил свою скорость даже на таких мобильных платформах, как Nvidia Jetson AGX.

Экспериментальная основа

Чтобы оценить производительность сети в задаче обнаружения и обхода препятствий, была проведена тонкая настройка SalsaNext с использованием синтетического набора данных, созданного с помощью Carla Simulator [6], поскольку это один из наиболее полных и хорошо документированных доступных симуляторов.

Синтетический набор данных был создан путем моделирования лидара VelodyneVLP-16. Хотя он не генерирует очень плотное облако точек, это один из менее дорогих лидаров на рынке (около 6000 долларов США) и при правильной настройке он представляет собой возможный вариант реализации доступного автономного транспортного средства. Этот аспект имеет решающее значение для развития масштабного автономного вождения.

Идея создания синтетического набора данных состоит в том, чтобы предоставить сети достаточно большой обучающий набор, чтобы позволить ей изучить интересующие ее особенности для этой конкретной трехмерной геометрии, набор проверки для наилучшей установки гиперпараметров и тестовый набор с статистически значимое количество точек интереса, по которым можно оценить производительность.
Наборы данных были построены с использованием всех 5 городов, предоставленных Карлой, точнее
точно все наборы, состоящие из одинакового количества точек из каждого города. . Используя все города, удалось создать контекст, максимально приближенный к реальности, смешивая городскую, пригородную, загородную и автомагистральную среду, таким образом также посещая многополосные дороги и оживленные перекрестки.
Для наборов данных, собранных в В городской среде разумно ожидать большого дисбаланса между обычными классами, такими как Дорога, Тротуар,
Здание (также потому, что это очень большие классы и, следовательно, они содержат несколько сотен 3D-точек). и менее распространенные классы, такие как транспортные средства, пешеходы и дорожные знаки (также потому, что они могут быть представлены несколькими десятками трехмерных точек).
На основе этого были проведены различные эксперименты с различными городами и переменным количеством пешеходов и транспортных средств, чтобы как можно больше точек представляли пешеходов и транспортные средства, см. Рисунок 1.0.
A Всего было собрано 22 250 точек облаков (каждое облако точек может содержать несколько тысяч точек), которые затем были разделены следующим образом:

ТРЕНИРОВОЧНЫЙ НАБОР: 56%
НАБОР ПРОВЕРКИ: 12%
ТЕСТОВЫЙ НАБОР: 32%

Производительность разработанной архитектуры будет оцениваться с помощью:

Среднее значение IoU между сегментацией тестового набора (Carla Perfect) и сегментацией, полученной SalsaNext после тонкой настройки. Эта метрика расскажет нам общее представление о производительности.
Обход препятствий: влияние ошибки и времени вычислений на реальную систему автономного вождения. Этот показатель предоставит нам полезную информацию, чтобы понять, готова ли система работать на реальном беспилотном транспортном средстве, по крайней мере, в смоделированной среде, и состоит из: общего количества столкновений из-за ложноотрицательных результатов, замедления из-за ложноположительных результатов, маршрута. время завершения и моделирования истекло.

Среднее значение IoU: экспериментальные результаты и оценка времени выполнения

Благодаря изучению гиперпараметров, выполненных на этапах обучения, и усовершенствованию виртуального 16-лучевого набора данных, результаты, полученные на тестовом наборе, отражают результаты, наблюдаемые во время обучения.

На рисунке 2.0 можно просмотреть IoU для интересующих классов, что дает нам представление об общей производительности сети на всей сцене на 360 градусах, поэтому среднее значение IoU составляет 360 градусов. сильный>89,3. SalsaNext без тонкой настройки на том же наборе тестов составила среднее IoU равное 35, следовательно прирост производительности за счет тонкой настройки составил 54,3%.

Кроме того, необходимо учитывать, что расчет проводился для всего облака точек, поэтому также учитываются 3D-точки на самом удаленном расстоянии, которые в основном виновны в снижении среднего значения IoU, особенно в отношении небольших 3D-объектов, которые представлены из небольшого количества 3D-точек, что может привести в основном к ложным срабатываниям и поэтому в целом как по типу ошибки, так и по расстоянию, на котором она возникает, особо не влияет на реальную производительность системы для обхода препятствий или задач обнаружения и прогнозирования объектов.

Среднее время вывода было рассчитано на трёх разных аппаратных средствах:

• Nvidia Quadro RTX 6000: 85 кадров в секунду (в среднем 0,0117 секунды на облако точек).

• Nvidia RTX 3070: 85 кадров в секунду (в среднем 0,0117 секунды на облако точек).

• Nvidia Jetson AGX (встроенная платформа): 40 кадров в секунду (в среднем 0,025 секунды на облако точек).

Нет проблем с выводом на частоте 10 Гц на мобильной платформе, и не будет проблем даже при более высоких скоростях вращения, как это делают некоторые лидары, на частоте 20 Гц. Такая высокая скорость позволяет системе автономного вождения выполнять даже тяжелые операции предварительной обработки с данными сегментации для выполнения любой задачи, не отягощая время, необходимое для обновления состояний автономного вождения автомобиля.

Обход препятствий: экспериментальные результаты и сравнение с камерой RGB

По итогам экспериментов были составлены сводные таблицы и графики, чтобы лучше понять поведение двух архитектур и иметь возможность их сравнить.

На рисунке 1.2 вы можете видеть сводную таблицу тестов, которая говорит нам о том, что количество ненужных столкновений и замедлений значительно выше для сети на основе RGB-камер.

На рисунке 1.3 приведена таблица с более подробной информацией о столкновениях, как вы можете видеть, SalsaNext создала только 3 столкновений, но они связаны с алгоритмом обхода препятствий, а не с самой сегментацией, в Фактически, такие же столкновения были сделаны и с помощью лидара, усовершенствованного Карлой. Это связано с тем, что лидар способен правильно классифицировать объекты на большом расстоянии, чем RGB-камера, и, следовательно, вовремя увидеть их для выполнения необходимых действий. BisNetV2, с другой стороны, вызвал еще 14, как из-за того, что пешеходы были замечены слишком поздно, так и автомобили были замечены слишком поздно, что, как видно из тестовых таблиц, особенно происходило при высоких скоростях и неблагоприятных погодных условиях с Камеры RGB, например LateAfterNoon (когда солнце находится перед автомобилем) и MidNight (при низкой освещенности).

На рисунке 1.4 можно детально увидеть причины бесполезных замедлений, как и ожидалось, SalsaNext выполнила одинаковое количество бесполезных замедлений независимо от условий освещенности, за всего 27. Вместо этого BisnetV2 набрал 113 бесполезных замедлений, из которых 25 % в ясный полдень, 39 % в полночь и 36 % в поздний полдень, что подтверждает трудности камеры при различном освещении. условия.

Выводы

SalsaNext оказалась сетью, способной удовлетворить эти требования даже при наличии облаков точек, доступных с помощью лидара, подобного Velodyne VLP16. Как мы видели из многочисленных тестов, проведенных на Carla, как количественных, так и качественных, SalsaNext, даже с 16-лучевым лидаром, смог обеспечить превосходную 3D-семантическую сегментацию для построения эффективного алгоритма обнаружения и обхода препятствий с небольшим количеством существенных ошибок. .

На основании тестов, проведенных в виртуальнойсреде, можно сделать вывод, что, хотя ошибки действительно присутствуют, их влияние на систему вождения оказывается относительно скромным. Эти ошибки преимущественно проявляются в виде ложных срабатываний, что потенциально может привести к ненужным замедлениям. Примечательно, что до сих пор не наблюдалось случаев ложноотрицательных результатов, когда автоматизация не может распознать реальные опасности. Эта характеристика способствовала предупреждению потенциальных столкновений и обеспечению безопасности дорожного движения.

Кроме того, благодаря сравнению с 2D-семантической сегментацией, выполненной BisenetV2, было видно, насколько лидар выгоден при изменении условий окружающего освещения и увеличении расстояния между нашим автомобилем и другими объектами.

Учитывая то, что было сказано до сих пор, будущих событий много:

• Протестируйте сеть с более высоким ODD, включая неблагоприятные для лидара погодные условия, такие как дождь, туман и другие формы шума, предназначенные для имитации шума в реальных условиях.

• Создайте реальный набор данных с помощью Velodyne VLP16, чтобы иметь возможность обучать сеть на реальных данных и, следовательно, корректировать производительность с помощью реального тестового набора.

• Провести те же тесты, что и в смоделированной среде, даже в реальном мире (принимая во внимание все практические и логистические проблемы, которые это влечет за собой), чтобы оценить влияние ошибки сегментации на реальное движущееся беспилотное транспортное средство. в реальном мире.

Использованная литература:

[1] Юлан Го и др. «Глубокое обучение трехмерным облакам точек: обзор». В: Транзакции IEEE по анализу шаблонов и машинному интеллекту (2020), стр. 1–1. doi: 10.1109/TPAMI.2020.3005434.

[2] Юйсин Се, Цзяоцзяо Тянь и Сяо Сян Чжу. «Связывание точек с метками в 3D: обзор семантической сегментации облака точек». В: Журнал IEEE Geoscience and Remote Sensing Magazine 8.4 (2020), стр. 38–59. doi: 10.1109/MGRS.2019.2937630.

[3] Бяо Гао и др. «Жаждем ли мы 3D-данных LiDAR для семантической сегментации? Обзор наборов данных и методов». В: Транзакции IEEE в интеллектуальных транспортных системах (2021 г.), стр. 1–19. doi: 10.1109/TITS.2021.3076844.

[4] Йенс Бели и др. «SemanticKITTI: набор данных для понимания семантической сцены последовательностей LiDAR». В: Материалы Международной конференции IEEE/CVF по компьютерному зрению (ICCV). Октябрь 2019 г.

[5] Тьяго Кортинхал, Джордж Целепис и Эрен Эрдал Аксой. SalsaNext: Быстрая семантическая сегментация с неопределенностью облаков точек LiDAR для автономного вождения.2020. arXiv: 2003.03653 [cs.CV].

[6] Алексей Досовицкий и др. «CARLA: Открытый городской симулятор вождения». В: Материалы 1-й ежегодной конференции по обучению роботов. 2017, стр. 1 16.