Предсказание будущего

Предсказание будущего-важная часть разработки искусственного интеллекта вождения. Это позволяет нам оценить качество данного действия и рассуждать о динамике сцены: предсказать, как другие пешеходы и автомобили будут действовать вокруг нас. Сделать это точно и надежно-одна из самых сложных задач в индустрии автономного вождения сегодня.

Современные подходы, как правило, не способны точно оценить многомодальную неопределенность и предсказать стохастичность будущего. Системы, которые могут, часто не дифференцируемы или не поддаются сквозному обучению, что означает, что они рассуждают над ручными кодированными представлениями. Возможно, самое главное, что они часто предсказывают поведение каждого актера в сцене независимо и полагаются на HD-карту, чтобы предсказать статическую сцену. Это не удается во многих ситуациях мультиагентного взаимодействия, таких как слияние трафика или ошибки HD-карты из-за, например, дорожных работ.

В этом блоге мы описываем новую парадигму, которая способна преодолеть эти недостатки. Это позволяет нашей сквозной политике глубокого вождения явно рассуждать о будущем.

Рассмотрим эту сцену городского вождения (пять видеокадров, охватывающих одну секунду контекста):

Есть много возможных вариантов будущего, приближающихся к этому четырехполосному пересечению. Вот несколько прогнозов из нашей вероятностной модели глубокого обучения, демонстрирующих разнообразные и правдоподобные предсказания будущего. Эти образцы предсказывают 10 кадров, или две секунды в будущем. Изображение справа показывает семантическую сегментацию сцены, обозначая пиксели как принадлежащие к таким классам, как дорога (лиловый), тротуар (розовый), транспортное средство (синий), здание (серый) и т. д.

Вы можете видеть, что наша вероятностная модель способна предсказывать различные режимы: поворот налево, направо или продолжение прямо через этот перекресток.

Наша модель также может предсказывать поведение динамических агентов в сцене, показывая движущийся трафик. Обратите внимание, что второй автомобиль на встречной полосе перекрыт в прошлом контексте, но точно предсказан в будущем. Наше представление может понять семантику, геометрию и движение.

Слева: входная последовательность, семантическая сегментация, неопределенность сегментации, глубина монокуляра и предсказания оптического потока.

Мы опубликовали полную информацию об этой работе в нашем препринте arxiv здесь. Эта работа также следует за нашим предыдущим блогом, где мы писали об использовании прогностических моделей для эпизодического воспроизведения для обучения модели подкрепления на основе модели в нашем предыдущем блоге «мечтая водить машину».

Обучение выравниванию настоящего распределения с будущим распределением

Основная идея этой работы заключается в том, что будущее неопределенно, учитывая наши ограниченные наблюдения в настоящее время. Собирая данные о движении, мы можем наблюдать один уникальный пример этого будущего распределения. Однако это только один пример; нам нужно понять распределение возможных вариантов будущего. Это распределение может быть мультимодальным и сложным. Например, автомобиль перед нами может остановиться или продолжить движение. Или когда мы поворачиваем за угол, статическая среда может иметь чистую дорогу или содержать дорожные работы.

Чтобы решить эту проблему, мы строим модель, которая учится моделировать вероятность будущих событий. Поскольку пространство событий очень многомерно, мы изучаем сжатое латентное пространство для вычисления распределения вероятностей, называемого будущим распределением. Это будущее распределение обучается из привилегированной информации, как оно должно быть обучено из наблюдаемых будущих последовательностей. Поэтому мы изучаем второе распределение, настоящее распределение, которое имеет доступ только к прошлым данным и обучается соответствовать будущему распределению через потерю дивергенции Кульбака-Лейблера.

Затем мы можем сделать выборку из настоящего распределения во время вывода, когда у нас нет доступа к будущему. Мы наблюдаем, что эта парадигма позволяет модели изучать точные и разнообразные вероятностные результаты прогнозирования будущего.

Архитектура глубокого обучения

Наша модель изучает пространственно-временную характеристику для совместного прогнозирования будущего представления сцены (семантическая сегментация, глубина, оптический поток) и обучения автономной политике вождения. Архитектура нейронной сети содержит пять компонентов:

Более подробную информацию об архитектуре можно найти в препринте arxiv.

Результаты: что предсказывает наша модель

Мы обучили нашу модель на более чем 200 часах вождения данных, собранных в Лондоне, Великобритания. Эта модель обучалась в течение 5 дней на сервере с графическими процессорами NVIDIA 8x 2080Ti с PyTorch. Вот наши результаты.

Предсказание правдоподобного, мультимодального будущего. Наша модель способна генерировать разнообразные, мультимодальные фьючерсы. Это важно для высокомерных и сложных городских сцен вождения. Здесь мы показываем нашу модель, предсказывающую различные режимы, ведущие различные маршруты через четырехполосное пересечение.

Далее, если мы немного продвинем видео до того момента, когда наш автомобиль начал делать левый поворот, мы увидим разные варианты будущего, когда будем пробовать. Теперь, когда для нашего автомобиля больше не представляется возможным сделать какой-либо другой поворот, все образцы показывают режим левого поворота.

Понимание семантики сцены, геометрии и движения. Вот примеры, которые показывают, что наша система способна рассуждать о различных представлениях в многозадачном режиме. Мы показываем декодирование нашего представления семантической сегментации, глубине и оптическому потоку.

Эта сцена показывает предсказание будущего в сложном незащищенном правом повороте.

Прогнозирование мультиагентных взаимодействий. Наша модель также способна предсказывать другое мультиагентное поведение в городских сценах вождения. Вот несколько примеров предсказания будущего поведения различных других динамических агентов. В первом примере наша модель предсказывает стационарное движение перед нами. Во второй выборке мы прогнозируем отрыв с движением.

Это демонстрирует, что наша модель может совместно предсказывать взаимодействие между нами и сторонними агентами.

Прогнозирование поведения пешеходов. Наше представление также понимает, как предсказать базовое поведение пешеходов (пешеходы предсказываются красным цветом на этом семантическом сегментационном изображении), однако предстоит проделать большую работу, чтобы лучше представить отдельные экземпляры.

Многополосная дорога. В нашем последнем примере мы показываем модель, предсказывающую различное поведение на многополосной дороге. Первый образец показывает, что автомобиль движется прямо. Во втором он поворачивает вокруг припаркованного автомобиля, прежде чем двинуться к левой поворотной полосе.

Мультикадр, мульти-будущее

В этой области было проделано много большой работы, которая вдохновила это исследование. Тем не менее, мы взволнованы масштабом этой новой модели, как с точки зрения размерности входного состояния (относительно большое разрешение видео), так и с точки зрения размера обучающего набора данных и модели.

Предыдущие работы на вероятностные предсказания будущего ориентировано на прогнозирование траектории или были ограничены покадрового изображения и низкое разрешение (64х64) поколения наборов данных, которые не моделируются (перемещение MNIST) или со статическими сценами и общества динамика (k-го действия, робот толкает набора данных). Наша новая структура обеспечивает более полное представление сцены с сегментацией, глубиной и потоком и может генерировать целые видеопоследовательности на сложных реальных городских данных вождения с эго-движением и сложными взаимодействиями.

https://wayve.ai/blog/predicting-the-future/

Ссылка на основную публикацию