Одна из ключевых проблем развития автономного транспорта – сбор размеченных данных. Собственно, как и в любой ML-задаче, но в этой области сбор таких данных, особенно для сложных 3D-сцен с плотными аннотациями, требует особенно больших затрат. В частности, для задачи предсказания занятости пространства (occupancy prediction), когда необходимо точно определить, какие объекты находятся в определённых местах в 3D-пространстве. Представляете, сколько стоит собрать подобный аннотированный датасет и сколько времени это займет?
Синтетические данные, теоретически, могут помочь решить эту проблему. Во-первых, так можно избежать зависимости от дорогостоящей ручной разметки. Во-вторых, сделать датасет разнообразнее, ведь нагенерировать можно и такие сцены, которые сложно воспроизвести в реальном мире. Но почему теоретически? Потому что генерация таких данных – не самая тривиальная задача. Дело в том, что для задач предсказания занятости пространства данные должны быть тонко и точно геометрически управляемы. Это значит, что необходимо учитывать не только базовые 3D структуры, такие как границы объектов, но и детализированные данные о занятости пространства на уровне вокселей (это трехмерный аналог пикселя). А большинство существующих моделей, таких как BEVGen и MagicDrive, хотя и могут создавать фотореалистичные изображения, сильно ограничены в своей способности контролировать эти самые геометрические детали.
Попытки справиться с этим уже предпринимались: для повышения контроля ученые предлагали использование специальных семантических масок. Но этот подход сталкивается с техническими проблемами в 3D-контексте, потому что такие маски – это 2D-изображения, а значит, с помощью них нельзя контролировать глубину и пространственное взаимодействие объектов. Именно эту сложность и решает модель SytheOcc, которую предложили ученые из Huawei в сотрудничестве с Гонконгским университетом. SytheOcc основан на концепции 3D семантических многоплоскостных изображений (это называется MPIs). По сути, это технология нарезки 3D сцены на несколько слоев, каждый из которых представляет собой отдельную карту меток на определенной глубине. Это как бы перевод 3D информации маски в 2D пространство, но при этом без потери контроля глубины и геометрии сцены, как это происходит с обычными 3D-боксами или примитивными формами. Для того, чтобы MPIs хорошо крутились в процессе обучения, в модель пришлось добавить MPI-энкодер.
Также ученые предложили использовать стратегию ребалансировки (reweighing). В основном это нужно для того, чтобы модель хорошо обучалась на данных с длинным хвостом. Для генерирования данных для автономных авто это особенно важно, ведь одна из наших главных целей – научить модель справляться с редкими, но важными сценариями (так называемыми угловыми случаями), в которых объекты или сцены имеют нестандартную структуру или расположение. Что в итоге? Во-первых, относительно предыдущих работ SytheOcc демонстрирует лучшую согласованность между текстовыми запросами и сгенерированными изображениями. Это говорит: а) о высокой способности к генерализации между разными доменами; б) о том, что система легко позволяет генерировать изображения с различными погодными условиями и стилистическими особенностями, а это особенно важно для датасетов, которые будут использоваться для обучения автономного транспорта. Во-вторых, по метрикам метод тоже не подкачал: FID на тестах заметно ниже предшественников. В-третьих, метод учитывает глубину сцен и другую 3D-информацию. Статью полностью можно прочитать здесь.