Deepconvolutionalneuralnetwork … · 2017. 11. 20. · ScientificVisualizationandVisualAnalytics...
Transcript of Deepconvolutionalneuralnetwork … · 2017. 11. 20. · ScientificVisualizationandVisualAnalytics...
-
GraphiCon 2017 Научная визуализация и визуальная аналитика
24–28 сентября 2017, Пермь, Россия 125
Применение глубоких свёрточных нейронных сетейдля визуализации препятствий на взлётно-посадочной полосе
В.В. Князь1,2, О.В. Выголов1, В.В.Федоренко1, В.С. Горбацевич1, В.А.Мизгинов1, Д.Г. Клевцов[email protected]|[email protected]|[email protected]|[email protected]
[email protected]|k [email protected], Москва, ул. Викторенко, 7;
2Московский физико-технический институт (государственный университет), Москва, Россия
Контроль чистоты поверхности взлётно-посадочной полосы является важным фактором обеспечения без-опасности воздушного движения. Современный уровень развития датчиков и методов обработки поступающихот них данных обеспечивает необходимые предпосылки для решения задачи обнаружения и активной визуализациипрепятствий по данным тепловизионных камер в автоматическом режиме, что позволяет повысить эффектив-ность уборки взлётно-посадочной полосы. Перспективным средством анализа мультиспектральных видеопосле-довательностей являются глубокие свёрточные нейронные сети. В данной статье рассматривается модифици-рованная архитектура глубокой свёрточной сети SqueezeNet для задач автоматического выделения препятствийпо видеопоследовательностям видимого и дальнего инфракрасного диапазонов.
Ключевые слова: глубокие свёрточные нейронные сети, тепловизионные изображения, обнаружение препят-ствий, взлётно-посадочная полоса, семантическая сегментация
Deep convolutional neural networkfor visualisation of foreign objects on a runway
V.V. Kniaz1,2, O.V. Vygolov1, V.V. Fedorenko1, V.S. Gorbatsevich1, V.A. Mizginov1, D.G. [email protected]|[email protected]|[email protected]|[email protected]
[email protected]|k [email protected] Res. Institute of Aviation Systems (GosNIIAS), 125319, 7, Victorenko str., Moscow, Russia;
2Moscow Institute of Physics and Technology (MIPT), Russia
The presence of foreign objects on airport runways poses a significant threat to the safety of air travel. Infraredcamera based runway monitoring systems for automatic detection and visualisation of foreign objects are highly demandednowadays. Deep neural networks have recently became a powerful instrument for analysis of multispectral imagesequences. This paper is focused on the development of an new deep neural network architecture for automatic detectionof foreign objects on a runway. The architecture is based on the SqueezeNet network. The new network performs detectionusing a pair of images captured in visible and far infrared ranges.
Keywords: deep convolutional neural networks, thermal vision, obstacle detection, runway, semantic segmentation
1. Введение
Перспективным способом уборки взлётно-поса-дочной полосы (ВПП) являются колёсные роботы,оснащённые тепловизионными системами техническо-го зрения. Управление роботом осуществляется уда-лённо из диспетчерского пункта. Оператор периоди-чески производит осмотр поверхности полосы с ис-пользованием системы технического зрения мобильно-го робота.
Восприятие тепловизионных изображений требу-ет навыков в силу значительных отличий от изобра-жений видимого диапазона. Это обуславливает акту-альность предварительной обработки тепловизионныхизображений для акцентированной визуализации пре-пятствий. Данная задача может быть решена с помо-щью методов семантической сегментации. Анализ по-следних работ в данной области [5–7] показывает, чтонаиболее перспективным подходом для решения задачсемантической сегментации являются глубокие свёр-точные нейронные сети.
В данной работе рассматривается разработка но-вой архитектуры глубокой свёрточной нейронной се-ти для выделения препятствий на ВПП. На вход се-ти поступает многоспектральное изображение, вклю-чающее каналы в видимом и инфракрасном диапазо-нах. На выходе сеть выдаёт меточное изображение, накотором визуализируются два класса объектов: фон ипрепятствие. Разработанная архитектура основывает-ся на архитектуре сети SqueezeNet [8]. В отличие от за-дачи классификации объекта на изображении, при ре-шении задачи семантической сегментации требуетсяпредсказать тип объекта в каждом пикселе исходногоизображения. Для восстановления исходного разреше-ния изображения к архитектуре сети SqueezeNet былидобавлены два слоя деконволюции.
По сравнению с альтернативными методами выде-ления препятствий на ВППпредлагаемый подход обла-дает рядом преимуществ. Во-первых, свёрточные ней-ронные сети позволяют производить обучение без на-сыщения: при поступлении новых изображений в обу-чающуювыборку качество распознавания препятствийпостоянно растёт. Во-вторых, в отличие от систем, ос-
-
Scientific Visualization and Visual Analytics GraphiCon 2017
126 24–28 September 2017, Perm, Russia
нованных на выделении препятствий на основе моде-ли движения камеры [11, 12], предлагаемый подходобеспечивает выделение препятствий при произволь-ной траектории движения.
2. Постановка задачи
Рассматривается задача в следующей постановке:колёсный робот, оснащённый многоспектральной си-стемой технического зрения (СТЗ) FLIR ONE (рис. 1)производит обзор поверхности ВПП. Требуется осуще-ствить обработку изображений, поступающих от СТЗ,для акцентированной визуализации типовых препят-ствий (выделение контуров, маркирование цветом ит.п.). Нахождение визуальных контуров препятствияпроизводится с помощью глубокой свёрточной ней-ронной сети. Таким образом, постановка задачи сво-дится к семантической сегментации многоспектраль-ных изображений на два класса: фон и препятствие.
Рис. 1.Мобильный робот с многоспектральнойкамерой FLIR ONE
Целевая функция. Пусть на вход сети поступаетмногоспектральное изображение X ∈ RH×W×3. Тре-буется обучить целевую функцию Ŷ = F(X), котораяпроизводит отображение комплексированного изобра-жения в меточное изображение Y ∈ {0, 1}H×W , гдеH,W – размеры изображения, а метки 0 и 1 обозна-чают, соответственно, фон и препятствие. Для дости-жения равномерной сходимости обучения при обуче-нии используется многомодальная функция потерь Lcl[10], которая задаётся уравнением
Lcl(Ŷ,Y) = −∑h,w
v(Yh,w)∑q
Yh,w,q log(Ŷh,w,q)
(1)
3. Архитектура сети
Анализ последних работ в области семантическойсегментации[3, 5–7] показывает, что наиболее высокойточности классификации позволяют достичь алгорит-мы на основе глубоких свёрточных нейронных сетей.
В отличие от традиционных архитектур сетей, исполь-зуемых для классификации изображений, в архитекту-рах сетей для семантической сегментации, как прави-ло, отсутствуют полносвязные слои. Также в данныхсетях широко используются слои деконволюции.
Рис. 2. Архитектура сети
Для обучения целевой функции Ŷ требовалось раз-работать архитектуру глубокой свёрточной нейроннойсети для семантической сегментации. Для достижениявычислительной эффективности за основу архитекту-ры была взята сеть SqueezeNet [8]. Основным преиму-ществом сети SqueezeNet является выигрышв произво-дительности в 50 раз по сравнению с сетью AlexNet[4],при сохранении сопоставимой точности классифика-ции. Для обеспечения вычислительной эффективностипроизведено уменьшение размеров фильтров свёрткис 3×3 на 1×1. Благодаря этому число обучаемых па-раметров сократилось в 9 раз. Таким образом, сетьстроится из однотипных модулей, называемых «firemodule». Для обеспечения устойчивого выделения пре-пятствий в архитектуру разрабатываемой сети (рис. 2)
-
GraphiCon 2017 Научная визуализация и визуальная аналитика
24–28 сентября 2017, Пермь, Россия 127
был внесён ряд изменений. Во-первых, для восстанов-ления пространственного разрешения входного изоб-ражения были добавлены два слоя деконволюции. Во-вторых, для уменьшения количества параметров уда-лён слой субдискретизации (global avgpool).
4. Построение обучающей выборки
Обучающая выборка для семантической сегмента-ции состоит из пар геометрически выровненных мно-госпектральных изображенийX и меточных изображе-ний Y. Комплексирование видимого и инфракрасногоизображений осуществлялось путём замены красногоканала исходного изображения видимого диапазона наизображение инфракрасного диапазона.
Для построения истинных меточных изображенийдля обучающей выборки использовался метод оцен-ки траектории камеры, предложенный в [13]. Приме-ры исходных изображений, а также компенсированно-го и меточного изображений приведены на рисунке 3.Съёмка исходных изображений осуществлялась с по-мощью прототипа мобильного колёсного робота дляуборки ВПП [1, 2].
(a) Видимый диапазон (b) ИК-диапазон
(c)Многоспектральноеизображение X
(d)Меточноеизображение Y
Рис. 3. Примеры изображений из обучающейвыборки. Условное препятствие (разводной ключ)
расположено в центре кадра
Прототип мобильного робота для уборки ВПП.Для подготовки тестовой выборки использовался ко-лёсный робот, оснащённый многоспектральной систе-мой технического зрения. Робот построен на базе ко-лёсной платформы «Hercules» и одноплатного компью-тера «Raspberry Pi» (рисунок 1). В качестве многос-пектральной системы технического зрения использова-лась многоспектральная камера «FLIR ONE», подклю-чённая к смартфону. Разрешение камеры в видимомдиапазоне составляет 640х480 пиксел, в инфракрасном- 160х120 пиксел. Параметры камеры FLIR ONE при-ведены в таблице 1.
Характеристики FLIR ONEДиапазон температур -20◦ C to 120◦ CВес 29 граммРазмеры (Д x Ш x В) 72 x 26 x 18 ммЧувствительность 0.1◦ CТВ камера 640x480 пикс.ИК камера 160x120 пикс.Поле зрения 46◦x35◦
Таблица 1. Характеристики камеры FLIR ONE
Управлением роботом осуществляется с персональ-ного компьютера по каналу сети WiFi. Для управле-ния роботом был разработан специальный протокол иприложения клиент/сервер для «Raspberry Pi» и персо-нального компьютера.
5. Обучение сети и анализ результатов
Обучение разработанной архитектуры сети произ-водилось в среде NVIDIA DIGITS с использованиемграфического процессор Titan X PASCAL.
Тестирование обученной сети проводилось на те-стовой выборке, объёмом в 300 пар изображений. Дляопределения качества работы сети использовалась би-нарнарная мера сходства Intersection over Union (IU),определяемая соотношением:
IU =AIAU
, (2)
где AI – площадь пересечения области препятствия напостроенном меточном изображении и на эталонномметочном изображении, AU – площадь объединенияданных областей. Как правило, значение IU > 50.0%считается показателем приемлемого качества сегмен-тации [9]. Примеры полученных меточных изображе-ний представлены на рисунке 4. Значения IU для раз-личных условий приведены в таблице 2.
Условия Intersection over UnionТень 62.6Солнце и тень 50.1Мокрый асфальт 49.3
Таблица 2. Значения IU для различных условий
(a) Комплексирование (b) Результат работы сети
Рис. 4. Пример работы сети
-
Scientific Visualization and Visual Analytics GraphiCon 2017
128 24–28 September 2017, Perm, Russia
6. Выводы
В работе предложен метод визуализации препят-ствий на поверхности ВПП с использованием глубокойсвёрточной нейронной сети. Метод предназначен длярешения задачи помощи оператору мобильного колёс-ного робота в обнаружении посторонних препятствийна поверхности ВПП. Он позволяет повысить эффек-тивность обнаружения препятствий в ночное время и вусловиях ограниченной видимости.
Для реализации метода разработана архитектурасети для выделения визуальных контуров препятствий.Произведено обучение и тестирование сети. Для обу-чения сети использовалась обучающая выборка объё-мом 4000 пар комплексированных и меточных изоб-ражений. Съёмка изображений для обучающей и те-стовой выборок производилась с помощью колёсно-го робота, оснащённого многоспектральной камеройFLIR ONE. Выборка включает снимки условных пре-пятствий (разводной ключ, детали конструкции, пред-меты багажа и т.п.), полученные в различных услови-ях: прямой солнечный свет, граница света и тени, мок-рый асфальт. Истинные меточные изображения былипостроены с использованием программы трёхмерногомоделирования. Обучение сети производилось в средеNVIDIA DIGITS.
Тестирование разработанной сети производилосьна независимой выборке объёмом в 300 пар изобра-жений. Для определения точности выделения препят-ствий использовалась метрика Intersection over Union.Анализ полученных результатов показал, что сетьуспешно производит выделение препятствия во всехрассмотренных условиях. Средняя точность выделе-ния контуров препятствия по метрике Intersection overUnion составила 54%.
7. Литература
[1] Kniaz V V. Fast instantaneous center of rotationestimation algorithm for a skied-steered robot // SPIEOptical Metrology. –– 2015. –– Jun. –– Vol. 9528. ––P. 95280L–95280L–11.
[2] Kniaz V V. Real-time optical flow estimation on aGPU for a skied-steered mobile robot. –– 2016. ––Apr. –– P. 989706–989706–12.
[3] Kniaz V. V., Gorbatsevich V. S., Mizginov V. A.THERMALNET: A DEEP CONVOLUTIONALNETWORK FOR SYNTHETIC THERMALIMAGE GENERATION // ISPRS - InternationalArchives of the Photogrammetry, Remote Sensingand Spatial Information Sciences. –– 2017. –– Vol.XLII-2/W4. –– P. 41–45. –– URL: http://www.int-arch-photogramm-remote-sens-spatial-inf-sci.net/XLII-2-W4/41/2017/.
[4] Krizhevsky A, Sutskever I, Hinton G E. Imagenetclassification with deep convolutional neuralnetworks // Advances in Neural InformationProcessing Systems. –– 2012.
[5] Long J., Shelhamer E., Darrell T. Fully convolutionalnetworks for semantic segmentation // IEEEConference on Computer Vision and PatternRecognition (CVPR). –– 2015.
[6] Long J., Shelhamer E., Darrell T. Fully ConvolutionalModels for Semantic Segmentation // CVPR 2015,and PAMI 2016. –– 2016.
[7] Semantic image segmentation for informationpresentation in enhanced vision / Oleg V. Vygolov,Vladimir S. Gorbatsevich, Nikita A. Kostromovet al. // Proc. SPIE. –– 2017. –– Vol.10197. –– P. 101970H–101970H–8. –– URL:http://dx.doi.org/10.1117/12.2262507.
[8] SqueezeNet: AlexNet-level accuracy with 50xfewer parameters and