Segmentace obrazovyc´ h dat pomoc´ı hlubokyc´ h...

9http://excel.fit.vutbr.cz

Segmentace obrazovych dat pomocı hlubokychneuronovych sıtıBc. Radek Pazderka

Abstrakt

Tento clanek se venuje problemu segmentace sceny z dopravnıho prostredı reseny pomocıhlubokych neuronovych sıtı. Popisuje cely proces vyvoje. Konkretne se jedna o prıpravu da-tove sady a jejı rozsırenı o nova vygenerovana data pomocı GTAV. Nasledne je uveden model sıteDeepLavV3+ a jeho proces trenovanı. V zaveru se tento natrenovany model optimalizuje pomocıTensorRT na GPU a nasledne testuje jeho kvalita.

Klıcova slova: Segmentace obrazu, konvolucnı neuronova sıt’, analyza dopravy, DeepLabv3+

*[email protected], Faculty of Information Technology, Brno University of Technology

1. Uvod

V dnesnı dobe informacı je stale vetsı pozadavek nazpracovavanı nasbıranych obrazovych dat jako je nap-rıklad klasifikace, detekce, sledovanı objektu ve videunebo napr. segmentace cele sceny obrazu popr. zıskanıhloubkove mapy obrazu a mnohe dalsı problemy. K ta-kovemu mnozstvı dat jiz nestacı lidska sıla a musı sezacıt vyuzıvat pocıtace. K resenı techto problemu sev dnesnı dobe pouzıvajı neuronove sıte. Neuronovesıte se inspirovaly lidskym mozkem. Mozkove bunkyneboli neurony jsou v lidskem mozku mezi seboupropojene pomocı synapsı. Kazde propojenı neuronuma urcitou sılu. Kdyz do neuronu ze vstupnıch neu-ronu projde silny vzruch, tak se dany neuron aktivuje.Stejny koncept je i v neuronovych sıtı. Kazdy neu-ron v pocıtacovem svete je definovany jako suma vs-

tupnıch neuronu vynasobena silou propojenı nebolivahou. Kdyz tento soucet dosahne urcite hodnoty jeaktivacnı funkcı neuron aktivovan.

V tomto clanku se zamerıme na konvolucnı neu-ronove sıte, ktere provadı segmentaci celeho obrazu(dale jen SS-CNN). Jinymi slovy vytvorıme neurono-vou sıt’, ktera bude klasifikovat kazdy pixel vstupnıhoobrazu. Vystupem teto neuronove sıte bude maskavstupnıho obrazu, ktera bude uvadet presne pozice atvary vsech definovanych trıd.

Vysledky teto prace se pouzijı v praxi k segmentaciobrazu z dopravnı situace, prevazne z parkovist’. Budese jednat o soucast systemu, ktery monitoruje a zjist’ujezaplnenost daneho parkoviste. Neuronova sıt’, kterabude vystupem teto prace bude pomahat systemu v lep-sım pochopenı a popsanı situacı vzniklych na silnici.

http://excel.fit.vutbr.cz

mailto:[email protected]

Muze se jednat o detekci stojıcıch aut v zakazanychzonach, spocıtanı podelne parkujıcıch aut, urcenı vol-nych mıst u podelneho parkovanı nebo prıpadne de-tekovanı zacpy krizovatky, apod.

2. Definice problemuCılem teto prace je vytvorenı SS-CNN, u ktere se budebrat co nejvetsı duraz na kvalitu vystupu bez ohleduna casovou narocnost vypoctu. K vytvorenı takovetosıte bude potreba:

• Pripravit co nejkvalitnejsı datovou sadu, nejlepeslozenou z pohledu na vozovku z vysky do de-seti metru, na ktere bude sıt’ pouzıvana.

• Navrhnout strukturu sıte, ktera bude schopnanaucit se vsechny objekty a bude schopna seprizpusobit na nejruznejsı pohledy na vozovku.

• Vytvorit system, ktery bude mıt na vstupu da-tovou sadu a strukturu sıte a dokaze sıt’ optimal-ne trenovat, testovat nebo validovat.

Bonusem teto prace bude akcelerace vyslednehonatrenovaneho modelu na grafickou kartu pro dosazenıoptimalnıho vypoctu.

3. Existujıcı resenıMezi state of the art modely sıtı pro semantickou seg-mentaci se radı DeepLabv3+ [1], ktery se vyznacujeASPP (Atrous Spatial Pyramid Pooling) modulems dilatacnımi konvolucemi, ktery dava duraz na vetsıokolı bodu a tım lepe pochopı kontext sceny. Dıkytomuto modulu si zvetsıme receptivnı pole [2]. Je todulezite pro to, abychom dokazali spravne segmen-tovat velke plochy (silnice, budovy, oblohu). Tentomodel byl vyuzit k segmentaci sceny z pohledu je-doucıho vozidla.

Existuje mnoho dalsıch sıtı pro semantickou seg-mentaci, ktere jsou optimalizovane na jine problemy.Napr. model sıte U-Net [3] byl urcen pro medicınskeucely, pro segmentaci bunek. Dalsı modely mohou bytPSPNet [4], MobileUNet, FC-DenseNet apod.

4. Vlastnı resenıJak bylo receno v kapitole 2 bude potreba vytvorittri zakladnı veci, bez kterych se zadna neuronova sıt’neobejde. Jedna se o datovou sadu, strukturu neu-ronove sıte a prostredı pro trenovanı sıte. V teto kapi-tole si tyto casti ve strucnosti popıseme a uvedu zdepostup, kterym jsem postupoval.

4.1 Datova sadaDatova sada je jednou z nejdulezitejsıch castı pri tre-novanı neuronovych sıtı. Proto se v teto praci velice

dba na to, aby byla datova sada co nejlepe pripravena.Datova sada by mela obsahovat snımky sceny z do-pravnıho prostredı, k nim korespondujıcı masky a celadatova sada by mela obsahovat soubor s popisky jed-notlivych barev v masce. Na Obrazku 1 je uvedenadatova sada.

Obrazek 1. Ukazka datove sady.

Datovou sadu jsem rozdelil na dve casti. Da-tova sada v prvnı casti slouzı pro predtrenovanı sıte1.Neboli se jedna o natrenovanı obecne sıte. Datovasada se sklada z volne prıstupnych datovych sad -KITTI [5], CamVid [6], CityScapes [7], Mapillary-Vistas[8] a GTAV-street [9]. Vsechny tyto datovesady jsem sloucil do jedne datove sady, ktera obsahujedevet trıd. Seznam vsech trıd je uveden na Obrazku 1.Vsechny tyto dılcı datove sady obsahujı pohled z je-doucıho vozidla. My vsak potrebujeme anotovane da-tove sady z vyssıho pohledu. Idealne z poulicnı lampy,prıpadne obrazky z nızko letıcıho drona, ktery snımavozovku. Tyto datove sady bohuzel nejsou volne dos-tupne, tak si musıme pomoci jinak. Rucnı anotovanıobrazku je velice casove narocna cinnost, tak nam musıpomoci znama hra GTAV. Pomocı nı jsem si vygen-eroval anotovanou datovou sadu, kterou jsem nazvalGTAV-parking. Tato datova sada patrı do druhe castidatove sady urcene pro dotrenovanı sıte (fine-tune).

Zıskanı datove sady z GTAV. Firma Artin s.r.o miposkytla kostru programu pro anotovanı textur, zıskanıstencil bufferu a originalnıho snımku ze hry GTAV.Stencil buffer obsahuje masku, ktera obsahuje infor-mace o lidech, vozidlech, vegetacıch a obloze2. Zbytektextur musıme anotovat rucne.

Mym ukolem bylo tento zapujceny software modi-fikovat k vlastnımu pouzitı. Jednalo se o:

• Anotace novych textur - textury budov, infras-truktury, atd.

• Prace s kamerou, ktera danou dopravnı situaciv urcene vysce a pod urcitym uhlem obkrouzı azaznamena data.

• Po kazde dokoncene trajektorii vygeneruje noverozestavenı aut na parkovisti nebo se s kamerou

1Datova sada, ktera zachycuje podobny obecny problem, kteryresıme.

2http://www.adriancourreges.com/blog/2015/11/02/gta-v-graphics-study/

http://www.adriancourreges.com/blog/2015/11/02/gta-v-graphics-study/

http://www.adriancourreges.com/blog/2015/11/02/gta-v-graphics-study/

premıstı do jine lokace pro monitorovanı dalsıchdopravnıch situacı. A cely proces opakuje.

• Neuronova sıt’ musı umet segmentovat tri typydopravnıch prostredku. Do prvnıho typu patrımotorky, skutry, kola. Do druheho typy patrıosobnı auta a dodavky3. A tretı typ jsou tezkedopravnı prostredky jako jsou kamiony, auto-busy, vlaky apod. Bohuzel ze stencil bufferunedokazeme rozeznat o jaky typ se jedna, museljsem si ze hry dopocıtat bounding box vsechvozidel a naslednym postprocessem tyto typy vestencil bufferu rozlisit.

• Sjednocenı obrazku s anotacemi a stencil bufferu.Vysledna ukazka vygenerovaneho snımku je naObrazku 2.

Obrazek 2. Ukazka datove sady vygenerovanez GTAV.

4.2 Struktura sıteStruktury sıtı pro semantickou segmentaci jsou pre-vazne typu koder-dekoder (Encoder-Decoder), kterev casti kodovanı zmensuje rozlisenı vstupnıho obrazkua zvetsuje pocet kanalu, neboli se jedna o zıskavanımapy aktivacı (feature map). Vyuzıvajı se k tomuzname feature extractory, ktere se dobre umıstily v ce-losvetove soutezi ImageNet [10]. Toto male rozlisenıje nutne zvetsit do puvodnı velikosti pomocı dekon-volucı nebo bilinearnı interpolace, abychom zıskalimasku vstupnıho obrazku.

V teto praci jsem zvolil state of the art model sıteDeepLabV3+. Tento model vyzaduje feature extractorpro zıskanı mapy aktivacı. Zvolil jsem Resnet152.Jedna se o velice robustnı klasifikacnı sıt’, ktera ma152 vrstev a tım dosahuje vysoke presnosti. Model sıteDeepLabV3+ je uveden na Obrazku 3.

4.3 TrenovanıPro trenovanı neuronovych sıtı jsem vyuzil frameworkTensorflow. Cely projekt je napsany ve skriptovacımjazyce Python.

Proces trenovanı zacına u predzpracovanı, do kte-reho vstupuje obrazek a jeho maska. Pomocı masky

3obecne auta do 3,5 tuny

se vybere oblast, ktera ma pro nas nejvetsı informacnıhodnotu. Jedna se o oblast, ve ktere se vyskytuje velkemnozstvı objektu, ktere sıt’ napr. dlouho nevidela.Nenı vhodne sıti predavat stale vzorky pozadı4 z du-vodu toho, ze by se malo trenovala na popredı5. Tutopraci ma na starosti Hard example miner, uvedeny naObrazku 3. Po zıskanı souradnic idealnı oblasti, setato oblast vyrızne z masky i ze vstupnıho obrazku. Povyrıznutı se data augmentujı. Je to z duvodu toho, abyse sıt’ ucila na stale jinych obrazcıch a tım byla schopnalepe se prizpusobit realnym podmınkam. Augmentacemuze obraz nepatrne rozmazat nebo naopak zaostrit,pridat sum, otocit obrazek, apod. Cely tento procesbezı paralelne na CPU a pripravuje presne takovoustrukturu, kterou ocekava vstup trenovanı. Jedna seo batch neboli 4-dimensionalnı tensor (N, C, W, H)6

Obrazek 3. Ilustrace procesu trenovanı.

Druha cast slouzı k trenovanı neuronove sıte. Jakbylo jiz receno, model sıte jsem zvolil DeepLabv3+s Resnet152 pro extrakci mapy aktivacı. Vystupemteto casti je hodnota loss, ktera obecne udava rozdılmezi predikcı sıte a ocekavanym vystupem. Cılemtrenovanı je minimalizace loss funkce.

Na grafu 4 je uvedena zavislost loss hodnoty napoctu epoch trenovanı. Je videt, ze od hodnoty odepochy 250 razantne klesly. Bylo to z duvodu pridanıHard example minera do procesu predzpracovanı ob-razku, jak bylo popsano vyse.

4budovy, obloha, silnice, vegetace5auta, nakladnı auta, motorky, lide6N-pocet obrazku, C - pocet kanalu, W - sırka, H - vyska

Obrazek 4. Graf zavislosti loss hodnot na poctuepoch.

Celou sıt’ jsem trenoval na graficke karte RTX2080 titan, kde jedna epocha (cıtajıcı 36 000 anoto-vanych obrazku) trvala 32 minut. Cele trenovanı trvalopriblizne 11 dnı.

4.4 TestovanıV teto sekci se zamerıme na testovanı sıte na validacnıdatove sade. Jedna se o datovou sadu, ktera nebylapridana do trenovacı datove sady. Konkretne se jedna onahodne vybranych 1000 obrazku ze sloucene datovesady7.

Prvnı metrikou urcujıcı kvalitu sıte je metrika us-pesnosti. Jedna se o procentualnı vyjadrenı spravneklasifikovanych pixelu. Graf 5 zobrazuje vztah uspes-nosti klasifikace na poctu epoch.

Obrazek 5. Graf zavislosti presnosti klasifikacepixelu na poctu epoch.

Druha metrika IoU (Intersection over Union) urcu-je procentualnı prekrytı mezi predikcı a ground truthmaskou, jak je uvedeno v rovnici 1. Graf zavislostimetriky IoU na poctu epoch je uveden na Obrazku 6.

7Obsahuje jak realna, tak i umela data.

IoU =GT maska

⋂predikce

GT maska⋃

predikce(1)

Obrazek 6. Graf zavislosti IoU na poctu epoch.

4.5 Optimalizace

TensorRT je platforma, ktera slouzı k optimalizacimodelu neuronovych sıtı pro rychle vyhodnocenı nagraficke karte. Je velice vhodne po natrenovanı modelusıte, tuto sıt’ optimalizovat pomocı TensorRT. Jak jeuvedeno na grafu 7 bylo docıleno vysokeho zrychlenıvyhodnocenı za cenu nepatrneho snızenı presnosti.

Obrazek 7. Optimalizace pomocı TensorRT.

5. Experimenty

Testovanı kvality vystupu sıte na snımcıch z pohledu je-doucıho auta jsou velice kvalitnı, jak je demonstrovanona Obrazku 8.

Obrazek 8. Ukazky vystupu sıte.

Pri pohledech z vyssıch pozic kvalita vystupu znac-ne klesa. Tento problem se musı resit rozsırenım da-tove sady o nove snımky z danych pohledu.

6. PrınosVystup teto prace ma velice kvalitnı vysledky seg-mentace z pohledu jedoucıho auta. Casova narocnostpredikce je 25ms na GPU pomocı TensorRT, ktera jevelice uspokojujıcı. Tato rychlost umoznuje real-timezpracovanı, coz je velice zadoucı pro napr. samorıdıcıauta, roboty a jine prıstroje, ktere potrebujı moni-torovat svoje okolı a na zaklade zıskanych dat reagovat.

Na druhou stranu je sıt’ bohuzel zatım specializo-vana na tento pohled. S posunutım kamery do vyssıvysky predikce ztratı svojı kvalitu. Tento problembudu resit pridanım novych dat pomocı generatorudatove sady z GTAV.

7. ZaverTento clanek se venoval celemu procesu vyvoje neu-ronove sıte slouzıcı k segmentaci sceny. Od vytvarenı

datove sady, pres proces trenovanı az k optimalizacıma experimentum s neuronovou sıtı.

Sıt’ dosahuje 94% presnosti klasifikace pixelu, 74%IoU s rychlostı vypoctu 82 ms bez optimalizacı a 25ms s optimalizacemi s TensorRT.

Budoucı prace bude spocıvat v obohacenı datovesady o nova data a dotrenovanı sıte s temito daty.

PodekovanıNejprve bych rad podekoval firme RCE s.r.o za odbor-nou pomoc a za moznost vyuzitı jejich hardwaru propraci s neuronovymi sıtemi. Dale bych rad podekovalfirme Artin s.r.o, ktera mi poskytla program pro gen-erovanı anotovanych textur ze hry GTAV. Dale bychrad podekoval svemu vedoucımu diplomove praceIng. Jaroslavu Rozmanovi, Ph.D. za jeho vecne pri-pomınky na konzultacıch.

Literatura[1] Liang-Chieh Chen, Yukun Zhu, George Pa-

pandreou, Florian Schroff, and Hartwig Adam.Encoder-decoder with atrous separable convolu-tion for semantic image segmentation. In ECCV,2018.

[2] Wenjie Luo, Yujia Li, Raquel Urtasun, andRichard S. Zemel. Understanding the effectivereceptive field in deep convolutional neural net-works. CoRR, abs/1701.04128, 2017.

[3] Olaf Ronneberger, Philipp Fischer, and ThomasBrox. U-net: Convolutional networks for biomed-ical image segmentation. CoRR, abs/1505.04597,2015.

[4] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi,Xiaogang Wang, and Jiaya Jia. Pyramid sceneparsing network. CoRR, abs/1612.01105, 2016.

[5] Andreas Geiger, Philip Lenz, Christoph Stiller,and Raquel Urtasun. Vision meets robotics: Thekitti dataset. International Journal of RoboticsResearch (IJRR), 2013.

[6] Gabriel J. Brostow, Julien Fauqueur, and RobertoCipolla. Semantic object classes in video: Ahigh-definition ground truth database. PatternRecognition Letters, 30:88–97, 2009.

[7] Marius Cordts, Mohamed Omran, SebastianRamos, Timo Rehfeld, Markus Enzweiler, Ro-drigo Benenson, Uwe Franke, Stefan Roth, andBernt Schiele. The cityscapes dataset for seman-tic urban scene understanding. In The IEEE Con-ference on Computer Vision and Pattern Recog-nition (CVPR), June 2016.

[8] Gerhard Neuhold, Tobias Ollmann, Samuel RotaBulo, and Peter Kontschieder. The mapillaryvistas dataset for semantic understanding of streetscenes. 2017 IEEE International Conferenceon Computer Vision (ICCV), pages 5000–5009,2017.

[9] Stephan R. Richter, Vibhav Vineet, Stefan Roth,and Vladlen Koltun. Playing for data: Groundtruth from computer games. In Bastian Leibe, JiriMatas, Nicu Sebe, and Max Welling, editors, Eu-ropean Conference on Computer Vision (ECCV),volume 9906 of LNCS, pages 102–118. SpringerInternational Publishing, 2016.

[10] Olga Russakovsky, Jia Deng, Hao Su, JonathanKrause, Sanjeev Satheesh, Sean Ma, Zhi-heng Huang, Andrej Karpathy, Aditya Khosla,Michael Bernstein, Alexander C. Berg, andLi Fei-Fei. ImageNet Large Scale Visual Recog-nition Challenge. International Journal of Com-puter Vision (IJCV), 115(3):211–252, 2015.

Date post:	25-Aug-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

Segmentace obrazovyc´ h dat pomoc´ı hlubokyc´ h...

Documents