EfficientDet: Proti Razširljivemu In Učinkovitemu Zaznavanju Predmetov

Kazalo:

EfficientDet: Proti Razširljivemu In Učinkovitemu Zaznavanju Predmetov
EfficientDet: Proti Razširljivemu In Učinkovitemu Zaznavanju Predmetov

Video: EfficientDet: Proti Razširljivemu In Učinkovitemu Zaznavanju Predmetov

Video: EfficientDet: Proti Razširljivemu In Učinkovitemu Zaznavanju Predmetov
Video: EfficientDet: Scalable and Efficient Object Detection 2024, November
Anonim

Kot ena glavnih aplikacij v računalniškem vidu je zaznavanje predmetov vedno bolj pomembno v scenarijih, ki zahtevajo visoko natančnost, vendar imajo omejene računalniške vire, kot so robotika in avtomobili brez voznika. Na žalost številni sodobni visoko natančni detektorji ne izpolnjujejo teh omejitev. Še pomembneje je, da se aplikacije za zaznavanje predmetov v resničnem svetu izvajajo na različnih platformah, ki pogosto zahtevajo različne vire.

Prilagodljivo in učinkovito zaznavanje predmetov
Prilagodljivo in učinkovito zaznavanje predmetov

Torej je naravno vprašanje, kako oblikovati natančne in učinkovite detektorje predmetov, ki se lahko prilagodijo tudi številnim omejitvam virov?

EfficientDet: razširljivo in učinkovito zaznavanje predmetov, sprejeto na CVPR 2020, predstavlja novo družino razširljivih in učinkovitih detektorjev predmetov. Na podlagi predhodnega dela na skaliranju nevronskih mrež (EfficientNet) in vključitvi novega dvosmernega funkcionalnega omrežja (BiFPN) ter novih pravil o skaliranju doseže EfficientDet sodobno natančnost, medtem ko je 9-krat manjši in uporablja bistveno manj izračunov kot znani sodobni detektorji. Naslednja slika prikazuje splošno mrežno arhitekturo modelov.

Slika
Slika

Optimizacija arhitekture modelov

Ideja sistema EfficientDet izvira iz prizadevanj za iskanje rešitev za izboljšanje računske učinkovitosti s sistematičnim preučevanjem prejšnjih najsodobnejših modelov zaznavanja. Na splošno imajo detektorji objektov tri glavne komponente: hrbtenico, ki iz dane slike pridobi značilnosti; omrežje predmetov, ki zajema več ravni funkcij iz hrbtenice kot vhod in izpiše seznam kombiniranih funkcij, ki predstavljajo značilne značilnosti slike; in končno omrežje razredov / škatel, ki uporablja kombinirane funkcije za napovedovanje razreda in lokacije vsakega predmeta.

Po pregledu možnosti zasnove teh komponent smo ugotovili več ključnih optimizacij za izboljšanje zmogljivosti in učinkovitosti. Prejšnji detektorji večinoma uporabljajo ResNets, ResNeXt ali AmoebaNet kot hrbtenice, ki so bodisi manj zmogljive bodisi imajo nižjo učinkovitost kot EfficientNets. Z začetno uvedbo hrbtenice EfficientNet je mogoče doseči veliko večjo učinkovitost. Na primer, začenši z izhodiščem RetinaNet, ki uporablja hrbtenico ResNet-50, naša študija ablacije kaže, da lahko preprosto nadomeščanje ResNet-50 z EfficientNet-B3 izboljša natančnost za 3%, hkrati pa zmanjša izračun za 20%. Druga optimizacija je izboljšanje učinkovitosti funkcionalnih omrežij. Medtem ko večina prejšnjih detektorjev preprosto uporablja piramidno omrežje Downlink (FPN), ugotavljamo, da je spodnji FPN sam po sebi omejen na enosmerni pretok informacij. Alternativni FPN-ji, kot je PANet, dodajo dodatne vhodne toke za ceno dodatnih izračunov.

Nedavni poskusi uporabe Neural Architecture Search (NAS) so odkrili bolj zapleteno arhitekturo NAS-FPN. Čeprav je ta mrežna struktura učinkovita, je tudi nepravilna in zelo optimizirana za določeno nalogo, kar otežuje prilagajanje drugim nalogam. Za rešitev teh težav predlagamo novo mrežo dvosmernih funkcij BiFPN, ki uresničuje idejo kombiniranja večplastnih funkcij iz FPN / PANet / NAS-FPN, ki omogoča prenos informacij od zgoraj navzdol in od spodaj navzgor. z uporabo rednih in učinkovitih povezav.

Slika
Slika

Za nadaljnje izboljšanje učinkovitosti predlagamo novo hitro normalizirano tehniko sinteze. Tradicionalni pristopi običajno obravnavajo vse vnose v FPN na enak način, tudi z različnimi ločljivostmi. Opažamo pa, da vhodne funkcije z različnimi ločljivostmi pogosto neenako prispevajo k izhodnim funkcijam. Tako vsaki vhodni funkciji dodamo dodatno težo in omrežju omogočimo, da se nauči pomembnosti vsake od njih. Prav tako bomo vse običajne zvitke zamenjali z cenejšimi, globoko ločljivimi zvitki. S to optimizacijo naš BiFPN še izboljša natančnost za 4%, hkrati pa zmanjša računske stroške za 50%.

Tretja optimizacija vključuje doseganje najboljšega kompromisa med natančnostjo in učinkovitostjo pri različnih omejitvah virov. Naše prejšnje delo je pokazalo, da lahko sorazmerno merjenje globine, širine in ločljivosti omrežja znatno izboljša zmogljivost prepoznavanja slik. Navdihnjeni s to idejo, predlagamo novo kompozitno metodo skaliranja za detektorje predmetov, ki skupaj povečuje ločljivost / globino / širino. Vsaka mrežna komponenta, tj. Hrbtenično, objektno in blokovno / razredno napovedno omrežje, bo imela en kompleksen faktor skaliranja, ki nadzira vse dimenzije skaliranja z uporabo hevrističnih pravil. Ta pristop omogoča enostavno določitev, kako prilagoditi model z izračunom faktorja obsega za določeno ciljno omejitev virov.

S kombinacijo nove hrbtenice in BiFPN najprej oblikujemo majhno osnovno linijo EfficientDet-D0 in nato uporabimo sestavljeno skaliranje, da dobimo EfficientDet-D1 do D7. Vsak serijski model ima višje računske stroške, ki pokriva široko paleto omejitev virov od 3 milijard FLOP do 300 milijard FLOPS in zagotavlja večjo natančnost.

Model zmogljivosti

Vrednotenje EfficientDet na naboru podatkov COCO, široko uporabljenem referenčnem naboru podatkov za zaznavanje predmetov. EfficientDet-D7 doseže povprečno povprečno natančnost (mAP) 52,2, kar je za 1,5 točke več kot v prejšnjem sodobnem modelu, pri čemer uporabi 4-krat manj parametrov in 9,4-krat manj izračunov

Slika
Slika

Primerjali smo tudi velikost parametrov in zakasnitev CPU / GPU med EfficientDet in prejšnjimi modeli. S podobnimi omejitvami natančnosti modeli EfficientDet delujejo 2–4-krat hitreje na grafičnem procesorju in 5–11-krat hitreje na procesorju kot drugi detektorji. Čeprav so modeli EfficientDet namenjeni predvsem zaznavanju predmetov, njihovo učinkovitost preizkušamo tudi pri drugih nalogah, kot je semantična segmentacija. Za izvajanje nalog segmentacije nekoliko spremenimo EfficientDet-D4, tako da nadomestimo zaznavno glavo in izgubo in izgubo glave, hkrati pa ohranjamo enako prilagojeno hrbtenico in BiFPN. Ta model primerjamo s prejšnjimi sodobnimi modeli segmentacije za Pascal VOC 2012, široko uporabljen nabor podatkov za testiranje segmentacije.

Slika
Slika

Glede na njihovo izjemno zmogljivost naj bi EfficientDet služil kot nov temelj za prihodnje raziskave zaznavanja objektov in bi lahko zelo natančne modele zaznavanja predmetov uporabil v številnih resničnih aplikacijah. Tako odprl vse prelomne točke kode in predhodno izurjen model na Github.com.

Priporočena: