3D vizija je multidisciplinarno područje koje uključuje računalnu grafiku, računalni vid i umjetnu inteligenciju. Cilj mu je omogućiti strojevima razumijevanje i obradu informacija u tro-dimenzionalnom prostoru, postižući dubinsku percepciju, prepoznavanje i razumijevanje objekata i prizora.
Glavni zadaci
3D rekonstrukcija
Procjena dubine 3D scena ili digitalno uzorkovanje površina objekata, kao i obrada i prikaz 3D podataka; monokularna rekonstrukcija, binokularna rekonstrukcija, strukturirana svjetlo-rekonstrukcija, laser-rekonstrukcija; 3D rekonstrukcija velikih-razmjera, mobilna 3D rekonstrukcija.
Procjena poze
Izračun položaja i orijentacije kamera ili objekata u tro-dimenzionalnom fizičkom prostoru i-praćenje u stvarnom vremenu.
3D razumijevanje
Detekcija objekata, prepoznavanje i dohvaćanje, kao i segmentacija i semantičko označavanje prizora ili objekata.
Principi rada
3D vizualni prikaz jedna je od najvažnijih metoda za percepciju informacija u industrijskim robotima, a može se podijeliti na optičke i ne-optičke metode snimanja. Trenutno se najviše koriste optičke metode.
Metoda--leta (TOF).
Ova metoda izračunava udaljenost do objekta mjerenjem vremenske razlike između emisije i prijema svjetlosti. Uzimajući TOF kameru kao primjer, svaki piksel koristi vremensku razliku svjetlosnog leta kako bi dobio dubinu objekta. U klasičnim mjernim metodama, sustav detektora počinje mjeriti vrijeme kada emitira svjetlosni impuls, pohranjuje vrijeme povratnog-puta kada primi ciljni svjetlosni odjek i procjenjuje ciljnu udaljenost prema formuli.
Dijeli se na izravni TOF (DTOF) i neizravni TOF (I-TOF). DTOF se obično koristi u-sustavima rangiranja u jednoj točki, a postizanje 3D slike-širokog područja često zahtijeva tehnologiju skeniranja; I-TOF neizravno ekstrapolira vrijeme kružnog putovanja iz vremenski-ograničenih mjerenja intenziteta svjetlosti, eliminirajući potrebu za preciznim mjerenjem vremena, i trenutno je komercijalizirano rješenje za elektroničke i optičke miksere temeljene na TOF kamerama. TOF snimanje može se koristiti za veliko vidno polje, veliku-udaljenost, nisku-preciznost i-cijenovno prikupljanje 3D slike, a koristi se za percepciju okoline u inteligentnim bespilotnim sustavima (kao što su roboti, bespilotna vozila, dronovi itd.).
Structured Light Projection 3D Imaging
Strukturirana svjetlosna projekcija 3D slike trenutno je glavna metoda za percepciju 3D vida kod robota. Projektor projicira specifičan strukturirani svjetlosni uzorak na ciljni objekt, kao što su pruge ili Gray kodni uzorci, a kamera snima sliku moduliranu metom. Zbog valovitosti površine objekta, strukturirani svjetlosni uzorak se deformira na površini objekta. Obradom slika i upotrebom vizualnih modela za usporedbu uzoraka prije i poslije deformacije, te analizom iskrivljenja uzorka, mogu se izračunati tro-informacije o koordinatama svake točke na površini ciljnog objekta.
U primjenama sustava robotskog ručnog oka, za scenarije u kojima nije potrebna visoka točnost 3D mjerenja (kao što je paletiziranje, depaletiziranje i 3D hvatanje), metoda projiciranja pseudo-nasumičnih uzoraka točkica za dobivanje ciljanih 3D informacija prilično je popularna. Ova se metoda obično koristi u industrijskoj inspekciji i 3D modeliranju, a može brzo dobiti 3D podatke o površini objekta. Strukturirani sustav snimanja svjetlom sastoji se od nekoliko projektora i kamera. Uobičajeni strukturni oblici uključuju: jedan projektor-jednu kameru, jedan projektor-dvostruku kameru, jedan projektor-više kamera, jednu kameru-dvostruke projektore i jednu kameru-više projektora.
Osnovni princip rada 3D slike projekcije strukturiranog svjetla je sljedeći: projektor projicira određeni strukturirani svjetlosni uzorak osvjetljenja na ciljani objekt, kamera snima sliku moduliranu metom, a zatim se 3D informacija ciljnog objekta dobiva obradom slike i vizualnim modelima. Uobičajene vrste projektora uključuju: zaslon s tekućim kristalima (LCD), projekciju digitalne modulacije svjetla (DLP: kao što su digitalni mikrozrcalni uređaji (DMD)) i izravnu projekciju laserskog LED uzorka.
Na temelju broja projekcija strukturiranog svjetla, 3D slika projekcije strukturiranog svjetla može se podijeliti na metode 3D s jednom-snimkom i 3D metode s više-snimki. Pojedinačno-strukturirano svjetlo uglavnom koristi prostorno multipleksiranje kodiranja i frekvencijsko multipleksiranje kodiranja. Uobičajeni oblici kodiranja uključuju: kodiranje u boji, indeksiranje u sivim tonovima, kodiranje geometrijskog oblika i nasumične mrljaste uzorke. Trenutačno se u aplikacijama sustava robotskog-ručnog oka, za scenarije u kojima nije potrebna visoka točnost 3D mjerenja, kao što je paletiziranje, depaletiziranje i 3D hvatanje, naširoko koristi metoda projiciranja pseudo-nasumičnih uzoraka točkica za dobivanje ciljanih 3D informacija.
Multi{0}}shot 3D metode uglavnom koriste kodiranje vremenskog-multipleksiranja. Uobičajeni oblici kodiranja uzorka uključuju: binarno kodiranje, kodiranje s više-faznim-pomakom frekvencija i metode hibridnog kodiranja (kao što su Grayev kod i rubovi-pomaka faze). Osnovni princip 3D snimanja strukturiranim svjetlom prikazan je na donjoj slici. Strukturirani svjetlosni uzorak generira se pomoću računala ili posebnog optičkog uređaja, a zatim se projicira na površinu objekta koji se ispituje pomoću optičkog projekcijskog sustava. Uređaj za prikupljanje slike (kao što je CCD ili CMOS kamera) koristi se za snimanje strukturirane svjetlosne slike modulirane i deformirane površinom objekta. Algoritmi za obradu slike zatim se koriste za izračunavanje korespondencije između svakog piksela na slici i točaka na konturi objekta. Konačno, tro{13}}informacije o trodimenzionalnim konturama objekta izračunavaju se pomoću modela strukture sustava i njegove tehnologije kalibracije. U praktičnim primjenama obično se koristi Grayeva kodna projekcija, sinusoidalna fazna-projekcija ruba ili hibridna Grayeva kodna i sinusna{16}}fazna 3D tehnologija.
Za grube površine, strukturirano svjetlo može se izravno projicirati na površinu objekta za vizualno mjerenje slike; međutim, za 3D mjerenje visoko reflektirajućih glatkih površina i zrcalnih objekata, strukturirana svjetlosna projekcija ne može se izravno projicirati na površinu koja se ispituje, a 3D mjerenje zahtijeva upotrebu tehnika spekularne refleksije.
U ovoj shemi, rubovi se ne projiciraju izravno na konturu objekta koji se ispituje, već na zaslon za raspršivanje, ili se zaslon s tekućim kristalima (LCD) koristi za izravno prikazivanje rubova. Kamera dobiva rubne informacije modulirane promjenama zakrivljenosti svijetle površine kroz putanju reflektirane svjetlosti, a zatim izračunava tro{1}}dimenzionalnu morfologiju konture.
Skeniranje 3D slike
Metode skeniranja 3D slike mogu se podijeliti na metode skeniranja raspona, aktivne triangulacije i kromatske konfokalne metode. Skeniranje raspona koristi kolimiranu svjetlosnu zraku za skeniranje cijele ciljne površine za 3D mjerenje. Uobičajene metode određivanja raspona skeniranja uključuju: metode jednog-vremena--leta, kao što je određivanje dometa kontinuirane valne frekvencije (FM-CW) i određivanje dometa pulsa (LiDAR); interferometrija laserskog raspršenja, kao što su interferometri koji se temelje na interferenciji više-valnih duljina, holografskoj interferenciji, interferenciji bijele svjetlosti i načelima speckle interferencije; i konfokalne metode, poput kromatskog konfokalnog i autofokusiranja.
U 3D metodama skeniranja s rasponom jedne-točke, metoda-vremena{3}}-leta jedne-točke prikladna je za skeniranje-na velike udaljenosti, ali je točnost mjerenja relativno niska, općenito u milimetarskom rasponu. Ostale metode skeniranja u jednoj-točki uključuju lasersku interferometriju u jednoj-točki, konfokalnu mikroskopiju i aktivnu lasersku triangulaciju u jednoj-točki. Ove metode nude visoku točnost mjerenja, ali prva zahtijeva kontrolirano okruženje. Linijsko skeniranje nudi umjerenu točnost i visoku učinkovitost. Aktivna laserska triangulacija i kromatska konfokalna mikroskopija posebno su prikladni za 3D mjerenja na krajnjem efektoru robotske ruke. Aktivna triangulacija temelji se na načelu triangulacije, koristeći kolimiranu zraku ili jednu ili više ravninskih zraka za skeniranje ciljane površine za 3D mjerenje.
Svjetlosna zraka obično se dobiva na sljedeće načine: laserskom kolimacijom, cilindričnom ili kvadratnom površinskom prizmatičnom ekspanzijom zrake, ne-koherentnom svjetlošću (kao što je bijela svjetlost, LED izvor svjetlosti) projiciranom kroz male rupe, proreze (rešetke) ili koherentnom difrakcijom svjetlosti. Aktivna triangulacija može se podijeliti u tri vrste: skeniranje u jednoj-točki, skeniranje u jednoj-liniji i skeniranje u više-linija. Trenutačno većina komercijalno dostupnih proizvoda za krajnje efektore robotske ruke su skeneri s jednom-točkom i jednom-linijom.
Kod više{0}}metoda skeniranja pouzdana identifikacija rubnih brojeva predstavlja izazov. Kako bi se točno identificirali brojevi rubova, dva seta okomitih svjetlosnih ravnina obično se izmjenjuju velikom brzinom. Time je omogućeno i "Flying Triangulation" skeniranje, čije skeniranje i proces 3D rekonstrukcije je prikazan na slici ispod. Više-linijska projekcija i jedno-flash slikanje stvaraju rijedak 3D prikaz. Nekoliko sekvenci 3D prikaza generira se skeniranjem uzdužne i poprečne rubne projekcije, a zatim se generira potpuni i gust model 3D površine visoke-rezolucije putem registracije 3D slike.
Čini se da je kromatska konfokalna mikroskopija sposobna skenirati i mjeriti grube i glatke neprozirne i prozirne objekte, kao što su reflektirajuće površine i prozirne staklene površine, a trenutno se naširoko koristi u poljima kao što je 3D pregled maski mobilnih telefona. Kromatsko konfokalno skeniranje ima tri vrste: jedno-točkasto jedno-dimenzionalno skeniranje mjerenja apsolutne udaljenosti, više-matrično skeniranje i kontinuirano linijski skeniranje. Donja slika prikazuje primjere mjerenja apsolutne udaljenosti i kontinuiranog linijskog skeniranja. Kontinuirano skeniranje linija također je vrsta skeniranja niza, ali s većim i gušćim nizom točaka.
Stereo Vision 3D Imaging
Stereovizija se općenito odnosi na rekonstrukciju 3D strukture ili informacija o dubini ciljanog objekta dobivanjem dvije ili više slika s različitih točaka gledišta. Vizualni znakovi percepcije dubine mogu se podijeliti na okularne znakove i binokularne znakove (binokularni disparitet). Trenutačno se 3D stereo vid može postići monokularnim vidom, binokularnim vidom, multi-vidom i 3D prikazom svjetlosnog polja (elektronička složena očna ili niz kamera). Znakovi percepcije dubine monokularnog vida obično uključuju: perspektivu, razlike u žarišnoj duljini, sliku s više-pogleda, okluziju, sjene, paralaksu pokreta itd.
U robotskom vidu to se također može postići korištenjem zrcalne slike i drugih oblika-iz-X metoda. Vizualni znakovi percepcije dubine binokularnog vida uključuju: položaj konvergencije oka i binokularni disparitet. U strojnom vidu, dvije kamere koriste se za dobivanje slika dviju točaka gledišta iste ciljne scene s dvije točke gledišta, a zatim se izračunava disparitet odgovarajućih točaka u slikama dviju točaka gledišta kako bi se dobile 3D informacije o dubini ciljne scene. Tipični postupak izračuna binokularnog stereo vida uključuje sljedeća četiri koraka: ispravljanje izobličenja slike, ispravljanje para stereo slika, registracija slike i izračun mape dispariteta reprojekcije triangulacije.
Multi{0}}view vision imaging, ili multi-view stereo imaging, koristi jednu ili više kamera za dobivanje više slika iste ciljne scene s više točaka gledišta kako bi se rekonstruirale-trodimenzionalne informacije ciljane scene.
Stereo slika s više-pogleda uglavnom se koristi u sljedećim scenarijima: korištenje više kamera s različitih točaka gledišta za dobivanje više slika iste ciljne scene, a zatim korištenje stereorekonstrukcije temeljene na značajkama-i drugih algoritama za dobivanje informacija o dubini scene i prostornoj strukturi; pomoću tehnike strukture-iz-pokreta (SFM), koristeći istu kameru s nepromijenjenim unutarnjim parametrima, za dobivanje više slika s različitih točaka gledišta za rekonstrukciju-trodimenzionalnih informacija ciljane scene. Ova se tehnologija obično koristi za praćenje velikog broja kontrolnih točaka u ciljnoj sceni, kontinuirano obnavljajući 3D strukturne informacije scene, kao i pozu i položaj kamere. Snimanje svjetlosnog polja razlikuje se od tradicionalnih principa snimanja kamerom. Tradicionalne kamere formiraju 2D sliku izravno na ravnini slike nakon što svjetlost prođe kroz leću.
Kamere sa svjetlosnim poljem dodaju niz mikroleća ispred ravnine senzora. Svjetlo koje pada kroz glavnu leću ponovno prolazi kroz svaku mikroleću i prima je fotoosjetljivi niz, čime se dobivaju informacije o smjeru i položaju svjetlosnih zraka. To omogućuje kasniju obradu rezultata slike, postizanje efekta "prvo pucanje, fokusiranje kasnije" i omogućavanje oporavka tro-dimenzionalne strukture scene pomoću ovih informacija. U područjima kao što su virtualna stvarnost i proširena stvarnost, tehnologija snimanja svjetlosnog polja pomaže u pružanju realističnijeg vizualnog iskustva i omogućuje točniju tro-dimenzionalnu percepciju i interakciju sa scenom.
Načelo 3D snimanja svjetlosnim poljem strukturno se razlikuje od načela slikanja tradicionalnih CCD i CMOS kamera. Tradicionalne kamere snimaju svjetlost izravno na ravninu slike nakon što prođe kroz objektiv, općenito proizvodeći 2D sliku. Kamere sa svjetlosnim poljem dodaju niz mikroleća ispred ravnine senzora, uzrokujući da svjetlost koja pada kroz glavnu leću ponovno prolazi kroz svaku mikroleću i prima je fotoosjetljivi niz, čime se dobivaju informacije o smjeru i položaju svjetlosnih zraka. To omogućuje naknadnu-obradu rezultata snimanja, postižući učinak "prvo slikaj, fokusiraj kasnije".

