V, 2015. március 29

Jelenleg számos olyan feladat létezik, amelyben valamilyen döntést kell hozni a képen lévő objektum jelenlététől függően, vagy osztályozni kell. A „felismerés” képességét a biológiai lények fő tulajdonságának tekintik, míg a számítógépes rendszerek nem rendelkeznek teljesen ezzel a tulajdonsággal.

Mérlegeljük közös elemek osztályozási modellek.

Osztály- közös tulajdonságokkal rendelkező objektumok halmaza. Az azonos osztályba tartozó objektumok esetében feltételezzük a „hasonlóság” jelenlétét. Egy felismerési feladathoz tetszőleges számú, 1-nél nagyobb osztály definiálható. Az osztályok számát S szám jelöli. Minden osztálynak megvan a maga azonosító osztálycímkéje.

Osztályozás- az osztálycímkék objektumokhoz való hozzárendelésének folyamata, ezen objektumok tulajdonságainak bizonyos leírása szerint. Az osztályozó olyan eszköz, amely objektum attribútumokat kap bemeneti adatként, és ennek eredményeként osztálycímkét állít elő.

Igazolás- az objektumpéldány egyetlen objektummodellhez vagy osztályleíráshoz való hozzárendelésének folyamata.

Alatt út meg fogjuk érteni annak a területnek a nevét a jellemzők terében, amelyben az anyagi világ számos tárgya vagy jelensége megjelenik. Jel- a vizsgált tárgy vagy jelenség egy adott tulajdonságának mennyiségi leírása.

Feature space Ez N-dimenziós tér, egy adott felismerési feladathoz definiált, ahol N bármely objektum mért jellemzőinek rögzített száma. A felismerési feladat objektumának megfelelő x jellemzőtérből származó vektor egy N-dimenziós vektor komponensekkel (x_1,x_2,…,x_N), amelyek ennek az objektumnak a jellemzőértékei.

Más szavakkal, a mintázatfelismerés úgy definiálható, mint a forrásadatok egy bizonyos osztályhoz való hozzárendelése azáltal, hogy a lényegtelen részletek teljes tömegéből azonosítjuk azokat a jelentős jellemzőket vagy tulajdonságokat, amelyek ezeket az adatokat jellemzik.

Példák az osztályozási problémákra:

karakter felismerés;
beszédfelismerés;
orvosi diagnózis felállítása;
időjárás előrejelzés;
arcfelismerés
dokumentumok minősítése stb.

A forrásanyag leggyakrabban a kamerából kapott kép. A probléma úgy fogalmazható meg, hogy a vizsgált kép minden osztályára jellemzővektorokat kapunk. A folyamat egy olyan kódolási folyamatnak tekinthető, amely magában foglalja az egyes osztályok jellemzőteréből minden egyes jellemzőhöz érték hozzárendelését.

Ha figyelembe vesszük a tárgyak 2 osztályát: felnőttek és gyermekek. Jelként választhat magasságot és súlyt. Amint az ábrából következik, ez a két osztály két diszjunkt halmazt alkot, ami a kiválasztott jellemzőkkel magyarázható. Nem mindig lehet azonban osztályjellemzőként kiválasztani a helyes mért paramétereket. Például a kiválasztott paraméterek nem alkalmasak focisták és kosárlabdázók diszjunkt osztályainak létrehozására.

A felismerés második feladata a szelekció jellegzetes vonásait vagy a forrásképekből származó tulajdonságokat. Ez a feladat az előfeldolgozáshoz sorolható. Ha figyelembe vesszük a beszédfelismerés feladatát, megkülönböztethetünk olyan jellemzőket, mint a magánhangzók és a mássalhangzók. Az attribútumnak egy adott osztály jellemző tulajdonságának kell lennie, ugyanakkor közösnek kell lennie ebben az osztályban. Jellemzők, amelyek a különbségeket jellemzik - osztályok közötti jellemzők. Az összes osztályban közös jellemzők nem hordoznak hasznos információkat, és nem tekintendők jellemzőknek a felismerési feladatban. A funkciók kiválasztása az egyik fontos feladatokat felismerő rendszer felépítésével kapcsolatos.

A jellemzők meghatározása után meg kell határozni az osztályozás optimális döntési eljárását. Tekintsünk egy mintafelismerő rendszert, amely különböző M osztályok felismerésére szolgál, m_1,m_2,…,m 3. Ekkor feltételezhetjük, hogy a képtér M régióból áll, amelyek mindegyike egy osztály képének megfelelő pontokat tartalmaz. Ekkor a felismerési probléma felfogható az M osztályt elválasztó határok felépítésének az átvett mérési vektorok alapján.

A kép-előfeldolgozás, a jellemzők kinyerése, valamint az optimális megoldás és osztályozás problémájának megoldása általában számos paraméter becslésének szükségességével jár. Ez a paraméterbecslés problémájához vezet. Ezen túlmenően nyilvánvaló, hogy a jellemzők kinyerése további információkat használhat az osztályok jellege alapján.

Az objektumok mérési vektorként való megjelenítésük alapján összehasonlíthatók. Kényelmes a mérési adatokat valós számok formájában ábrázolni. Ekkor két objektum jellemzővektorának hasonlósága az euklideszi távolság segítségével írható le.

ahol d a jellemzővektor dimenziója.

A mintafelismerő módszereknek 3 csoportja van:

Összehasonlítás a mintával. Ez a csoport tartalmazza a legközelebbi átlag szerinti osztályozást, a legközelebbi szomszédtól való távolság szerinti osztályozást. Szintén szerepel a mintával összehasonlító csoportban szerkezeti módszerek elismerés
statisztikai módszerek. Ahogy a neve is sugallja, a statisztikai módszerek használnak néhányat statisztikai információkat felismerési probléma megoldása során. A módszer a valószínűség alapján határozza meg, hogy egy objektum egy adott osztályhoz tartozik-e. Bizonyos esetekben ez egy objektum egy adott osztályhoz való utólagos valószínűségének meghatározására vezethető vissza, feltéve, hogy az objektum jellemzői a megfelelő értékeket vették fel. Példa erre a Bayes-féle döntési szabályon alapuló módszer.
Neurális hálózatok. A felismerési módszerek külön osztálya. Mások megkülönböztető jellemzője a tanulási képesség.

Osztályozás a legközelebbi átlag szerint

BAN BEN klasszikus megközelítés mintafelismerés, amelyben az osztályozáshoz ismeretlen objektumot elemi jellemzők vektoraként ábrázolják. Jellemző alapú felismerő rendszer fejleszthető különböző utak. Ezeket a vektorokat a rendszer előzetesen ismerheti a betanítás eredményeként, vagy egyes modellek alapján valós időben előre jelezheti.

Egy egyszerű osztályozási algoritmus az osztályreferencia adatok csoportosítása az osztály elvárásvektor (átlag) segítségével.

ahol x(i,j)- j-edik hivatkozás az i osztály jellemzője, n_j az i osztály referenciavektorainak száma.

Ekkor egy ismeretlen objektum az i. osztályba tartozik, ha lényegesen közelebb van az i. osztály matematikai elvárásainak vektorához, mint más osztályok matematikai elvárásainak vektoraihoz. Ez a módszer olyan problémákra alkalmas, amelyekben az egyes osztályok pontjai kompaktan és távol helyezkednek el más osztályok pontjaitól.

Nehézségek adódhatnak, ha az osztályok kissé bonyolultabb szerkezetűek, például, mint az ábrán. BAN BEN ebben az esetben A 2. osztály két diszjunkt részre oszlik, amelyeket egyetlen átlagérték rosszul ír le. Ezenkívül a 3. osztály túlságosan megnyúlt; a 3. osztály nagy x_2 koordinátájú mintái közelebb állnak az 1. osztály átlagos értékéhez, mint a 3. osztályhoz.

A leírt probléma bizonyos esetekben megoldható a távolságszámítás megváltoztatásával.

Figyelembe vesszük az osztályértékek „szórásának” jellemzőjét - σ_i, minden i koordinátairány mentén. Szórás egyenlő négyzetgyök diszperziótól. Az x vektor és az x_c elvárásvektor közötti skálázott euklideszi távolság a következő

Ez a távolságképlet csökkenti az osztályozási hibák számát, de a valóságban a legtöbb probléma nem ábrázolható ilyen egyszerű osztállyal.

Osztályozás a legközelebbi szomszédtól való távolság szerint

Az osztályozás másik módja az, hogy egy ismeretlen x jellemzővektort rendelünk ahhoz az osztályhoz, amelyhez az egyedi mintához ez a vektor a leginkább hasonlít. Ezt a szabályt a legközelebbi szomszéd szabályának nevezzük. A legközelebbi szomszéd osztályozása még akkor is hatékonyabb lehet, ha az osztályok összetett szerkezetűek, vagy ha az osztályok átfedik egymást.

Ez a megközelítés nem igényel feltételezéseket a jellemzővektorok térbeli eloszlási modelljeivel kapcsolatban. Az algoritmus csak az ismert referenciamintákra vonatkozó információkat használ fel. A megoldási módszer az adatbázisban lévő egyes minták x távolságának kiszámításán és a minimális távolság meghatározásán alapul. Ennek a megközelítésnek az előnyei nyilvánvalóak:

bármikor hozzáadhat új mintákat az adatbázishoz;
fa és rács adatszerkezetek csökkentik a számított távolságok számát.

Ráadásul jobb lesz a megoldás, ha az adatbázisban nem egy legközelebbi szomszédra keresünk, hanem k-ra. Ekkor k > 1 esetén ez biztosítja a legjobb mintavételezést a vektorok eloszlásából d-dimenziós tér. azonban hatékony használat a k értéke attól függ, hogy van-e elegendő szám a tér minden régiójában. Ha kettőnél több osztály van, nehezebb meghozni a helyes döntést.

Irodalom

M. Castrillon, . O. Deniz, . D. Hernández és J. Lorenzo, „Arc- és arcvonás-detektorok összehasonlítása a Viola-Jones általános tárgyfelismerési keretrendszer alapján”, International Journal of Computer Vision, 22., pp. 481-494, 2011.
Y.-Q. Wang, „An Analysis of Viola-Jones Face Detection Algorithm”, IPOL Journal, 2013.
L. Shapiro és D. Stockman, Computer Vision, Binom. Tudáslaboratórium, 2006.
Z. N. G., Felismerési módszerek és alkalmazásuk, Szovjet Rádió, 1972.
J. Tu, R. Gonzalez, Matematikai alapelvek mintafelismerés, Moszkva: „Mir” Moszkva, 1974.
Khan, H. Abdullah és M. Shamian Bin Zainal, „Hatékony szem- és szájfelismerési algoritmus a viola jones és a bőrszín pixelérzékelés kombinációjával”, International Journal of Engineering and Applied Sciences, No. Vol. 3 2013. 4. sz.
V. Gaede és O. Gunther, „Multidimensional Access Methods”, ACM Computing Surveys, pp. 170-231, 1998.

Az élő rendszerek, köztük az emberek megjelenésük óta folyamatosan szembesülnek a mintafelismerés problémájával. Elsősorban az érzékszervekből érkező információkat dolgozza fel az agy, amely az információkat rendezi, biztosítja a döntéshozatalt, majd elektrokémiai impulzusok segítségével továbbítja a szükséges jelet például a mozgásszervekhez. hogy megvalósítja szükséges intézkedéseket. Ezután változás következik be környezet, és a fenti jelenségek ismét előfordulnak. És ha ránézünk, minden szakaszt elismerés kísér.

A számítástechnika fejlődésével számos életfolyamat során felmerülő probléma megoldása, az eredmény megkönnyítése, felgyorsítása, minőségének javítása vált lehetővé. Például a munka különféle rendszerekéletfenntartás, ember-számítógép interakció, robotrendszerek megjelenése stb.. Megjegyezzük azonban, hogy egyes feladatokban (gyorsan mozgó hasonló tárgyak felismerése, kézzel írt szöveg) jelenleg nem lehet kielégítő eredményt nyújtani.

A munka célja: a képfelismerő rendszerek történetének tanulmányozása.

Jelölje meg a mintafelismerés területén bekövetkezett, elméleti és technikai minőségi változásokat, az okok megjelölésével;

A számítástechnikában használt módszerek és elvek megbeszélése;

Mondjon példákat a közeljövőben várható kilátásokra.

1. Mi az a mintafelismerés?

Az első tanulmányok vele számítógépes technológia többnyire a klasszikus mintát követték matematikai modellezés- matematikai modell, algoritmus és számítás. Ezek voltak a robbanások során fellépő folyamatok modellezésének feladatai atombombák, ballisztikai pályák számítása, gazdasági és egyéb alkalmazások. Amellett azonban, klasszikus elképzelések Ebben a sorozatban egészen más jellegű módszerek merültek fel, és ahogy az egyes problémák megoldásának gyakorlata mutatta, gyakran adtak legjobb eredmény nem pedig a túlbonyolított matematikai modelleken alapuló megoldásokat. Az volt az ötletük, hogy feladják a vágyat, hogy átfogó képet alkossanak matematikai modell a vizsgált objektumról (sőt, adekvát modelleket sokszor gyakorlatilag lehetetlen volt megalkotni), ehelyett elégedjünk meg csak a minket érdeklő konkrét kérdések megválaszolásával, és ezeket a válaszokat a problémák széles csoportjában közös megfontolások alapján keressük. Az ilyen jellegű kutatások magukban foglalták a vizuális képek felismerését, a terméshozamok, a folyók vízszintjének előrejelzését, az olajtartalmú és vízadó rétegek közvetett geofizikai adatok alapján történő megkülönböztetésének feladatát stb. Ezekben a feladatokban konkrét válaszra volt szükség, meglehetősen egyszerű formában, pl. például, hogy egy objektum az előre rögzített osztályok valamelyikébe tartozik-e. És ezeknek a feladatoknak a kezdeti adatait általában töredékes információk formájában adták meg a vizsgált objektumokról, például előre osztályozott objektumok halmaza formájában. VAL VEL matematikai pont Perspektívából ez azt jelenti, hogy a mintafelismerés (és így nevezték el ezt a problémaosztályt hazánkban) a függvény extrapoláció gondolatának messzemenő általánosítása.

Egy ilyen nyilatkozat fontossága számára műszaki tudományok kétségtelen, és ez önmagában is igazolja számos tanulmány elvégzését ezen a területen. A mintafelismerés problémájának azonban tágabb aspektusa is van a természettudomány számára (bár furcsa lenne, ha a mesterséges kibernetikai rendszerek számára ennyire fontos dolognak ne lenne jelentősége a természeteseknél). Ennek a tudománynak a kontextusába szervesen beletartoztak az ókori filozófusok által feltett kérdések is tudásunk természetéről, a környező világ képeinek, mintáinak és helyzeteinek felismerésének képességéről. Valójában nem kétséges, hogy a legegyszerűbb képek felismerésének mechanizmusai, mint például a közeledő veszélyes ragadozók vagy táplálékok képei, sokkal korábban kialakultak, mint a elemi nyelvés formális logikai apparátus. És kétségtelen, hogy az ilyen mechanizmusok meglehetősen fejlettek a magasabb rendű állatokban, amelyeknek szintén sürgősen szükségük van arra, hogy életükben kellően differenciálódjanak. összetett rendszer a természet jelei. Így a természetben azt látjuk, hogy a gondolkodás és a tudat jelensége egyértelműen a képfelismerési képességen alapul, és az intelligencia tudományának további fejlődése közvetlenül összefügg a megértés mélységével. alaptörvények elismerés Megértve azt a tényt, hogy a fenti kérdések messze túlmutatnak szabványos definíció minta felismerés (in angol irodalom gyakoribb a felügyelt tanulás kifejezés), azt is meg kell érteni, hogy mély kapcsolatuk van ezzel a viszonylag szűk (de még korántsem kimerült) iránnyal.

A mintafelismerés már most szilárdan meghonosodott mindennapi életés a modern mérnök egyik leglényegesebb tudása. Az orvostudományban a mintafelismerés segít az orvosoknak pontosabb diagnózis felállításában a gyárakban, az árutételek hibáinak előrejelzésére szolgál. A biometrikus személyazonosító rendszerek, mint algoritmikus magjuk, szintén ennek a tudományágnak az eredményein alapulnak. További fejlődés mesterséges intelligencia, különösen az ötödik generációs számítógépek tervezése, amelyek képesek közvetlenebb kommunikációra az emberekkel az ember számára természetes nyelveken és a beszéd útján, elképzelhetetlen felismerés nélkül. A robotika csak egy kőhajításnyira van innen, mesterséges rendszerek a felismerő rendszereket létfontosságú alrendszerként tartalmazó vezérlők.

Éppen ezért a mintafelismerés fejlesztése a kezdetektől fogva nagy figyelmet keltett a különféle profilú szakemberek - kibernetikusok, neurofiziológusok, pszichológusok, matematikusok, közgazdászok stb. Nagyrészt ez az oka annak, hogy magát a modern mintafelismerést is e tudományágak elképzelései táplálják. A teljesség (és benne) színlelése nélkül rövid esszé lehetetlen állítani) ismertetjük a mintafelismerés történetét, kulcsgondolatait.

Definíciók

Mielőtt rátérnénk a mintafelismerés főbb módszereire, bemutatunk néhány szükséges definíciót.

A mintafelismerés (objektumok, jelek, szituációk, jelenségek vagy folyamatok) az a feladat, hogy egy tárgyat azonosítsunk, vagy annak képéről (optikai felismerés) vagy hangfelvételéről (akusztikus felismerés) és egyéb jellemzőiből meghatározzuk annak bármely tulajdonságát.

Az egyik alapvető a halmaz fogalma, amelynek nincs konkrét megfogalmazása. A számítógépben egy halmazt azonos típusú, nem ismétlődő elemek halmazaként ábrázolunk. A „nem ismétlődő” szó azt jelenti, hogy a halmaz valamely eleme vagy ott van, vagy nincs. Az univerzális halmaz tartalmazza a megoldandó probléma összes lehetséges elemét, az üres halmaz nem tartalmaz.

Kép – osztályozási csoportosítás egy osztályozási rendszerben, amely egyesíti (kiemeli) bizonyos csoport tárgyak valamilyen jellemző szerint. Képek vannak jellemző tulajdonság, abban nyilvánul meg, hogy megismerkedés a véges szám Az ugyanabból a halmazból származó jelenségek lehetővé teszik, hogy tetszőleges mennyiséget ismerj fel nagy szám annak képviselői. A képeknek jellegzetes objektív tulajdonságaik vannak abban az értelemben különböző emberek, tanuló a különböző anyagok megfigyelések, javarészt ugyanazokat a tárgyakat egyenlően és egymástól függetlenül osztályozni. A felismerési probléma klasszikus megfogalmazásában az univerzális halmaz képrészekre oszlik. Egy tárgynak a felismerőrendszer észlelőszerveire történő minden egyes leképezését, függetlenül a szervekhez viszonyított helyzetétől, általában a tárgy képének, illetve az ilyen képek halmazainak nevezik, amelyeket egyesít általános tulajdonságok, ábrázolja a képeket.

Azt a módszert, amellyel bármely képhez elemet rendelünk, döntő szabálynak nevezzük. Egy másik fontos fogalom- metrika, egy univerzális halmaz elemei közötti távolság meghatározására szolgáló módszer. Minél kisebb ez a távolság, annál hasonlóbbak a tárgyak (szimbólumok, hangok stb.) - amit felismerünk. Az elemek általában számok halmazaként vannak megadva, a metrika pedig függvényként. A program hatékonysága a képábrázolás megválasztásától és a metrika megvalósításától függ, hogy egy-egy felismerési algoritmus különböző mérőszámokkal hibázik különböző gyakorisággal.

Tanulásnak szokás nevezni azt a folyamatot, amikor egy bizonyos rendszerben egy vagy másik reakciót alakítanak ki külső azonos jelek csoportjaira a külső kiigazítások rendszerére gyakorolt ismételt hatás révén. Az ilyen külső kiigazításokat az edzésben általában „jutalomnak” és „büntetésnek” nevezik. A kiigazítás létrehozásának mechanizmusa szinte teljesen meghatározza a tanulási algoritmust. Az öntanulás abban különbözik a képzéstől, hogy itt nem adunk további információkat a rendszerre adott reakció helyességéről.

Az adaptáció a rendszer paramétereinek és szerkezetének megváltoztatásának, esetleg vezérlési akcióinak folyamata, amelyek alapján aktuális információk annak érdekében hogy elérd egy bizonyos állapot rendszerek kezdeti bizonytalanság és változó működési feltételek mellett.

A tanulás egy olyan folyamat, melynek eredményeként a rendszer fokozatosan elsajátítja azt a képességet, hogy a külső hatások bizonyos halmazaira a szükséges reakciókkal válaszoljon, az adaptáció pedig a rendszer paramétereinek és felépítésének beállítása a kívánt ellenőrzési minőség elérése érdekében. a külső körülmények folyamatos változásával szemben.

Példák mintafelismerő feladatokra: - Betűfelismerés;

Brute force módszer. Ennél a módszernél az összehasonlítás egy bizonyos adatbázissal történik, ahol az egyes objektumok esetében különböző változatok megjelenítési módosítások. Például optikai mintafelismeréshez használhatja a brute force módszert. különböző szögekből vagy léptékek, eltolások, deformációk stb. Betűk esetén átkapcsolhatja a betűtípust vagy annak tulajdonságait. Hangminta-felismerés esetén néhány ismert mintával (sok ember által kimondott szó) történik az összehasonlítás. Ezt követően a kép jellemzőinek alaposabb elemzésére kerül sor. Optikai felismerés esetén ez lehet a geometriai jellemzők meghatározása. Ebben az esetben a hangmintát frekvencia- és amplitúdóelemzésnek vetik alá.

Következő módszer - mesterséges neurális hálózatok használata(INS). Megköveteli akármelyik Hatalmas mennyiségű példák egy felismerési feladatra, vagy egy neurális hálózat speciális struktúrájára, amely figyelembe veszi az adott feladat sajátosságait. De ez a módszer mégis más magas hatásfokés a termelékenység.

A jellemzőértékek eloszlási sűrűségének becslésén alapuló módszerek. A statisztikai döntések klasszikus elméletéből kölcsönzött, amelyben a vizsgált tárgyakat egy többdimenziós megvalósítás megvalósításának tekintik. valószínűségi változó, valamilyen törvény szerint elosztva a jellemzőtérben. Egy Bayes-féle döntéshozatali sémán alapulnak, amely egy adott osztályba tartozó objektumok kezdeti valószínűségére és a jellemzők feltételes eloszlási sűrűségére hivatkozik.

A jellemzőértékek eloszlási sűrűségének becslésén alapuló módszerek egy csoportja közvetlenül kapcsolódik a diszkriminanciaanalízis módszereihez. A döntéshozatal Bayes-féle megközelítése az egyik legfejlettebb modern statisztika parametrikus módszerek, amelyről ismertnek tekinthető elemző kifejezés elosztási törvény ( normális törvény), és csak becsülnie kell kis mennyiségben paraméterek (átlagértékek vektorai és kovarianciamátrixok). Az alkalmazás fő nehézségei ez a módszer szükségesnek tartják a teljes képzési készlet emlékezését a sűrűségbecslések kiszámításához és nagy érzékenység a képzési mintához.

A döntési függvények osztályára vonatkozó feltevéseken alapuló módszerek. Ebben a csoportban úgy tartják ismert fajok a döntő funkció és a minőségének funkcionális meghatározása. Ennek a függvénynek a alapján a döntési függvény optimális közelítését a betanítási szekvencia segítségével találjuk meg. A döntési szabály minőségi funkciója általában hibához kapcsolódik. A módszer fő előnye a tisztaság matematikai megfogalmazás felismerési feladatok. Az objektum természetéről, különösen az attribútumok kölcsönhatási mechanizmusairól szóló új ismeretek kinyerésének lehetőségét itt alapvetően korlátozza az interakció adott struktúrája, amely a döntési funkciók kiválasztott formájában rögzül.

A prototípussal való összehasonlítás módja. Ez a gyakorlatban a legegyszerűbb kiterjesztett felismerési módszer. Akkor használatos, ha a felismert osztályok kompakt geometriai osztályokként jelennek meg. Ezután a geometriai csoportosítás középpontja (vagy a középponthoz legközelebb eső objektum) kerül kiválasztásra prototípuspontként.

Egy meghatározatlan objektum besorolásához meg kell találni a hozzá legközelebbi prototípust, és az objektum ugyanabba az osztályba tartozik, mint az objektum. Nyilvánvaló, hogy ezzel a módszerrel nem képződnek általánosított képek. Mértékként használhatók Különféle típusok távolságok

A k-legközelebbi szomszédok módszere. A módszer az, hogy amikor egy ismeretlen objektumot osztályozunk, megtaláljuk adott szám(k) bármely osztályhoz már ismert tagsággal rendelkező legközelebbi szomszédok geometriailag legközelebbi jellemzőtere. Az ismeretlen objektumok besorolására vonatkozó döntést a legközelebbi szomszédaira vonatkozó információk elemzésével hozzák meg. Ennek a módszernek a hátránya, hogy csökkenteni kell a betanítási mintában lévő objektumok számát (diagnosztikai precedensek), mivel ez csökkenti a betanítási minta reprezentativitását.

Abból a tényből kiindulva, hogy a különböző felismerő algoritmusok ugyanazon a mintán eltérően jelennek meg, felmerül a kérdés a szintetikus döntő szabály, ami használná erősségeit minden algoritmus. Erre a célra létezik egy szintetikus módszer vagy döntési szabálycsoportok, amelyek a maximumot kombinálják pozitív oldalai mindegyik módszer.

A felismerési módszerek áttekintésének befejezéseként a fentiek lényegét egy összefoglaló táblázatban mutatjuk be, kiegészítve néhány, a gyakorlatban használt módszerrel is.

1. táblázat A felismerési módszerek osztályozási táblázata, alkalmazási területeik és korlátaik összehasonlítása

A felismerési módszerek osztályozása	Alkalmazási terület	Korlátok (hátrányok)
Intenzív felismerési módszerek	Sűrűségbecslésen alapuló módszerek	Problémák ismert eloszlással (normál), nagy statisztikák gyűjtésének szükségessége	A teljes képzési minta számbavételének szükségessége a felismerés során, nagy érzékenység a képzési minta nem reprezentativitására és a műtermékekre
Feltételezésen alapuló módszerek	Az osztályoknak jól elkülöníthetőnek kell lenniük	A döntési függvény típusát előre ismerni kell. Képtelenség figyelembe venni az új ismereteket a tulajdonságok közötti összefüggésekről
Boole-módszerek	Kis problémák	A logikai döntési szabályok kiválasztásakor kimerítő keresésre van szükség. Magas munkaintenzitás
Nyelvi módszerek		Nehezen formalizálható az a feladat, hogy egy bizonyos állításhalmazból (objektumleírásokból) meghatározzuk a nyelvtant. Megoldatlan elméleti problémák
Kiterjesztéses felismerési módszerek	Prototípussal való összehasonlítás módszere	A jellemzőtér kis méretének problémái	Az osztályozási eredmények nagymértékű függése a mérőszámoktól. Ismeretlen optimális mérőszám
k legközelebbi szomszédok módszere		Az osztályozási eredmények nagymértékű függése a mérőszámoktól. A képzési minta teljes számbavételének szükségessége a felismerés során. Számítási erőfeszítés
Algoritmusok a becslések kiszámításához (ABO)	Kis dimenziójú problémák az osztályok számát és jellemzőit illetően	Az osztályozási eredmények függése a mérőszámoktól. A képzési minta teljes számbavételének szükségessége a felismerés során. A módszer magas műszaki összetettsége
A határozati szabályok kollektívái (DRC) szintetikus módszer.	Kis dimenziójú problémák az osztályok számát és jellemzőit illetően	A módszer rendkívül magas technikai bonyolultsága, megoldatlan elméleti problémák száma, mind a privát módszerek kompetenciaterületeinek meghatározásában, mind magukban a magánmódszerekben

oktatóanyag

Régóta szerettem volna írni egy általános cikket, amely a képfelismerés alapjait tartalmazza, egyfajta útmutatót az alapvető módszerekről, megmondva, mikor kell használni, milyen problémákat oldanak meg, mit lehet tenni este térden állva, és mi az jobb nem gondolni anélkül, hogy nincs egy csapat 20 éves ember.

Régóta írok néhány cikket az optikai felismerésről, ezért havonta párszor írnak nekem különféle emberek kérdésekkel ebben a témában. Néha az az érzésed, hogy más világokban élsz velük. Egyrészt megérti, hogy az illető nagy valószínűséggel szakember egy kapcsolódó témában, de nagyon keveset tud az optikai felismerési módszerekről. A legbosszantóbb pedig az, hogy egy közeli tudásterületről próbál alkalmazni egy módszert, ami logikus, de a Képfelismerésben nem teljesen működik, de ezt nem érti és nagyon megsértődik, ha elkezdesz neki valamit mesélni. az alapokat. És ha figyelembe vesszük, hogy az alapoktól való elmesélés sok időt vesz igénybe, ami gyakran nem elérhető, még szomorúbb lesz.

Ez a cikk azt a célt szolgálja, hogy az a személy, aki soha nem dolgozott képfelismerő módszerekkel, 10-15 percen belül kialakítson egy bizonyos, a témának megfelelő alapképet a fejében a világról, és megértse, milyen irányba kell ásni. Az itt leírt technikák közül sok alkalmazható radar- és hangfeldolgozásra.
Néhány alapelvvel kezdem, amelyeket mindig elmondunk a potenciális vásárlóknak, vagy azoknak, akik el akarják kezdeni az optikai felismerést:

Egy probléma megoldása során mindig a legegyszerűbbtől induljon el. Sokkal egyszerűbb címkét feltenni az emberre narancsszín mint követni egy személyt, zuhatagban kiemelve. Sokkal egyszerűbb nagyobb felbontású kamerát venni, mint szuperfelbontású algoritmust kidolgozni.
A probléma szigorú megfogalmazása az optikai felismerési módszerekben nagyságrendekkel fontosabb, mint a rendszerprogramozási problémáknál: egy fölösleges szó a munka 50%-át hozzáadhatja a műszaki előírásokhoz.
A feladatokban nincs elismerés univerzális megoldások. Nem készíthetsz olyan algoritmust, amely egyszerűen „felismer minden feliratot”. Egy tábla az utcán és egy szöveglap alapvetően különböző tárgyak. Valószínűleg lehetséges egy általános algoritmus létrehozása (íme egy jó példa a Google-tól), de ez sok munkát igényel egy nagy csapattól, és több tucat különböző szubrutinból áll.
Az OpenCV egy olyan biblia, amely számos módszert tartalmaz, és szinte minden probléma 50%-át képes megoldani, de az OpenCV csak egy kis része annak, amit valójában meg lehet tenni. Egy tanulmányban a következő következtetéseket írták le: "A probléma OpenCV módszerekkel nem oldható meg, ezért megoldhatatlan." Próbálja ezt elkerülni, ne legyen lusta, és minden alkalommal józanul értékelje az aktuális feladatot a semmiből, OpenCV-sablonok használata nélkül.

Nagyon nehéz univerzális tanácsot adni, vagy megmondani, hogyan lehet létrehozni valamiféle struktúrát, amely köré tetszőleges számítógépes látási problémákra lehet megoldást építeni. Ennek a cikknek az a célja, hogy felvázolja, mi használható. Megpróbálom megtörni meglévő módszereket három csoportba. Az első csoport az előzetes szűrés és kép-előkészítés. A második csoport a szűrési eredmények logikai feldolgozása. A harmadik csoport a logikai feldolgozáson alapuló döntéshozatali algoritmusok. A csoportok közötti határok nagyon önkényesek. Egy probléma megoldásához nem mindig szükséges minden csoport módszerét alkalmazni, néha elég kettő, néha pedig egy is.

Az itt megadott módszerek listája nem teljes. Javaslom, hogy adják hozzá a megjegyzésekhez kritikus módszerek, amit nem én írtam és mindegyikhez 2-3 kísérőszót tulajdonítottam.

1. rész. Szűrés

Ebbe a csoportba azokat a módszereket helyeztem el, amelyek lehetővé teszik a képeken az érdeklődési körök kiválasztását azok elemzése nélkül. A legtöbb ilyen módszer valamilyen egyetlen transzformációt alkalmaz a kép összes pontjára. Szűrési szinten képelemzés nem történik, de a szűrt pontok speciális jellemzőkkel rendelkező területeknek tekinthetők.

Binarizálás küszöbértékkel, hisztogramterület kiválasztása

A legegyszerűbb transzformáció a kép küszöbérték szerinti binarizálása. RGB és szürkeárnyalatos képek esetén a küszöbérték a színérték. Vannak ideális problémák, amelyekben egy ilyen átalakítás elegendő. Tegyük fel, hogy automatikusan ki szeretné jelölni az objektumokat egy fehér papírlapon:

A binarizálás küszöbértékének megválasztása nagymértékben meghatározza magát a binarizálás folyamatát. Ebben az esetben a képet az átlagos színnel binarizáltuk. A binarizálást általában olyan algoritmussal hajtják végre, amely adaptív módon választ ki egy küszöböt. Ilyen algoritmus lehet az elvárás vagy a mód kiválasztása. Vagy kiválaszthatja a hisztogram legnagyobb csúcsát.

A binarizálás nagyon érdekes eredményeket adhat a hisztogramokkal való munka során, beleértve azt a helyzetet is, amikor egy képet nem RGB-ben, hanem HSV-ben tekintünk. Például szegmentáld a kívánt színeket. Ezen az elven megépíthet címkedetektort és emberi bőrdetektort is.

Klasszikus szűrés: Fourier, aluláteresztő szűrő, felüláteresztő szűrő

A klasszikus radarszűrő és jelfeldolgozási módszerek számos mintafelismerési feladathoz sikeresen alkalmazhatók. Hagyományos módszer radarban, amelyet szinte soha nem használnak a képeken tiszta forma, a Fourier transzformáció (pontosabban az FFT). A képtömörítés azon kevés kivételek egyike, amelyekben az egydimenziós Fourier-transzformációt használják. A képelemzéshez általában nem elegendő az egydimenziós transzformáció, sokkal erőforrásigényesebb kétdimenziós transzformációt kell alkalmazni.

Valójában kevesen számítják ki, általában sokkal gyorsabb és egyszerűbb az érdeklődési terület konvolúciója egy kész szűrővel, magas (HPF) vagy alacsony (LPF) frekvenciára hangolva. Ez a módszer természetesen nem teszi lehetővé a spektrumelemzést, de be konkrét feladat A videó feldolgozása általában nem elemzést, hanem eredményeket igényel.

A legtöbb egyszerű példák szűrők, amelyek kiemelik az alacsony frekvenciákat (Gauss-szűrő) és a magas frekvenciákat (Gabor-szűrő).
Minden képponthoz kijelölünk egy ablakot, és megszorozzuk egy azonos méretű szűrővel. Egy ilyen konvolúció eredménye egy új pontérték. Aluláteresztő szűrők és felüláteresztő szűrők alkalmazásakor a következő típusú képeket kapjuk:

Hullámok

De mi van akkor, ha valamilyen tetszőleges karakterisztikus függvényt használunk a jel konvolúciójához? Ezután "Wavelet transzformáció" lesz a neve. A waveleteknek ez a definíciója nem helyes, de hagyományosan sok csapatban a wavelet-elemzés egy tetszőleges minta keresése egy képen konvolúció segítségével ennek a mintának a modelljével. A wavelet elemzésben klasszikus függvényeket használnak. Ide tartozik a Haar wavelet, a Morlet wavelet, a mexican hat wavelet stb. A Haar primitívek, amelyekről több korábbi cikkem is volt (,), a kétdimenziós tér ilyen függvényeihez kapcsolódnak.

A fentiekben 4 példa található a klasszikus waveletekre. 3 dimenziós Haar wavelet, 2 dimenziós Meyer wavelet, Mexican Hat wavelet, Daubechies wavelet. A hullámok kiterjesztett értelmezésének jó példája a vakítás megtalálásának problémája a szemben, amelynél a hullám maga a tükröződés:

A klasszikus waveleteket általában képtömörítésre vagy képosztályozásra használják (lásd alább).

Korreláció

A waveletek ilyen szabad értelmezése után a magam részéről érdemes megemlíteni az alapjául szolgáló tényleges összefüggést. Ez egy nélkülözhetetlen eszköz a képek szűréséhez. Egy klasszikus alkalmazás egy videofolyamot korrelál az eltolódások vagy optikai áramlások megtalálása érdekében. A legegyszerűbb eltolásérzékelő bizonyos értelemben különbségkorrelátor is. Ahol a képek nem korreláltak, ott mozgás volt.

Szűrési funkciók

A szűrők egy érdekes osztálya a függvényszűrés. Ezek tisztán matematikai szűrők, amelyek lehetővé teszik az egyszerű felismerést matematikai függvény a képen (egyenes, parabola, kör). Egy felhalmozó kép készül, amelyben az eredeti kép minden pontjára rajzolódik az azt generáló függvénykészlet. A legklasszikusabb transzformáció a Hough transzformáció vonalakhoz. Ebben a transzformációban minden (x;y) ponthoz megrajzoljuk az y=ax+b egyenes azon (a;b) ponthalmazát, amelyre az egyenlőség igaz. Gyönyörű képeket kapsz:

(az első plusz annak jár, aki először talál fogást a képen és ezen a definíción és elmagyarázza, a második plusz annak jár, aki elsőként mondja ki az itt láthatót)
A Hough-transzformáció lehetővé teszi bármely paraméterezhető függvény megtalálását. Például körök. Létezik egy módosított transzformáció, amely lehetővé teszi bármilyen alakzat keresését. A matematikusok rettenetesen szeretik ezt az átalakulást. De a képek feldolgozása során sajnos nem mindig működik. Nagyon lassú működési sebesség, nagyon nagy érzékenység a binarizálás minőségére. Ideális helyzetekben is inkább beértem más módszerekkel.
Az egyenes vonalak Hough-transzformációjának analógja a Radon-transzformáció. Az FFT-n keresztül számítják ki, ami teljesítménynövekedést ad olyan helyzetben, amikor sok pont van. Ezenkívül nem binarizált képre is alkalmazható.

Kontúrszűrés

A szűrők külön osztálya a szegély- és kontúrszűrés. A körvonalak nagyon hasznosak, ha egy képpel való munka helyett a képen lévő objektumokkal akarunk dolgozni. Ha egy tárgy meglehetősen összetett, de jól megkülönböztethető, akkor gyakran az egyetlen módja a vele való munka a körvonalainak kiemelése. Létezik egész sor algoritmusok, amelyek megoldják a kontúrok szűrésének problémáját:

Leggyakrabban a Canny-t használják, ami jól működik, és amelynek implementációja OpenCV-ben van (a Sobel is ott van, de rosszabbul keresi a kontúrokat).

Egyéb szűrők

Fentebb olyan szűrők találhatók, amelyek módosításai a problémák 80-90%-ának megoldásában segítenek. De rajtuk kívül vannak ritkább szűrők, amelyeket helyi feladatokban használnak. Több tucat ilyen szűrő létezik, nem sorolom fel mindet. Érdekesek az iteratív szűrők (például egy aktív megjelenési modell), valamint a ridgelet és curvlet transzformációk, amelyek a klasszikus wavelet szűrés és analízis fúziója a radon transzformációs mezőben. A beamlet transzformáció gyönyörűen működik a wavelet transzformáció és a logikai elemzés határán, lehetővé téve a kontúrok kiemelését:

De ezek az átalakítások nagyon specifikusak és ritka feladatokra vannak szabva.

2. rész A szűrési eredmények logikai feldolgozása

A szűrés feldolgozásra alkalmas adathalmazt biztosít. De gyakran nem lehet egyszerűen átvenni és felhasználni ezeket az adatokat feldolgozás nélkül. Ebben a szakaszban számos klasszikus módszer található, amelyek lehetővé teszik, hogy egy képről az objektumok tulajdonságaira vagy magukra az objektumokra lépjen.

Morfológia

A szűrésről a logikára való átmenet véleményem szerint a matematikai morfológia módszerei (, ,). Lényegében ezek a bináris képek növelésének és erodálásának legegyszerűbb műveletei. Ezek a módszerek lehetővé teszik a zaj eltávolítását egy bináris képből a meglévő elemek növelésével vagy csökkentésével. Léteznek matematikai morfológián alapuló kontúralgoritmusok, de általában valamilyen hibrid vagy kombinációs algoritmusokat használnak.

Kontúrelemzés

A határok megszerzésére szolgáló algoritmusokról a szűrésről szóló részben már volt szó. A kapott határvonalak egyszerűen kontúrokká alakulnak. A Canny algoritmus esetében ez automatikusan megtörténik, más algoritmusok esetében további binarizálásra van szükség. Egy bináris algoritmushoz kontúrt kaphat, például a bogár algoritmus segítségével.
A körvonal egy objektum egyedi jellemzője. Ez gyakran lehetővé teszi egy objektum körvonala alapján történő azonosítását. Van egy erős matematikai berendezés, lehetővé téve ezt. Az eszközt kontúrelemzésnek nevezik (,).

Őszintén szólva soha nem tudtam kontúrelemzést alkalmazni valódi problémákat. Túl ideális körülményekre van szükség. Vagy nincs határ, vagy túl sok a zaj. De ha valamit ideális körülmények között kell felismernie, akkor a kontúrelemzés nagyszerű lehetőség. Nagyon gyorsan működik, gyönyörű matematika és tiszta logika.

Különleges pontok

A szinguláris pontok egy objektum egyedi jellemzői, amelyek lehetővé teszik az objektum önmagával vagy hasonló objektumosztályokkal való összehasonlítását. Több tucat módszer létezik az ilyen pontok azonosítására. Néhány módszer kiemeli szinguláris pontok a szomszédos képkockákban, némelyik hosszabb idő elteltével és a világítás változásakor lehetővé teszi speciális pontok megtalálását, amelyek még az objektum elforgatásakor is így maradnak. Kezdjük azokkal a módszerekkel, amelyek lehetővé teszik, hogy speciális pontokat találjunk, amelyek nem olyan stabilak, de gyorsan kiszámíthatók, majd egyre bonyolultabbá válik:
Első osztályú. Speciális pontok, amelyek másodpercek alatt stabilak. Az ilyen pontokat arra használjuk, hogy egy objektumot a szomszédos videokockák között vezessenek, vagy a szomszédos kamerák képeit kombinálják. Ilyen pontok közé tartoznak a kép helyi maximumai, a kép sarkai (a legjobb detektor talán a Charis detektor), pontok, ahol a maximális diszperzió érhető el, bizonyos gradiensek stb.
Másodosztály. Speciális pontok, amelyek stabilak a fényváltozások és az objektum kis mozgása esetén. Az ilyen pontok elsősorban az objektumtípusok betanítására és későbbi osztályozására szolgálnak. Például a gyalogos osztályozó vagy az arcosztályozó egy pontosan ilyen pontokra épített rendszer terméke. A korábban említett hullámok némelyike ilyen pontok alapja lehet. Például: Haar primitívek, kiemelések keresése, egyéb specifikus funkciók keresése. Ezek közé a pontok közé tartoznak azok, amelyeket az iránygradiensek hisztogramja (HOG) módszere talált.
Harmadik osztály. Stabil pontok. Csak két teljes stabilitást biztosító módszerről tudok és azok módosításairól. Ezek a SURF és a SIFT. Lehetővé teszik speciális pontok megtalálását még a kép elforgatásakor is. Az ilyen pontok kiszámítása más módszerekhez képest hosszabb időt vesz igénybe, de elegendő korlátozott idő. Sajnos ezek a módszerek szabadalmaztattak. Bár Oroszországban lehetetlen az algoritmusokat szabadalmaztatni, ezért használja a hazai piacra.

3. rész Képzés

A történet harmadik részét azoknak a módszereknek szentelik, amelyek nem működnek közvetlenül a képpel, de lehetővé teszik a döntések meghozatalát. Alapvetően ezek különböző módszerek gépi tanulásés a döntéshozatal. Nemrég Yandyx kurzust írt erről a témáról a Habron, ott nagyon jó a választék. Itt van a szöveges változatban. A téma komoly tanulmányozásához nagyon ajánlom megtekintésüket. Itt megpróbálok felvázolni több fő módszert, amelyeket kifejezetten a mintafelismerésben használnak.
A helyzetek 80%-ában a felismerési feladatban a tanulás lényege a következő:
Van egy tesztminta, amely több objektumosztályt tartalmaz. Legyen ez egy személy jelenléte/hiánya a fotón. Minden képhez tartozik egy sor olyan funkció, amelyet valamilyen funkció kiemelt, legyen az Haar, HOG, SURF vagy valamilyen wavelet. A tanuló algoritmusnak fel kell építenie egy modellt, hogy tudjon elemezni egy új képet, és eldöntse, melyik objektum van a képen.
Hogyan történik? A tesztképek mindegyike egy pont a jellemzőtérben. Koordinátái a képen látható egyes jellemzők súlya. Legyenek a jeleink: „Szem jelenléte”, „Orr jelenléte”, „Két kéz jelenléte”, „Fül jelenléte”, stb... Mindezeket a jeleket kiemeljük meglévő detektoraink segítségével, amelyekre képzett. az emberhez hasonló testrészek Egy ilyen térben tartózkodó személy számára a helyes pont az lenne. A majomnak, pont a lónak. Az osztályozó betanítása egy példaminta segítségével történik. De nem minden fényképen látszottak kezek, másoknak nem volt szeme, a harmadikon pedig a majomnak emberi orra volt egy osztályozó hiba miatt. Egy képzett emberi osztályozó automatikusan felosztja a jellemzőteret oly módon, hogy azt mondja: ha az első jellemző a 0,5 tartományba esik Az osztályozó célja lényegében az, hogy a jellemzőtérben olyan területeket rajzoljon meg, amelyek az osztályozás tárgyaira jellemzőek. Így fog kinézni a válasz szekvenciális közelítése az egyik osztályozó (AdaBoost) esetén a kétdimenziós térben:

Nagyon sok osztályozó létezik. Mindegyik jobban működik egy adott feladatban. Egy adott feladathoz osztályozó kiválasztása nagyrészt művészet. Íme néhány gyönyörű kép a témában.

Egyszerű tok, egydimenziós elválasztás

Nézzünk egy példát az osztályozás legegyszerűbb esetére, amikor a jellemzőtér egydimenziós, és 2 osztályt kell elkülönítenünk. A helyzet gyakrabban fordul elő, mint gondolná: például amikor két jelet kell megkülönböztetnie, vagy egy mintát kell összehasonlítania egy mintával. Nézzünk egy képzési mintát. Ez olyan képet hoz létre, ahol az X-tengely a hasonlóság mértéke, az Y-tengely pedig az ilyen mértékkel rendelkező események száma. Ha a kívánt objektum hasonló önmagához, akkor bal oldali Gauss-t kapunk. Ha nem úgy néz ki, az a megfelelő. Az X=0,4 érték elválasztja a mintákat úgy, hogy egy rossz döntés minimálisra csökkenti a rossz döntés valószínűségét. Az ilyen elválasztó keresése az osztályozás feladata.

Egy kis megjegyzés. Az a kritérium, amely minimalizálja a hibát, nem mindig lesz optimális. A következő grafikon egy valós íriszfelismerő rendszer grafikonja. Egy ilyen rendszer esetében a kritériumot úgy választják meg, hogy minimálisra csökkentsék annak a valószínűségét, hogy illetéktelen személy hamisan belépjen a létesítménybe. Ezt a valószínűséget „I. típusú hibának”, „téves riasztás valószínűségének”, „téves pozitívnak” nevezik. Az angol nyelvű szakirodalomban „False Access Rate”.
) Az AdaBusta az egyik leggyakoribb osztályozó. Például a Haar-kaszkád épül rá. Általában akkor használják, ha bináris osztályozásra van szükség, de semmi sem akadályozza meg a nagyobb számú osztály képzését.
SVM ( , , , ) Az egyik legerősebb osztályozó, amely számos megvalósítással rendelkezik. Alapvetően azokon a tanulási feladatokon, amelyekkel találkoztam, az Adabustához hasonlóan működött. Elég gyorsnak számít, de a kiképzése nehezebb, mint az Adabustáé, és a megfelelő mag kiválasztását igényli.

Vannak neurális hálózatok és regresszió is. De ahhoz, hogy röviden osztályozzuk őket, és megmutassuk, miben különböznek egymástól, ennél sokkal hosszabb cikkre van szükségünk.
________________________________________________
Remélem, tudtam gyors áttekintést adni az alkalmazott módszerekről anélkül, hogy a matematikában és a leírásban merülnék el. Talán ez segít valakinek. Bár persze a cikk hiányos és egy szó sem esik a sztereó képekkel való munkáról, sem a Kalman-szűrős LSM-ről, sem az adaptív Bayes megközelítésről.
Ha tetszik a cikk, megpróbálok egy második részt is készíteni, néhány példával a meglévő ImageRecognition problémák megoldására.

És végül

Mit kell olvasni?
1) Valaha nagyon tetszett B. Yane „Digitális képfeldolgozás” című könyve, amely egyszerűen és világosan van megírva, ugyanakkor szinte minden matematika adott. Jó a meglévő módszerek megismerésére.
2) A műfaj klasszikusa R. Gonzalez, R. Woods „Digital Image Processing”. Valamiért nehezebb volt számomra, mint az első. Sokkal kevesebb matematika, de több módszer és kép.
3) „Képfeldolgozás és -elemzés számítógépes látásproblémákban” - a fizika és technológia egyik tanszékén oktatott kurzus alapján íródott. Nagyon sok módszer létezik, és ezek részletes leírása. De véleményem szerint a könyvnek van két nagy hátránya: a könyv erősen a hozzá tartozó szoftvercsomagra koncentrál, túl gyakran egy egyszerű módszer leírása válik matematikai dzsungellé, ahonnan nehéz kijutni; levezetni a módszer szerkezeti diagramját. De a szerzők egy kényelmes webhelyet készítettek, ahol szinte az összes tartalom megjelenik - wiki.technicalvision.ru Címkék hozzáadása

Stb. olyan objektumok, amelyeket bizonyos tulajdonságok és jellemzők véges halmaza jellemez. Az ilyen problémák gyakran megoldódnak, például amikor áthaladnak egy utcán a közlekedési lámpák után. A világító lámpa színének felismerése és a KRESZ szabályainak ismerete lehetővé teszi, hogy megfelelő döntést hozzon arról, hogy átmehet-e vagy sem az utcán.

Az ilyen felismerés szükségessége számos területen felmerül – a katonai ügyektől és a biztonsági rendszerektől az analóg jelek digitalizálásáig.

A képfelismerés problémája kiemelkedő jelentőséget kapott az információs túlterheltség körülményei között, amikor az ember nem képes megbirkózni a hozzá érkező üzenetek lineáris-szekvenciális megértésével, aminek következtében agya átvált az egyidejű észlelés és gondolkodás módjára, ami jellemző az ilyen felismerésre.

Nem véletlen tehát, hogy a képfelismerés problémája az interdiszciplináris kutatások területén találta magát – többek között a mesterséges intelligencia létrehozásával, a technikai rendszerek létrehozásával kapcsolatban. képfelismerés egyre több figyelmet vonz.

Enciklopédiai YouTube

1 / 4

Bevezetés a mintafelismerésbe

R.V. Shamin. 6. sz. előadás Hopfield és Hamming hálózatok mintafelismerési problémákban

[DDSh-2016]: Neurális hálózatok és modern számítógépes látás

9. előadás Exponenciális simítás. Mintafelismerés: k-legközelebbi szomszéd módszer

Feliratok

Útmutató a mintafelismeréshez

Két fő irányvonal különíthető el:

Az élőlények felismerési képességeinek tanulmányozása, magyarázata, modellezése;
Elméleti és módszerek kidolgozása egyedi problémák megoldására tervezett eszközök alkalmazásához.

A probléma hivatalos megfogalmazása

A mintafelismerés a forrásadatok egy bizonyos osztályhoz való hozzárendelése azáltal, hogy a lényegtelen adatok teljes tömegéből azonosítja azokat a jelentős jellemzőket, amelyek ezeket az adatokat jellemzik.

A felismerési problémák felállításakor a matematikai nyelvezetre törekednek, arra törekednek, hogy - ellentétben a mesterséges neurális hálózatok elméletével, ahol a kísérletes eredményszerzés az alap - a kísérletet logikai érveléssel és matematikai bizonyítással helyettesítsék.

A mintafelismerési probléma klasszikus megfogalmazása: Adott objektumok halmaza. Osztályozást kell végezni velük kapcsolatban. Egy halmazt osztályoknak nevezett részhalmazok képviselnek. Adott: információk az osztályokról, a teljes halmaz leírása, és egy olyan objektum információinak leírása, amelynek egy adott osztályhoz való tartozása ismeretlen. Az osztályokról és az objektum leírásáról rendelkezésre álló információk alapján meg kell határozni, hogy az objektum melyik osztályba tartozik.

A monokróm képeket leggyakrabban mintafelismerési problémákban veszik figyelembe, ami lehetővé teszi, hogy a képet egy síkon lévő függvényként tekintsük. Ha figyelembe vesszük a síkon beállított pontot T (\displaystyle T), ahol a funkció a kép minden pontján kifejezi jellemzőit - fényerő, átlátszóság, optikai sűrűség, akkor az ilyen funkció a kép formális rögzítése.

Az összes lehetséges függvény halmaza f (x, y) (\displaystyle f(x,y)) a felszínen T (\displaystyle T)- van egy modell az összes kép halmazáról X (\displaystyle X). A koncepció bemutatása hasonlóságok a képek között fel lehet tenni egy felismerési feladatot. Az ilyen kijelentés konkrét típusa erősen függ a felismerés későbbi szakaszaitól egy adott megközelítés szerint.

Néhány grafikus mintafelismerő módszer

Az optikai mintafelismeréshez használhatja azt a módszert, hogy egy objektum nézetén keresztül keressen különböző szögekben, léptékekben, eltolásokban stb. A betűk esetében a betűtípus, a betűtípus tulajdonságai stb.

A második megközelítés az objektum körvonalának megtalálása és tulajdonságainak (összeköthetőség, sarkok jelenléte stb.) vizsgálata.

Egy másik megközelítés a mesterséges neurális hálózatok használata. Ez a módszer vagy nagyszámú példát igényel a felismerési feladatra (helyes válaszokkal), vagy egy speciális neurális hálózati struktúrát, amely figyelembe veszi ennek a feladatnak a sajátosságait.

Perceptron mint mintafelismerő módszer

F. Rosenblatt, bemutatva az agymodell fogalmát, melynek feladata, hogy bemutassa, hogyan keletkezhetnek pszichológiai jelenségek egy bizonyos fizikai rendszerben, amelynek szerkezete és funkcionális tulajdonságai ismertek, ismertette a legegyszerűbb diszkriminációs kísérleteket. Ezek a kísérletek teljes mértékben a mintafelismerési módszerekhez kapcsolódnak, de abban különböznek egymástól, hogy a megoldási algoritmus nem determinisztikus.

A legegyszerűbb kísérlet, amelyből egy bizonyos rendszerről pszichológiailag jelentős információhoz juthatunk, abban rejlik, hogy a modell két különböző ingerrel jelenik meg, és ezekre különböző módon kell reagálnia. Egy ilyen kísérlet célja lehet annak vizsgálata, hogy a kísérletet végző személy beavatkozása hiányában a rendszer spontán megkülönbözteti őket, vagy fordítva, a kényszerű diszkrimináció tanulmányozása, amelyben a kísérletvezető arra törekszik, hogy a rendszert arra tanítsa, elvégzi a szükséges osztályozást.

A perceptron tréninggel végzett kísérlet során általában egy bizonyos képsort mutatnak be, amely tartalmazza az egyes megkülönböztetendő osztályok képviselőit. A memóriamódosítás valamely szabálya szerint a válasz helyes megválasztása megerősödik. Ezután a perceptront egy kontrollingerrel mutatják be, és meghatározzák, hogy egy adott osztályba tartozó ingerekre milyen valószínűséggel kapja meg a megfelelő választ. Attól függően, hogy a kiválasztott vezérlőinger egybeesik-e vagy nem esik egybe az edzéssorozatban használt képek egyikével, különböző eredményeket kapunk:

Ha a kontrollinger nem esik egybe az edzésingerek egyikével sem, akkor a kísérlet nem csak a tiszta diszkrimináció, hanem elemeket is tartalmaz általánosítások.
Ha egy kontrollinger egy bizonyos szenzoros elemkészletet gerjeszt, amely teljesen különbözik azoktól az elemektől, amelyek az előzőleg azonos osztályba tartozó ingerek hatására aktiválódtak, akkor a kísérlet egy tanulmány. tiszta általánosítás.

A perceptronok nem rendelkeznek a tiszta általánosítás képességével, de elég kielégítően működnek a diszkriminációs kísérletekben, különösen akkor, ha a kontrollinger elég szorosan illeszkedik valamelyik képhez, amellyel a perceptron már felhalmozott némi tapasztalatot.

Példák mintafelismerési problémákra

Vonalkód felismerés
Rendszám felismerés
Képfelismerés
A földkéreg azon helyi területeinek felismerése, amelyekben a lerakódások találhatók

Előző cikk: Mekkora a fénysebesség Következő cikk: A szénelemek jellemzői és kémiai tulajdonságai

Információelmélet és mintafelismerés. Mintafelismerés