Otthon » 2 Elosztás » Miért van szükség klaszterelemzésre? Klaszterelemzési módszerek

Miért van szükség klaszterelemzésre? Klaszterelemzési módszerek

A klaszterezés – a hasonló objektumok csoportokba foglalása – az egyik alapvető feladat az adatelemzés és az adatbányászat területén. A felhasználási területek listája széles: képszegmentálás, marketing, csalás elleni védelem, előrejelzés, szövegelemzés és még sok más. Jelenleg a klaszterezés gyakran az adatelemzés első lépése. A hasonló csoportok azonosítása után más módszereket alkalmaznak, és minden csoporthoz külön modellt építenek.

A klaszterezési probléma ilyen vagy olyan formában olyan tudományos területeken fogalmazódott meg, mint a statisztika, a mintafelismerés, az optimalizálás és a gépi tanulás. Innen ered a klaszter fogalom szinonimáinak sokfélesége - osztály, taxon, kondenzáció.

Jelenleg az objektumcsoportok klaszterekbe való felosztására szolgáló módszerek száma meglehetősen nagy - több tucat algoritmus és még több módosításuk. A klaszterezési algoritmusok azonban az adatbányászatban való alkalmazásuk szempontjából érdekeltek.

Klaszterezés az adatbányászatban

A klaszterezés az adatbányászatban akkor válik értékessé, ha az adatelemzés és a teljes analitikai megoldás felépítésének egyik szakaszaként működik. Az elemzőnek gyakran könnyebb azonosítani a hasonló objektumok csoportjait, tanulmányozni azok jellemzőit, és minden csoporthoz külön modellt építeni, mint létrehozni egyet. általános modell minden adaton. Ezt a technikát folyamatosan alkalmazzák a marketingben, azonosítják az ügyfélcsoportokat, vásárlókat, termékeket, és mindegyikhez külön stratégiát dolgoznak ki.

Az adatbányászati ​​technológia által talált adatok nagyon gyakran a következő fontos jellemzőkkel rendelkeznek:

  • nagy dimenziójú (több ezer mező) és nagy mennyiségű (több százezer és millió rekord) adatbázistáblák és adattárházak (ultra nagy adatbázisok);
  • adatkészletek tartalmazzák nagy számban számszerűÉs kategorikus attribútumokat.

Az objektumok összes attribútuma vagy jellemzője a következőre oszlik numerikus(numerikus) és kategorikus(kategorikus). A numerikus attribútumok azok, amelyek a térben rendezhetők, míg a kategorikus attribútumok azok, amelyek nem rendezhetők. Például az „életkor” attribútum numerikus, a „szín” pedig kategorikus. Az értékek attribútumokhoz való hozzárendelése a kiválasztott skálatípussal végzett mérések során történik, és ez általánosságban külön feladat.

A legtöbb klaszterező algoritmus magában foglalja az objektumok egymással való összehasonlítását a közelség (hasonlóság) valamilyen mértéke alapján. A közelség mértéke olyan mennyiség, amelynek van határa, és az objektumok közelségének növekedésével növekszik. A hasonlósági mértékeket speciális szabályok szerint „találják ki”, a konkrét mértékek kiválasztása a feladattól, valamint a mérési skálától függ. Nagyon gyakran használják a numerikus attribútumok közelségének mértékére. Euklideszi távolság, a következő képlettel számítjuk ki:

$$D (x, y)=\sqrt(\sum_(i)((x-y)^2))$$

Az adatbányászatban nagy mennyiségű adat feldolgozásának szükségessége olyan követelmények megfogalmazásához vezetett, amelyeket lehetőség szerint a fürtözési algoritmusnak teljesítenie kell. Nézzük őket:

  1. Az adatbázison való áthaladások lehetséges minimális száma;
  2. Korlátozott mennyiségű számítógépes RAM-ban végzett munka;
  3. Az algoritmus megszakítható és a közbenső eredmények menthetők a későbbi számítások folytatásához;
  4. Az algoritmusnak akkor kell működnie, ha az objektumok az adatbázisból csak egyirányú kurzor módban (azaz rekord navigációs módban) hívhatók le.

Egy olyan algoritmust hívunk meg, amely kielégíti ezeket a követelményeket (különösen a másodikat). méretezhető(skálázható). Méretezhetőség – legfontosabb tulajdonsága algoritmus, számítási összetettségétől és szoftveres megvalósításától függően. Van egy terjedelmesebb meghatározás is. Egy algoritmust skálázhatónak nevezünk, ha állandó RAM-kapacitás mellett működési ideje lineárisan növekszik az adatbázisban lévő rekordok számának növekedésével.

De nem mindig szükséges rendkívül nagy mennyiségű adatot feldolgozni. Ezért a klaszteranalízis elméletének kialakulásának hajnalán gyakorlatilag nem fordítottak figyelmet az algoritmusok skálázhatóságára. Feltételezték, hogy minden feldolgozott adat elfér a RAM-ban, a fő hangsúly mindig a klaszterezés minőségének javításán volt. Nehéz megtalálni az egyensúlyt a kiváló minőségű klaszterezés és a méretezhetőség között. Ezért ideális esetben az adatbányászati ​​​​arzenálnak tartalmaznia kell hatékony mikrotömb-fürtözési algoritmusokat és olyanokat is, amelyek méretezhetők nagy adatbázisok feldolgozásához.

Klaszterezési algoritmusok: ragyogás és squalor

Így már lehetséges a klaszteralgoritmusok osztályozása méretezhetőÉs nem skálázható. Folytassuk az osztályozást.

A klaszterekre bontás módszere alapján az algoritmusok kétféleek: hierarchikus és nem hierarchikus. A klasszikus hierarchikus algoritmusok csak kategorikus attribútumokkal működnek, ha egy teljes fa beágyazott fürtökből épül fel. Itt általánosak a klaszterhierarchiák felépítésének agglomeratív módszerei – ezek magukban foglalják a kezdeti objektumok szekvenciális kombinálását és a klaszterek számának megfelelő csökkentését. A hierarchikus algoritmusok viszonylag jó minőségű klaszterezést biztosítanak, és nem szükséges előre megadni a klaszterek számát. Legtöbbjük O(n 2) komplexitású.

A nem hierarchikus algoritmusok egy bizonyos célfüggvény optimalizálásán alapulnak, amely meghatározza egy objektumhalmaz optimális, bizonyos értelemben vett klaszterekbe történő particionálását. Ebben a csoportban népszerűek a k-közép család algoritmusai (k-means, fuzzy c-means, Gustafson-Kessel), amelyek az objektum koordinátáinak a kívánt klaszterek középpontjaitól való súlyozott eltéréseinek négyzetösszegét használják célként. funkció. A klasztereket gömb vagy ellipszoid alakzatok után kell keresni. A kanonikus megvalósításban a függvény a Lagrange-szorzó módszer alapján minimalizálva van, és csak a legközelebbi lokális minimumot teszi lehetővé. Globális keresési módszerek használata ( genetikai algoritmusok) jelentősen megnöveli az algoritmus számítási bonyolultságát.

A nem távolságon alapuló, nem hierarchikus algoritmusok közül kiemelendő az EM (Expectation-Maximization) algoritmus. Ebben a klaszterközpontok helyett azt feltételezzük, hogy minden klaszterhez létezik egy valószínűségi sűrűségfüggvény a megfelelő matematikai várható értékkel és szórással. Eloszlások keverékében (2. ábra) keresést végeznek a paramétereikre (átlag és szórások) a maximális valószínűség elve szerint. Az EM algoritmus egy ilyen keresés megvalósítása. A probléma az, hogy az algoritmus elindítása előtt egy hipotézist állítanak fel arról, hogy milyen típusú eloszlásokat nehéz megbecsülni a teljes adathalmazban.

Egy másik probléma akkor merül fel, ha egy objektum attribútumai keverednek - az egyik rész numerikus, a másik része kategorikus típusú. Tegyük fel például, hogy ki kell számítania a távolságot a következő attribútumokkal (életkor, nem, végzettség) rendelkező objektumok között:

(1) (23, férj, magasabb)
(2) (25, nők, átlagos).

Az első attribútum numerikus, a többi kategorikus. Ha egy klasszikus hierarchikus algoritmust akarunk használni bármilyen hasonlósági mértékkel, akkor az Age attribútumot valamilyen módon hitelteleníteni kell. Például így:

(1) (30 év alatti, férj, felsőfokú végzettség)
(2) (30 éves korig, nő, középfokú).

Ebben az esetben bizonyos információkat elveszítünk. Ha euklideszi térben határozzuk meg a távolságot, akkor kategorikus attribútumokkal kapcsolatos kérdések merülnek fel. Nyilvánvaló, hogy a „férj neme” és a „feleség neme” közötti távolság 0, mert ennek a jellemzőnek az értékei az elnevezési skálán vannak. Az „Iskolázottság” attribútum pedig mind a névskálán, mind a sorrendi skálán mérhető, az egyes értékekhez bizonyos pontokat rendelve. Melyik opciót válasszam? De mi van akkor, ha a kategorikus tulajdonságok fontosabbak, mint a numerikusak? E problémák megoldása az elemző vállára esik. Ezenkívül a k-közép algoritmus és hasonlók használatakor nehézségek merülnek fel a kategorikus attribútumok klaszterközpontjainak megértésében és a klaszterek számának a priori beállításában.

A nem hierarchikus távolságalapú algoritmusokban a célfüggvény optimalizálására szolgáló algoritmus iteratív jellegű, és minden iterációnál ki kell számítani az objektumok közötti távolságok mátrixát. Nagy számú objektum esetén ez nem hatékony, és komoly számítási erőforrásokat igényel. A k-means algoritmus 1. iterációjának számítási bonyolultságát O(kmn) becsüljük, ahol k,m,n a klaszterek, attribútumok és objektumok száma. De sok iteráció lehet! Sok áthaladást kell végrehajtania az adatkészleten.

Maga a megközelítés a gömb vagy ellipszoid alakú klaszterek keresésével számos hátránnyal rendelkezik a k-középben. A megközelítés akkor működik jól, ha a térben lévő adatok kompakt csomókat alkotnak, amelyek egyértelműen megkülönböztethetők egymástól. És ha az adatok egymásba vannak ágyazva, akkor a k-közép algoritmusok egyike sem fog megbirkózni ilyen feladattal. Ezenkívül az algoritmus nem működik jól abban az esetben, ha az egyik klaszter sokkal nagyobb, mint a többi, és közel vannak egymáshoz - egy nagy klaszter „felosztásának” hatása lép fel (3. ábra).

A klaszterezési algoritmusok fejlesztésével kapcsolatos kutatások azonban folyamatban vannak. A k-means algoritmus érdekes kiterjesztéseit fejlesztették ki kategorikus attribútumok (k-módok) és vegyes attribútumok (k-prototípusok) kezelésére. Például a k-prototypes az attribútum típusától függően eltérően számítja ki az objektumok közötti távolságokat.

A skálázható fürtözési algoritmusok piacán az a csata, hogy csökkentsék az adathalmaz minden egyes „extra” áthaladását, miközben az algoritmus fut. A k-means és az EM skálázható analógjait (skálázható k-közép és skálázható EM), skálázható agglomerációs módszereket (CURE, CACTUS) fejlesztettek ki. Ezek a modern algoritmusok csak néhány (két-tíz) adatbázis-vizsgálatot igényelnek a végső klaszterezés megszerzése előtt.

A méretezhető algoritmusok megszerzése az elhagyás gondolatán alapul helyi optimalizálási funkciók. Páros összehasonlítás objektumok egymás között a k-means algoritmusban nem más, mint lokális optimalizálás, mert Minden iterációnál ki kell számítani a távolságot a klaszter középpontja és az egyes objektumok között. Ez magas számítási költségekhez vezet. Beállításkor globális optimalizálási funkciók hozzáadva új pont nem igényel klasztert nagy számítástechnika: a régi érték, az új objektum és az ún klaszter jellemzői(klaszterek jellemzői). Egy adott klaszter jellemzői egy adott algoritmustól függenek. Így jelent meg a BIRCH, LargeItem, CLOPE és még sok más algoritmus.

Így nincs egyetlen univerzális klaszterezési algoritmus. Bármilyen algoritmus használatakor fontos megérteni annak előnyeit és hátrányait, figyelembe kell venni azon adatok természetét, amelyekkel a legjobban működik, és skálázhatóságát.

Irodalom

  • Bradley, P., Fayyad, U., Reina, C. Scaling Clustering Algorithms to Large Databases, Proc. 4. Int"l Conf. Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Kalifornia, 1998.
  • Zhang, T., Ramakrishnan, R., Livny, M. Birch: An Efficient Data Clustering Method for Large Databases, Proc. ACM SIGMOD nemzetközi konf. Adatkezelés, ACM Press, New York, 1996.
  • Paul S. Bradley, Usama M. Fayyad, Cory A. Reina Scaling EM (Expectation-Maximization) Clustering to Large Databases, Microsoft Research, 1999.
  • Z. Huang. Nagy adathalmazok klaszterezése vegyes numerikus és kategorikus értékekkel. Az első csendes-óceáni-ázsiai konferencián a tudásfeltárásról és adatbányászatról, 1997.
  • Milenova, B., Campos, M. Nagy adatbázisok klaszterezése numerikus és névleges értékekkel ortogonális vetületekkel, Oracle Data Mining Technologies, 2002.
  • Z. Huang. Gyors fürtözési algoritmus nagyon nagy kategóriájú adatkészletek fürtözésére az adatbányászatban. Research Issues on Data Mining and KDD, 1997.
  • Wang, K., Xu, C.. Liu, B. Tranzakciók klaszterezése nagy tételek használatával. In Proc. CIKM'99, Kansas, Missouri, 1999.
  • Guha S., Rastogi R., Shim K. CURE: An Efficient Clustering Algorithm for Large Databases, Proc. ACM SIGMOD nemzetközi konf. Adatkezelés, ACM Press, New York, 1998.
  • Ganti V., Gerhke J., Ramakrishan R. CACTUS – Kategorikus adatok csoportosítása összefoglalók segítségével. In Proc KDD'99, 1999.
  • J. Bilmes. Kíméletes oktatóanyag az EM algoritmusról és annak alkalmazásáról a Gauss-keverék és a rejtett Markov-modellek paraméterbecslésére, Tech. Jelentés ICSI-TR-97-021, 1997.
  • Adatbányászat ultranagy adatbázisokban / V. Ganti, J. Gerke, R. Ramakrishnan // Open Systems, No. 9-10, 1999.
  • Barseghyan et al. Adatelemzési módszerek és modellek: OLAP és adatbányászat. – Szentpétervár, 2004.

Klaszterezési feladatok az adatbányászatban

Bevezetés a klaszteranalízisbe

A klaszteranalízis teljes széleskörű alkalmazási köréből, például a társadalmi-gazdasági előrejelzés problémái.

A társadalmi-gazdasági jelenségek elemzése és előrejelzése során a kutató gyakran találkozik leírásuk sokdimenziós voltával. Ez történik a piaci szegmentáció problémájának megoldása során, az elégséges országok tipológiájának felépítésével nagy számban mutatók, az egyes áruk piaci viszonyok előrejelzése, a gazdasági depresszió és sok más probléma tanulmányozása és előrejelzése.

Mód többváltozós elemzés- a leghatékonyabb kvantitatív eszköz a nagyszámú jellemzővel leírható társadalmi-gazdasági folyamatok tanulmányozására. Ezek közé tartozik a klaszteranalízis, a taxonómia, a mintafelismerés és a faktoranalízis.

Klaszterelemzés legvilágosabban tükrözi a többváltozós elemzés jellemzőit az osztályozásban, a faktoranalízisben - az összefüggések vizsgálatában.

A klaszterelemzési megközelítést a szakirodalom néha numerikus taxonómiának, numerikus osztályozásnak, öntanuló felismerésnek stb.

A klaszterelemzés a szociológiában találta meg első alkalmazását. A klaszteranalízis név innen származik angol szó klaszter – csomó, felhalmozódás. 1939-ben először Trion kutató határozta meg és írta le a klaszteranalízis tárgyát. A klaszteranalízis fő célja, hogy a vizsgált objektumok és jellemzők halmazát megfelelő értelemben homogének csoportokra vagy klaszterekre ossza fel. Ez azt jelenti, hogy megoldódik az adatok osztályozásának és a benne lévő megfelelő struktúra azonosításának problémája. A klaszterelemzési módszerek nagyon sokféle esetben alkalmazhatók, még olyan esetekben is, amikor egyszerű csoportosításról beszélünk, amelyben minden a mennyiségi hasonlóságon alapuló csoportképzésen múlik.

A klaszteranalízis nagy előnye az a tény, hogy lehetővé teszi az objektumok felosztását nem egy paraméter szerint, hanem a jellemzők egész halmaza szerint. Ezen túlmenően, a klaszteranalízis a legtöbb matematikai és statisztikai módszertől eltérően nem ír elő semmilyen korlátozást a vizsgált objektumok típusára vonatkozóan, és lehetővé teszi számos, szinte tetszőleges természetű kiindulási adat figyelembevételét. Ennek nagy jelentősége van például a piaci helyzet előrejelzésében, amikor a mutatók változatos formájúak, megnehezítve a hagyományos ökonometriai megközelítések alkalmazását.

A klaszterelemzés lehetővé teszi meglehetősen nagy mennyiségű információ figyelembevételét, valamint a nagy mennyiségű társadalmi-gazdasági információ drámai csökkentését és tömörítését, így azok kompaktak és vizuálisak lesznek.

A klaszterelemzés a gazdasági fejlődést jellemző idősorok (például általános gazdasági és árukörülmények) kapcsán fontos. Itt kiemelheti azokat az időszakokat, amikor a megfelelő mutatók értékei meglehetősen közel voltak, és meghatározhatja az idősorok azon csoportjait, amelyek dinamikája a leginkább hasonló.

A klaszteranalízis iteratívan is használható. Ebben az esetben a kutatást addig folytatják, amíg el nem érik a kívánt eredményeket. Sőt, itt minden ciklus olyan információkkal szolgálhat, amelyek nagymértékben megváltoztathatják a klaszteranalízis további alkalmazásának irányát és megközelítéseit. Ez a folyamat visszacsatolási rendszerként ábrázolható.

A társadalmi-gazdasági előrejelzési feladatokban nagyon ígéretes a klaszteranalízis más kvantitatív módszerekkel (például regressziós elemzéssel) való kombinálása.

Csakúgy, mint bármely más módszer , a klaszterelemzésnek vannak bizonyos hátrányai és korlátai: Különösen a fürtök száma függ a kiválasztott partíciós feltételektől. Az eredeti adattömb tömörebb formájára való redukálásakor bizonyos torzulások léphetnek fel, és el is veszhetnek. személyiségjegyek egyedi objektumok jellemzőit a klaszterparaméterek általánosított értékeivel helyettesítve. Az objektumok osztályozásakor nagyon gyakran figyelmen kívül hagyják annak lehetőségét, hogy a vizsgált halmazban nincsenek klaszterértékek.

A klaszteranalízis során a következőket veszik figyelembe:

a) a kiválasztott jellemzők elvileg lehetővé teszik a kívánt klaszterekre való felosztást;

b) a mértékegységek (skála) helyesen vannak megválasztva.

A méretarány megválasztása nagy szerepet játszik. Általában az adatokat úgy normalizálják, hogy kivonják az átlagot és elosztják a szórással, így a szórás eggyel egyenlő.

1. Klaszterezési probléma

A klaszterezés feladata a halmazban található adatok alapján X, osztott sok tárgyat G-on m (m– egész) klaszterek (részhalmazok) Q 1Q2, …,Qm, így minden objektum Gj a partíció egy és csak egy részhalmazához tartozott, és hogy az ugyanabba a klaszterbe tartozó objektumok hasonlóak, míg a különböző klaszterekhez tartozó objektumok eltérőek.

Például hadd G n országot foglal magában, amelyek bármelyikét az egy főre jutó GNP jellemzi ( F 1), szám M autó 1 ezer főre ( F 2), egy főre jutó villamosenergia-fogyasztás ( F 3), egy főre jutó acélfogyasztás ( F 4), stb. Majd X 1(mérési vektor) az első ország meghatározott jellemzőinek halmaza, X 2- a másodikra, X 3 a harmadikra ​​stb. A cél az országok fejlettségi szint szerinti kategorizálása.

A klaszterelemzési probléma megoldása olyan partíciók, amelyek megfelelnek valamilyen optimalitási feltételnek. Ez a kritérium lehet valamilyen funkcionális, amely kifejezi a különböző partíciók és csoportosítások kívánatossági szintjét, amelyet célfüggvénynek nevezünk. Például a négyzetes eltérések csoporton belüli összege tekinthető célfüggvénynek:

Ahol x j- a méréseket jelenti j-th objektum.

A klaszteranalízis problémájának megoldásához szükséges a hasonlóság és heterogenitás fogalmának meghatározása.

Egyértelmű, hogy tárgyak én -th és j-edik egy klaszterbe esne, ha a pontok közötti távolság (távolság). X énÉs X j elég kicsi lenne, és különböző klaszterekbe esne, ha ez a távolság elég nagy. Így az objektumok egy vagy több klaszterébe való esést a távolság fogalma határozza meg X én És X j-tól Er, Hol Er - r-dimenziós euklideszi tér. Nem negatív függvény d(X én, X j) távolságfüggvénynek (metrikának) nevezzük, ha:

A) d(Xi, X j)³ 0 , mindenkinek X én És X j-tól Er

b) d(Xi, X j) = 0, akkor és csak akkor X én= X j

V) d(Xi , X j) = d(X j , X én)

G) d(Xi, X j)£ d(Xi, X k) + d(X k, X j), ahol X j; Xi és X k- bármely három vektorból Er.

Jelentése d(Xi, X j) Mert XénÉs X j közötti távolságnak nevezzük XénÉs X jés egyenlő a távolsággal GénÉs Gj a kiválasztott jellemzőknek megfelelően (F 1, F 2, F 3, ..., F p).

A leggyakrabban használt távolságfüggvények a következők:

1. Euklideszi távolság d 2 (Xi , X j) =

2. l 1- norma d 1 (Xi , X j) =

3. A Supremum a norma d ¥ (Xi , X j) = sup

k = 1, 2, ..., p

4. l p- norma d p ​​(Xi , X j) =

Az euklideszi metrika a legnépszerűbb. Az l 1 metrikát a legkönnyebb kiszámítani. A legfőbb norma könnyen kiszámítható, és rendelési eljárást is tartalmaz, a l p- a norma az 1, 2, 3, távolságok függvényeit fedi le.

Legyen n méret X 1, X 2,..., Xn méretű adatmátrixként mutatjuk be p´ n:

Ezután a vektorpárok közötti távolság d(X én, X j) szimmetrikus távolságmátrixként ábrázolható:

A távolság ellentéte a tárgyak közötti hasonlóság fogalma G én . És Gj. Nem negatív valós függvény S(X én; X j) = S én j hasonlósági mértéknek nevezzük, ha:

1) 0 £ S(X i, X j)< 1 X-nek én ¹ X j

2) S( Xén, Xén) = 1

3) S( Xén, Xj) = S(Xj, X én )

A hasonlósági mérőszámok párjait hasonlósági mátrixba lehet kombinálni:

Méret Sij hasonlósági együtthatónak nevezzük.

2. Klaszterezési módszerek

Manapság meglehetősen sok klaszterelemzési módszer létezik. Nézzünk meg ezek közül néhányat (az alább megadott módszereket általában minimális variancia módszereknek nevezik).

Hadd X- megfigyelési mátrix: X = (X 1, X 2,..., X u)és az közötti euklideszi távolság négyzete X én És X j képlet határozza meg:

1) Teljes linkmódszer.

Ennek a módszernek az a lényege, hogy két azonos csoportba (klaszterbe) tartozó objektum hasonlósági együtthatója kisebb, mint egy bizonyos küszöbérték S. Euklideszi távolság szempontjából d ez azt jelenti, hogy a klaszter két pontja (objektuma) közötti távolság nem haladhat meg egy bizonyos küszöbértéketh. Így, hmeghatározza a klasztert alkotó részhalmaz legnagyobb megengedett átmérőjét.

2) Maximális helyi távolság módszer.

Minden objektumot egypontos klaszterként kezel. Az objektumok csoportosítása a következő szabály szerint történik: két klasztert kombinálunk, ha az egyik klaszter pontjai és a másik pontjai közötti maximális távolság minimális. Az eljárás abból áll n-1 lépések, és az eredmény olyan partíciók, amelyek egybeesnek az előző módszer összes lehetséges partíciójával bármely küszöbérték esetén.

3) A Word módszere.

Ebben a módszerben a négyzetes eltérések csoporton belüli összegét használjuk célfüggvényként, ami nem más, mint az egyes pontok (objektumok) közötti távolságok négyzetes összege és az ezt az objektumot tartalmazó klaszter átlaga. Minden lépésben két klaszter kombinálódik, amelyek a célfüggvény minimális növekedéséhez vezetnek, azaz. csoporton belüli négyzetösszeg. Ez a módszer szorosan elhelyezkedő klaszterek kombinálására irányul.

4) Centroid módszer.

A két klaszter közötti távolság az euklideszi távolság a klaszterek középpontjai (átlagai) között:

d 2ij =(` X –` Y) T (` X –` Y) A klaszterezés szakaszosan történik mindegyiknél n–1 lépések két klasztert egyesítenek GÉs p amelynek minimális érték d 2 ij Ha n 1 sokkal több n 2, akkor két klaszter egyesülési központja közel van egymáshoz, és a klaszterek összevonásánál gyakorlatilag figyelmen kívül hagyjuk a második klaszter jellemzőit. Ezt a módszert néha súlyozott csoportos módszernek is nevezik.

3. Szekvenciális klaszterezési algoritmus

Mérlegeljük Ι = (Ι 1, Ι 2, … Ιn) mint sok klaszter (I 1), (I 2),…(Ιn). Válasszunk közülük kettőt, pl. Ι én És Ι j, amelyek bizonyos értelemben közelebb állnak egymáshoz, és egy klaszterbe fogjuk egyesíteni őket. Az új klaszterkészlet, amely már n -1 klaszterből áll, a következő lesz:

(I 1), (I 2)…, én, Ι j ), …, (Ιn).

A folyamatot megismételve egymást követő klaszterhalmazokat kapunk, amelyek a következőkből állnak (n -2), (n -3), (n-4) stb. klaszterek. Az eljárás végén kaphat egy klasztert, amely n objektumból áll és egybeesik az eredeti halmazzal Ι = (Ι 1, Ι 2, … Ιn).

A távolság mértékeként az euklideszi metrika négyzetét vesszük d én j 2. és számítsuk ki a mátrixot D = (di j 2), ahol dén j 2- közötti távolság négyzete

Ι énés Ι j:

….

Ι n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d2n2

….

d 3n 2

….

….

….

Ι n

Legyen a távolság között Ι énÉs Ι j minimális lesz:

d én j 2 = min (d i j 2, i¹ j). A segítséggel formálunk Ι énÉs Ι j új klaszter

én, i j). Építsünk egy újat ((n-1), (n-1)) távolságmátrix

(I, i j)

….

Ι n

(Ι i; Ι j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d 2 n

….

d 3n

(n -2) Az utolsó mátrix sorait a rendszer az előzőből veszi, és az első sort újra kiszámítja. A számításokat minimálisra csökkenthetjük, ha ki tudjuk fejezni d i j 2 k ,k = 1, 2,…,n; (k¹ én¹ j) az eredeti mátrix elemein keresztül.

Kezdetben a távolságot csak az egyelemes klaszterek között határozzuk meg, de meg kell határozni a több elemet tartalmazó klaszterek közötti távolságokat is. Meg lehet csinálni különféle módokon, és a választott módszertől függően eltérő tulajdonságú klaszterelemzési algoritmusokat kapunk. Megadhatja például a fürtök közötti távolságot i+jés néhány más klaszter k, egyenlő a klaszterek közötti távolságok számtani átlagával énÉs kés klaszterek jÉs k:

d i+j,k = ½ (d i k + d j k).

De azt is meg lehet határozni d i+j,k e két távolság minimumaként:

d i+j,k = min (d i k + d j k).

Így leírjuk az agglomeratív hierarchikus algoritmus első lépését. A további lépések hasonlóak.

Az algoritmusok meglehetősen széles osztálya érhető el, ha a következő általános képletet használjuk a távolságok újraszámításához:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Ahol

A(w) = , had ik£ djk

A(w) = , had ik> djk

B(w) = , had én k £ djk

B (w) =, Had ik> djk

Ahol n iÉs n j- a klaszterek elemeinek száma énÉs j, A w– egy szabad paraméter, amelynek kiválasztását egy adott algoritmus határozza meg. Például mikor w = 1 megkapjuk az úgynevezett algoritmust közepes kapcsolat", amelyre a távolságok újraszámításának képlete a következő:

d i+j,k =

IN ebben az esetben a két klaszter távolsága az algoritmus minden lépésében egyenlőnek bizonyul az összes elempár közötti távolságok számtani átlagával úgy, hogy a pár egyik eleme az egyik klaszterhez, a másik a másikhoz tartozik.

A w paraméter vizuális jelentése világossá válik, ha feltesszük w® ¥ . A távolságok újraszámításának képlete a következő:

d i+j,k =min(d én,kdjk)

Ez lesz az úgynevezett „legközelebbi szomszéd” algoritmus, amely lehetővé teszi bármilyen összetett alakú klaszter azonosítását, feltéve, hogy az ilyen klaszterek különböző részeit egymáshoz közeli elemláncok kötik össze. Ebben az esetben az algoritmus minden lépésében két klaszter távolsága megegyezik az ehhez a két klaszterhez tartozó két legközelebbi elem távolságával.

Gyakran feltételezik, hogy a csoportosítandó elemek közötti kezdeti távolságok (különbségek) adottak. Bizonyos problémák esetében ez valóban igaz. Azonban csak az objektumok és azok jellemzői vannak megadva, és ezekre az adatokra épül a távolságmátrix. Attól függően, hogy az objektumok közötti távolságokat vagy az objektumok jellemzői közötti távolságot számítják ki, különböző módszereket alkalmaznak.

Az objektumok klaszteranalízise esetén a különbség leggyakoribb mértéke vagy az euklideszi távolság négyzete.

(Ahol x ih , x jh- értékek h-th jele énés j-th objektumok, és m- jellemzők száma), vagy magát az euklideszi távolságot. Ha az elemekhez különböző súlyok vannak hozzárendelve, akkor ezeket a súlyokat figyelembe lehet venni a távolság kiszámításakor

Néha a távolságot a különbség mértékeként használják, a következő képlettel számítva:

amelyek a következők: "Hamming", "Manhattan" vagy "várostömb" távolság.

Az objektumok jellemzőinek hasonlóságának természetes mértéke sok feladatban a köztük lévő korrelációs együttható

Ahol m i , m j ,dén,d j- a jellemzők átlagos és szórása énÉs j. A jellemzők közötti különbség mértéke lehet az érték 1 - r. Egyes feladatokban a korrelációs együttható előjele jelentéktelen, és csak a mértékegység megválasztásától függ. Ebben az esetben a jellemzők közötti különbség mértékét használjuk ô 1 - r i j ô

4. Klaszterek száma

Nagyon fontos kérdés a szükséges számú klaszter kiválasztásának problémája. Néha eleve kiválaszthat m számú klasztert. Azonban in általános eset ezt a számot a halmaz klaszterekre osztása során határozzuk meg.

A kutatást Fortier és Solomon végezte, és azt találták, hogy a klaszterek számát kell venni a valószínűség eléréséhez a hogy megtalálták a legjobb partíciót. Így a felosztások optimális száma az adott tört függvénye b a legjobb vagy bizonyos értelemben megengedhető partíciók az összes lehetséges partíció halmazában. Minél nagyobb az arány, annál nagyobb a teljes diszperzió b megengedett partíciók. Fortier és Solomon kifejlesztett egy táblázatot, amivel meg lehet találni a szükséges felosztások számát. S(a , b ) attól függően a És b (Ahol a annak a valószínűsége, hogy megtalálják a legjobb partíciót, b - a legjobb partíciók aránya a partíciók teljes számában) Sőt, a heterogenitás mérőszámaként nem a szóródás mértékét, hanem a Holzenger és Harman által bevezetett tagság mértékét használjuk. Értéktáblázat S(a , b ) alább közöljük.

ÉrtéktáblázatS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Gyakran a kombinálás kritériuma (a klaszterek száma) a megfelelő függvény változása. Például az eltérések négyzetes összege:

A csoportosítási folyamatnak itt meg kell felelnie a kritérium értékének szekvenciális minimális növekedésének E. Éles értékugrás jelenléte E a vizsgált sokaságban objektíven létező klaszterek számának jellemzőjeként értelmezhető.

Tehát a klaszterek legjobb számának meghatározásának második módja az objektumok erősen kötött állapotából gyengén kötött állapotba való fázisátmenet által meghatározott ugrások azonosítása.

5. Dendogramok

A távolság- vagy hasonlósági mátrix ábrázolásának legismertebb módszere a dendogram vagy fadiagram ötletén alapul. A dendogram egy szekvenciális klaszterezési folyamat eredményeinek grafikus ábrázolásaként határozható meg, amelyet távolságmátrixban hajtanak végre. Dendogram segítségével grafikusan vagy geometriailag ábrázolhatja a klaszterezési eljárást, feltéve, hogy ez az eljárás csak a távolság- vagy hasonlósági mátrix elemeivel működik.

A dendogramok készítésének számos módja van. A dendogramban az objektumok függőlegesen helyezkednek el a bal oldalon, a klaszterezési eredmények pedig a jobb oldalon. Az új klaszterek szerkezetének megfelelő távolság- vagy hasonlósági értékek a dendogramok tetején vízszintes vonal mentén vannak ábrázolva.

1. ábra

Az 1. ábra egy példát mutat egy dendogramra. Az 1. ábra hat objektum esetének felel meg ( n=6) És kjellemzők (jelek). Objektumok AÉs VEL a legközelebbiek, ezért egy klaszterbe egyesülnek 0,9-es közelségi szinten. ObjektumokDÉs Eösszevonás a 0.8-as szinten. Jelenleg 4 klaszterünk van:

(A, C), (F), ( D, E), ( B) .

Ezután klaszterek jönnek létre (A, C, F) És ( E, D, B) , amely a 0,7 és 0,6 közelségi szinteknek felel meg. Végül az összes objektum egy klaszterbe van csoportosítva 0,5 szinten.

A dendogram típusa a hasonlósági mérték vagy az objektumok és klaszterek közötti távolság megválasztásától és a klaszterezési módszertől függ. A legfontosabb pont a hasonlóság mértékének vagy az objektum és a klaszter közötti távolságmértéknek a megválasztása.

A fürtelemző algoritmusok száma túl nagy. Mindegyik felosztható hierarchikusra és nem hierarchikusra.

A hierarchikus algoritmusok a dendogramok felépítéséhez kapcsolódnak, és a következőkre oszthatók:

a) agglomeratív, amelyet a kezdeti elemek egymás utáni kombinációja és a klaszterek számának megfelelő csökkenése jellemez;

b) osztható (osztható), amelyben a klaszterek száma növekszik, egytől kiindulva, aminek eredményeként hasadó csoportok sorozata jön létre.

A mai klaszterelemző algoritmusok jó szoftveres implementációval rendelkeznek, amely lehetővé teszi a legnagyobb dimenziójú problémák megoldását.

6. Adatok

A klaszteranalízis alkalmazható intervallumadatokra, gyakorisági adatokra és bináris adatokra. Fontos, hogy a változók összehasonlítható skálákon változzanak.

A mértékegységek heterogenitása és az ebből fakadó lehetetlenség a különböző mutatók értékeinek azonos skálán való érvényes kifejezésének lehetetlenségéhez vezet, hogy az objektumok helyzetét tükröző pontok közötti távolságok tulajdonságaik térében függnek egy önkényesen választott skála. A forrásadatok mérésének heterogenitásának kiküszöbölése érdekében minden értéküket előre normalizálják, pl. ezeknek az értékeknek egy bizonyos értékhez viszonyított arányában fejeződnek ki, amely egy adott mutató bizonyos tulajdonságait tükrözi. A klaszteranalízis kezdeti adatainak normalizálása néha úgy történik, hogy a kezdeti értékeket elosztják a megfelelő mutatók szórásával. Egy másik módszer az úgynevezett standardizált hozzájárulás kiszámítása. Úgy is hívják Z-hozzájárulás.

Z -hozzájárulás azt mutatja meg, hogy hány szórás választ el egy adott megfigyelést az átlagtól:

Ahol x i- ennek a megfigyelésnek a jelentése,- átlagos, S– szórás.

Átlag Z-re - a járulékok nullák, a szórása pedig 1.

A szabványosítás lehetővé teszi a különböző eloszlásokból származó megfigyelések összehasonlítását. Ha egy változó eloszlása ​​normális (vagy közel normális), és az átlag és a variancia ismert vagy nagy mintákból becsülhető, akkor Z -A megfigyelési bemenet pontosabb információt nyújt a helyéről.

Megjegyezzük, hogy a szabványosítási módszerek azt jelentik, hogy a vizsgált objektumok hasonlóságának meghatározása szempontjából minden jellemzőt egyenértékűnek ismerünk el. Korábban már megfigyelhető, hogy a közgazdaságtannal kapcsolatban a különböző mutatók egyenértékűségének felismerése nem mindig tűnik indokoltnak. Kívánatos lenne a szabványosítás mellett minden mutatónak olyan súlyt adni, amely tükrözi jelentőségét az objektumok hasonlóságának és különbségének megállapításában.

Ebben a helyzetben az egyes mutatók súlyának meghatározására szolgáló módszert kell alkalmazni - szakértői felmérést. Például az országok gazdasági fejlettségi szint szerinti osztályozásának problémájának megoldása során a fejlett országok problémáival foglalkozó, 40 vezető moszkvai szakértő bevonásával készült felmérés eredményeit használták tízfokú skálán:

a társadalmi-gazdasági fejlődés általános mutatói – 9 pont;

a foglalkoztatott népesség ágazati megoszlásának mutatói – 7 pont;

a bérmunka elterjedtségének mutatói – 6 pont;

a termelőerők humán elemét jellemző mutatók – 6 pont;

az anyagi termelőerők fejlődésének mutatói – 8 pont;

indikátor kormányzati kiadások– 4 pont;

„katonai-gazdasági” mutatók – 3 pont;

szocio-demográfiai mutatók – 4 pont.

A szakértői értékelések viszonylag stabilak voltak.

Szakértői értékelések adnak ismert alapon egy adott indikátorcsoportba tartozó indikátorok fontosságának meghatározására. A mutatók normalizált értékeinek szorzata az átlagos értékelési pontszámnak megfelelő együtthatóval lehetővé teszi az országok többdimenziós térben elfoglalt helyzetét tükröző pontok közötti távolságok kiszámítását, figyelembe véve jellemzőik egyenlőtlen súlyát.

Az ilyen problémák megoldása során gyakran nem egy, hanem két számítást használnak: az elsőt, amelyben az összes jellemzőt egyenértékűnek tekintik, a másodikat, ahol a szakértői értékelések átlagos értékeinek megfelelően különböző súlyokat kapnak.

7. Klaszteranalízis alkalmazása

Nézzük meg a klaszteranalízis néhány alkalmazását.

1. Az országok csoportosítása fejlettségi szint szerint.

65 országot vizsgáltak meg 31 mutató segítségével (egy főre jutó nemzeti jövedelem, az iparban foglalkoztatott lakosság százalékos aránya, egy főre jutó megtakarítások, a foglalkoztatottak százalékos aránya mezőgazdaság százalékban%, átlagos várható élettartam, 1 ezer lakosra jutó gépkocsik száma, 1 millió lakosra jutó fegyveres erők száma, ipar GDP aránya %-ban, mezőgazdaság GDP aránya %-ban stb.)

Ebben a tekintetben minden ország olyan objektumként működik, amelyet 31 mutató bizonyos értékei jellemeznek. Ennek megfelelően 31 dimenziós térben pontokként ábrázolhatók. Az ilyen teret általában a vizsgált objektumok tulajdonságainak terének nevezik. Az e pontok közötti távolság összehasonlítása tükrözi a szóban forgó országok közelségének fokát, egymáshoz való hasonlóságát. A hasonlóság ezen felfogásának társadalmi-gazdasági jelentése azt jelenti, hogy minél hasonlóbbnak tekintik az országokat, minél kisebbek a különbségek ugyanazon mutatók között, amelyekkel leírják őket.

Egy ilyen elemzés első lépése a hasonlósági mátrixban figyelembe vett nemzetgazdaságpár azonosítása, amelyek közötti távolság a legkisebb. Nyilván ezek lesznek a leginkább hasonló, hasonló gazdaságok. A következő tárgyalásban mindkét országot egyetlen csoportnak, egyetlen klaszternek tekintjük. Ennek megfelelően az eredeti mátrixot úgy alakítják át, hogy elemei nem 65, hanem 64 objektum - 63 gazdaság és egy újonnan átalakult klaszter - összes lehetséges párja közötti távolságokká váljanak - a két leginkább hasonló ország feltételes uniója. Az eredeti hasonlósági mátrixból az egyesülésben szereplő országpár és az összes többi közötti távolságnak megfelelő sorokat és oszlopokat eltávolítjuk, de hozzáadunk egy sort és oszlopot, amely tartalmazza az egyesülés során kapott klaszter és a többi ország távolságát.

Feltételezzük, hogy az újonnan kapott klaszter és az országok közötti távolság egyenlő az utóbbi és az új klasztert alkotó két ország közötti távolságok átlagával. Vagyis a kombinált országcsoportot egy egésznek tekintjük, amelynek jellemzői megközelítőleg megegyeznek a benne szereplő országok jellemzőinek átlagával.

Az elemzés második lépése az így transzformált mátrix 64 sorból és oszlopból való figyelembe vétele. Ismét azonosítunk egy gazdaságpárt, amelyek közötti távolság a legkevésbé jelentős, és ezeket, csakúgy, mint az első esetben, összehozzuk. Ebben az esetben a legkisebb távolság lehet egy országpár, vagy bármely ország és az előző szakaszban elért országok uniója között.

A további eljárások hasonlóak a fent leírtakhoz: minden szakaszban a mátrixot úgy alakítják át, hogy az előző szakaszban összehozott objektumok (országpárok vagy társulások - klaszterek) távolságát tartalmazó két oszlop és két sor kimaradjon belőle. ; a kizárt sorok és oszlopok helyére egy oszlop és sor kerül, amely tartalmazza az új összekapcsolások és a fennmaradó objektumok távolságait; akkor a legközelebbi objektumpárt azonosítjuk a módosított mátrixban. Az elemzés addig folytatódik, amíg a mátrix teljesen ki nem merül (vagyis amíg az összes országot egyetlen egésszé egyesítik). A mátrixanalízis általánosított eredményei a fent leírtakhoz hasonló hasonlósági fa (dendogram) formájában is bemutathatók, azzal a különbséggel, hogy az általunk vizsgált mind a 65 ország relatív közelségét tükröző hasonlósági fa sok. bonyolultabb, mint az a diagram, amelyen csak öt nemzetgazdaság jelenik meg. Ez a fa az összehasonlított objektumok száma szerint 65 szintet tartalmaz. Az első (alsó) szint az egyes országoknak külön-külön megfelelő pontokat tartalmaz. E két pont összekapcsolása a második szinten egy olyan országpárt mutat, amelyek a nemzetgazdaság általános típusát tekintve a legközelebb állnak egymáshoz. A harmadik szinten az országok következő hasonló páronkénti arányát jegyezzük fel (amint már említettük, ez az arány vagy egy új országpárt, vagy egy új országot és egy már azonosított hasonló országpárt tartalmazhat). És így tovább az utolsó szintig, amelyen az összes vizsgált ország egyetlen halmazként működik.

A klaszteranalízis alkalmazása eredményeként a következő öt országcsoportot kaptuk:

· Afro-ázsiai csoport;

· latin-ázsiai csoport;

· latin-mediterrán csoport;

· fejlett kapitalista országok csoportja (az USA nélkül)

· USA

Az itt használt 31 mutatón túli új mutatók bevezetése, illetve másokkal való helyettesítése természetesen az országok osztályozási eredményeinek változásához vezet.

2. Az országok felosztása a kultúra hasonlóságának kritériuma szerint.

Mint ismeretes, a marketingnek figyelembe kell vennie az országok kultúráját (szokások, hagyományok stb.).

A klaszterezés révén a következő országcsoportokat kaptuk:

· arab;

· Közel-Kelet;

· skandináv;

· német nyelvű;

· angolul beszélő;

· román stílusú európai;

· Latin-amerikai;

· Távol-Kelet.

3. A cink piaci viszonyok előrejelzésének kidolgozása.

A klaszteranalízis fontos szerepet játszik az árupiaci gazdasági és matematikai modell redukciójának szakaszában, elősegítve a számítási eljárások megkönnyítését és egyszerűsítését, biztosítva a kapott eredmények nagyobb tömörségét a szükséges pontosság megőrzése mellett. A klaszteranalízis alkalmazása lehetővé teszi a piaci indikátorok teljes kezdeti halmazának megfelelő kritériumok szerinti csoportokra (klaszterekre) történő felosztását, ezáltal megkönnyítve a legreprezentatívabb mutatók kiválasztását.

A klaszteranalízist széles körben használják a piaci feltételek modellezésére. A gyakorlatban az előrejelzési problémák többsége a klaszteranalízis használatán alapul.

Például a cinkpiaci előrejelzés elkészítésének feladata.

Kezdetben a globális cinkpiac 30 fő mutatóját választották ki:

X 1 - alkalommal

Gyártási adatok:

X 2 - a világon

X 4 – Európa

X 5 – Kanada

X 6 - Japán

X 7 – Ausztrália

Fogyasztási mutatók:

X 8 - a világon

X 10 – Európa

X 11 – Kanada

X 12 – Japán

X 13 – Ausztrália

A gyártók cinktartalékai:

X 14 - a világon

X 16 – Európa

X 17 – egyéb országok

A fogyasztók cinktartalékai:

X 18 - az USA-ban

X 19 - Angliában

X 10 - Japánban

Cinkércek és koncentrátumok importja (ezer tonna)

X 21 - az USA-ban

X 22 - Japánban

X 23 - Németországban

Cinkércek és koncentrátumok exportja (ezer tonna)

X 24 - Kanadából

X 25 - Ausztráliából

Cink import (ezer tonna)

X 26 - az USA-ban

X 27 - Angliába

X 28 - Németországban

Cink export (ezer tonna)

X 29 - Kanadából

X 30 - Ausztráliából

A specifikus függőségek meghatározásához a korrelációs és regressziós analízis apparátust alkalmaztuk. Az összefüggések elemzése páros korrelációs együtthatók mátrixa alapján történt. Itt elfogadtuk a vizsgált piaci mutatók normális eloszlására vonatkozó hipotézist. Nyilvánvaló, hogy nem az r ij az egyetlen lehetséges indikátora a használt mutatók közötti kapcsolatnak. A klaszteranalízis alkalmazásának szükségessége ebben a problémában annak tudható be, hogy a cink árát befolyásoló mutatók száma igen nagy. A következő okok miatt van szükség ezek csökkentésére:

a) az összes változóra vonatkozó teljes körű statisztikai adatok hiánya;

b) a számítási eljárások éles bonyodalma, amikor nagyszámú változót viszünk be a modellbe;

c) a regresszióelemzési módszerek optimális alkalmazása megköveteli, hogy a megfigyelt értékek száma legalább 6-8-szor haladja meg a változók számát;

d) statisztikailag független változók használatának vágya a modellben stb.

Nagyon nehéz egy ilyen elemzést közvetlenül elvégezni a korrelációs együtthatók viszonylag nehézkes mátrixán. A klaszteranalízis segítségével a piaci változók teljes halmaza csoportokra bontható oly módon, hogy az egyes klaszterek elemei egymással erősen korrelálnak, a különböző csoportok képviselőit pedig gyenge korreláció jellemzi.

A probléma megoldására az egyik agglomeratív hierarchikus klaszterelemzési algoritmust alkalmaztuk. Minden lépésnél eggyel csökken a klaszterek száma a két csoport bizonyos értelemben optimális kombinációja miatt. Az összevonás kritériuma a megfelelő függvény megváltoztatása. Ilyen függvényként a következő képletekkel kiszámított négyzetes eltérések összegeit használtuk:

(j = 1, 2, …,m),

Ahol j- klaszterszám, n- a klaszter elemeinek száma.

r ij-pár korrelációs együttható.

Így a csoportosítási folyamatnak meg kell felelnie a kritérium értékének szekvenciális minimális növekedésének E.

Az első szakaszban a kezdeti adattömb egy-egy elemet tartalmazó klaszterekből álló halmazként jelenik meg. A csoportosítási folyamat egy ilyen klaszterpár egyesülésével kezdődik, ami a négyzetes eltérések összegének minimális növekedéséhez vezet. Ehhez meg kell becsülni az eltérések négyzetes összegének értékét minden lehetséges esetében klasztertársulások. A következő szakaszban az eltérések négyzetes összegeinek értékeit veszik figyelembe klaszterek stb. Ez a folyamat egy lépésben leáll. Ehhez figyelni kell az eltérések négyzetes összegének értékét. Növekvő értékek sorozatát tekintve dinamikájában (egy vagy több) ugrás érzékelhető, amely a vizsgált populációban „objektíven” létező csoportok számának jellemzőjeként értelmezhető. Az adott példában ugrások történtek, amikor a klaszterek száma 7 és 5 volt. A csoportok számát nem szabad tovább csökkenteni, mert ez a modell minőségének csökkenéséhez vezet. A klaszterek megszerzése után kiválasztásra kerülnek azok a változók, amelyek gazdasági értelemben a legfontosabbak és a piaci helyzet kiválasztott ismérvéhez a leginkább kapcsolódnak - jelen esetben a London Metal Exchange cink jegyzéseivel. Ez a megközelítés lehetővé teszi, hogy megőrizzük az eredeti piaci indikátorkészletben szereplő információk jelentős részét.

Üdvözlet!

Szakdolgozatomban áttekintettem és összehasonlító elemzés adatklaszterező algoritmusok. Arra gondoltam, hogy a már összegyűjtött és feldolgozott anyag érdekes és hasznos lehet valakinek.
Sashaeve a „Clustering: k-means and c-means algoritmusok” című cikkében beszélt a klaszterezésről. Részben megismétlem Sándor szavait, és részben kiegészítem. Szintén a cikk végén olvashatják az érdeklődők az anyagokat az irodalomjegyzékben található hivatkozásokon keresztül.

Igyekeztem a száraz „diplomás” előadásmódot is publicisztikusabbra hozni.

A klaszterezés fogalma

A klaszterezés (vagy fürtelemzés) az objektumok halmazának fürtöknek nevezett csoportokra osztásának feladata. Minden csoporton belül legyenek „hasonló” objektumok, és a különböző csoportokból származó tárgyak legyenek a lehető legkülönbözőbbek. A fő különbség a klaszterezés és az osztályozás között az, hogy a csoportok listája nincs egyértelműen meghatározva, és az algoritmus működése során kerül meghatározásra.

A klaszteranalízis alkalmazása általában a következő lépésekből áll:

  1. Objektumminta kiválasztása fürtözéshez.
  2. Változókészlet meghatározása, amely alapján a mintában lévő objektumok értékelésre kerülnek. Ha szükséges, normalizálja a változók értékeit.
  3. Az objektumok közötti hasonlósági mérési értékek kiszámítása.
  4. A klaszteranalízis módszer alkalmazása hasonló objektumok (klaszterek) csoportjainak létrehozására.
  5. Elemzési eredmények bemutatása.
Az eredmények beérkezése és elemzése után lehetőség van a kiválasztott metrika és klaszterezési módszer módosítására az optimális eredmény eléréséig.

Távolságmérés

Tehát hogyan határozzuk meg a tárgyak „hasonlóságát”? Először minden objektumhoz létre kell hoznia egy jellemzővektort - általában ez egy halmaz számértékek például egy személy magassága és súlya. Vannak azonban olyan algoritmusok is, amelyek minőségi (ún. kategorikus) jellemzőkkel dolgoznak.

Miután meghatároztuk a jellemzővektort, elvégezhető a normalizálás úgy, hogy minden komponens egyformán járuljon hozzá a „távolság” kiszámításához. A normalizálási folyamat során minden érték egy bizonyos tartományba kerül, például [-1, -1] vagy .

Végül minden egyes tárgypár esetében megmérik a köztük lévő „távolságot” - a hasonlóság mértékét. Számos mérőszám létezik, íme csak a főbbek:

A mérőszám kiválasztása teljes mértékben a kutatóra tartozik, mivel a klaszterezési eredmények jelentősen eltérhetnek különböző mértékek alkalmazásakor.

Algoritmusok osztályozása

Saját magam számára a klaszterező algoritmusok két fő osztályozását azonosítottam.
  1. Hierarchikus és lapos.
    A hierarchikus algoritmusok (más néven taxonómiai algoritmusok) a minta nem csak egy partícióját építik fel diszjunkt klaszterekké, hanem egy beágyazott partíciók rendszerét. Hogy. Ennek eredményeként egy fürtfát kapunk, amelynek gyökere a teljes minta, a levelek pedig a legkisebb fürtök.
    A lapos algoritmusok az objektumok egy partícióját fürtökbe építik fel.
  2. Tiszta és homályos.
    Az egyértelmű (vagy nem átfedő) algoritmusok minden mintaobjektumhoz fürtszámot rendelnek, azaz. minden objektum csak egy klaszterhez tartozik. A fuzzy (vagy metsző) algoritmusok minden objektumhoz hozzárendelnek egy valódi értékek halmazát, amelyek megmutatják az objektum és a klaszterek közötti kapcsolat mértékét. Azok. minden objektum bizonyos valószínűséggel minden klaszterhez tartozik.

Klaszterek összevonása

Hierarchikus algoritmusok alkalmazása esetén felvetődik a kérdés, hogyan lehet a klasztereket egymással kombinálni, hogyan kell kiszámítani a köztük lévő „távolságokat”. Számos mérőszám létezik:
  1. Egyetlen link (legközelebbi szomszéd távolságok)
    Ebben a módszerben a két klaszter közötti távolságot a különböző klaszterekben lévő két legközelebbi objektum (legközelebbi szomszéd) távolsága határozza meg. Az így létrejövő klaszterek hajlamosak láncokat alkotni.
  2. Teljes kapcsolat (a legtávolabbi szomszédok távolsága)
    Ebben a módszerben a klaszterek közötti távolságot a különböző klaszterekben lévő két objektum (azaz a legtávolabbi szomszédok) közötti legnagyobb távolság határozza meg. Ez a módszer általában nagyon jól működik, ha az objektumok külön csoportokból származnak. Ha a klaszterek hosszúkás alakúak, vagy természetes típusuk „lánc”, akkor ez a módszer nem megfelelő.
  3. Súlyozatlan páronkénti átlag
    Ebben a módszerben a két különböző klaszter közötti távolságot a bennük lévő összes objektumpár közötti átlagos távolságként számítjuk ki. A módszer akkor hatékony, ha az objektumok különböző csoportokat alkotnak, de ugyanolyan jól működik kiterjesztett („lánc” típusú) klaszterek esetén is.
  4. Súlyozott páronkénti átlag
    A módszer megegyezik a súlyozatlan páronkénti átlag módszerrel, azzal a különbséggel, hogy a megfelelő klaszterek méretét (vagyis a bennük lévő objektumok számát) használjuk súlyozási tényezőként a számításoknál. Ezért ezt a módszert akkor kell használni, ha egyenlőtlen klaszterméretek várhatók.
  5. Súlyozatlan centroid módszer
    Ebben a módszerben a két klaszter közötti távolságot a súlypontjaik közötti távolságként határozzuk meg.
  6. Súlyozott centroid módszer (medián)
    Ez a módszer megegyezik az előzővel, kivéve, hogy a számítás súlyokat használ a klaszterméretek közötti különbségek figyelembevételére. Ezért, ha a klaszterméretekben jelentős különbségek vannak vagy gyaníthatók, ez a módszer előnyösebb, mint az előző.

Algoritmusok áttekintése

Hierarchikus klaszterezési algoritmusok
A hierarchikus klaszterező algoritmusok között két fő típus létezik: alulról felfelé és felülről lefelé haladó algoritmusok. A felülről lefelé irányuló algoritmusok felülről lefelé irányuló elven működnek: kezdetben minden objektum egy klaszterbe kerül, amelyet aztán egyre kisebb klaszterekre osztanak fel. Elterjedtebbek az alulról felfelé építkező algoritmusok, amelyek azzal kezdődnek, hogy minden objektumot külön klaszterbe helyeznek, majd a klasztereket egyre nagyobbakká kombinálják, amíg a mintában lévő összes objektum egyetlen klaszterbe kerül. Ily módon beágyazott partíciók rendszere épül fel. Az ilyen algoritmusok eredményeit általában fa - dendrogram - formájában mutatják be. Egy ilyen fa klasszikus példája az állatok és növények osztályozása.

A klaszterek közötti távolság kiszámításához mindenki leggyakrabban két távolságot használ: egyetlen linket vagy egy teljes kapcsolatot (lásd a klaszterek közötti távolságmértékek áttekintését).

A hierarchikus algoritmusok hátránya a teljes partíciók rendszere, amely a megoldandó probléma kontextusában szükségtelen lehet.

Kvadratikus hibaalgoritmusok
A klaszterezési probléma felfogható az objektumok optimális csoportosításának felépítéseként. Ebben az esetben az optimalitás úgy definiálható, mint a particionálás négyzetes középhibájának minimalizálásának követelménye:

Ahol c j- a klaszter „tömegközéppontja”. j(egy adott klaszter átlagos jellemzőivel rendelkező pont).

A kvadratikus hibaalgoritmusok a lapos algoritmusok egy fajtája. Ebben a kategóriában a leggyakoribb algoritmus a k-közép módszer. Ez az algoritmus adott számú, egymástól a lehető legtávolabb elhelyezkedő klasztert épít fel. Az algoritmus munkája több szakaszra oszlik:

  1. Véletlenszerűen válassza ki k pontok, amelyek a klaszterek kezdeti „tömegközéppontjai”.
  2. Rendeljen minden objektumot a legközelebbi „tömegközépponttal” rendelkező klaszterhez.
  3. Számítsa újra a klaszterek „tömegközéppontjait” az aktuális összetételük szerint!
  4. Ha az algoritmus leállítási feltétele nem teljesül, térjen vissza a 2. lépéshez.
Az algoritmus leállításának kritériumaként általában az átlagos négyzetes hiba minimális változását választják. Lehetőség van az algoritmus leállítására is, ha a 2. lépésben nem voltak olyan objektumok, amelyek fürtről fürtre kerültek.

A hátrányokhoz ennek az algoritmusnak Ez magában foglalhatja a felosztandó fürtök számának megadását.

Fuzzy algoritmusok
A legnépszerűbb fuzzy klaszterezési algoritmus a c-means algoritmus. Ez a k-közép módszer módosítása. Az algoritmus lépései:

Ez az algoritmus nem biztos, hogy megfelelő, ha a klaszterek száma előre nem ismert, vagy ha minden objektumot egyértelműen egy klaszterhez kell hozzárendelni.
Gráfelméleten alapuló algoritmusok
Az ilyen algoritmusok lényege, hogy az objektumok egy részét gráf formájában ábrázolják G=(V, E), amelynek csúcsai objektumoknak felelnek meg, és éleinek súlya megegyezik az objektumok közötti „távolsággal”. A gráfklaszterezési algoritmusok előnye az áttekinthetőség, a viszonylag egyszerű megvalósítás, valamint a geometriai megfontolások alapján történő különféle fejlesztések bevezetésének lehetősége. A fő algoritmusok az összekapcsolt komponensek azonosítására szolgáló algoritmus, a minimális feszítőfa felépítésére szolgáló algoritmus és a rétegenkénti klaszterezési algoritmus.
Algoritmus a csatlakoztatott komponensek azonosítására
A csatlakoztatott komponensek azonosítására szolgáló algoritmusban meg van adva a bemeneti paraméter Rés a gráfban minden él, amelynél nagyobb a „távolság”, törlésre kerül R. Csak a legközelebbi tárgypárok maradnak kapcsolatban. Az algoritmus lényege egy ilyen érték kiválasztása R, amely azon „távolságok” tartományába esik, amelyeknél a gráf több összefüggő komponensre „szétbomlik”. Az így kapott komponensek klaszterek.

Paraméter kiválasztásához RÁltalában a páronkénti távolságok eloszlásának hisztogramját készítik. Az adatok jól meghatározott klaszterstruktúrájával rendelkező feladatoknál a hisztogramnak két csúcsa lesz – az egyik a klaszteren belüli távolságoknak, a második a fürtök közötti távolságoknak felel meg. Paraméter R a csúcsok közötti minimális zónából van kiválasztva. Ugyanakkor meglehetősen nehéz szabályozni a klaszterek számát távolsági küszöb segítségével.

Minimális feszítőfa algoritmus
A minimális feszítőfa algoritmus először egy minimális feszítőfát készít egy gráfon, majd sorban eltávolítja a legnagyobb súlyú éleket. Az ábra a kilenc objektumra kapott minimális feszítőfát mutatja.

Egy 6 egység hosszúságú CD feliratú hivatkozás eltávolításával (szélével maximális távolság), két klasztert kapunk: (A, B, C) és (D, E, F, G, H, I). A második klaszter később további két fürtre osztható az EF él eltávolításával, amelynek hossza 4,5 egység.

Rétegről rétegre klaszterezés
A rétegenkénti klaszterezési algoritmus azon alapul, hogy az objektumok (csúcsok) közötti távolságok bizonyos szintjén összekapcsolt gráfkomponenseket azonosítanak. A távolság szintjét a távolsági küszöb határozza meg c. Például ha az objektumok közötti távolság , Azt .

A rétegről rétegre klaszterező algoritmus a gráf részgráfjainak sorozatát állítja elő G, amelyek a klaszterek közötti hierarchikus kapcsolatokat tükrözik:

,

Ahol G t = (V, E t)- szintgrafikon t-vel,
,
t-vel– t-edik távolsági küszöb,
m – a hierarchia szintek száma,
G 0 = (V, o), o a gráfélek üres halmaza t 0 = 1,
G m = G, azaz objektumok gráfja távolsági korlátozások nélkül (a gráf éleinek hossza), mivel t m = 1.

A távolsági küszöbök megváltoztatásával ( s 0, …, s m), ahol 0 = 0-tól < 1-től < …< a m= 1, akkor szabályozható a kapott klaszterek hierarchiájának mélysége. Így a rétegről rétegre klaszterező algoritmus képes az adatok lapos és hierarchikus partíciójának létrehozására is.

Algoritmusok összehasonlítása

Algoritmusok számítási bonyolultsága

Algoritmus-összehasonlító táblázat
Klaszterezési algoritmus Klaszter alakú Adatbevitel Eredmények
Hierarchikus ingyenes Klaszterek száma vagy távolsági küszöbérték a hierarchia csonkolásához Bináris fürtfa
k-át jelenti Hiperszféra Klaszterek száma Klaszterközpontok
c- jelent Hiperszféra Klaszterek száma, elmosódottság foka Klaszterközpontok, tagsági mátrix
A csatlakoztatott alkatrészek kiválasztása ingyenes Távolság küszöb R
Minimálisan átívelő fa ingyenes Klaszterek száma vagy távolsági küszöb az élek eltávolításához Klaszterek faszerkezete
Rétegről rétegre klaszterezés ingyenes A távolsági küszöbök sorrendje Különböző hierarchiaszintű klaszterek fastruktúrája

Egy kicsit az alkalmazásról

Munkám során az egyes területeket hierarchikus struktúrákból (fákból) kellett kiválasztanom. Azok. lényegében az eredeti fát több kisebb fára kellett vágni. Mivel az irányított fa a gráfok speciális esete, a gráfelméletre épülő algoritmusok természetes illeszkedést jelentenek.

A teljesen összefüggő gráfokkal ellentétben egy irányított fában nem minden csúcs kapcsolódik élekkel, és teljes mennyiségélek n–1, ahol n a csúcsok száma. Azok. a fa csomópontjaival kapcsolatban leegyszerűsödik az összekapcsolt komponensek azonosítására szolgáló algoritmus működése, mivel tetszőleges számú él eltávolításával a fa összefüggő komponensekre (egyedi fákra) „törődik”. A minimális feszítőfa algoritmus ebben az esetben egybeesik az összekapcsolt komponensek kiválasztásának algoritmusával - a leghosszabb élek eltávolításával az eredeti fa több fára oszlik. Ebben az esetben nyilvánvaló, hogy maga a minimális fedőfa megalkotásának fázisa kimarad.

Más algoritmusok alkalmazása esetén külön figyelembe kellene venni az objektumok közötti kapcsolatok jelenlétét, ami bonyolítja az algoritmust.

Külön szeretném elmondani, hogy a legjobb eredmény eléréséhez kísérletezni kell a távolságmértékek kiválasztásával, és néha még az algoritmust is módosítani kell. Nincs egyetlen megoldás.

, közigazgatás, filológia, antropológia, marketing, szociológia, geológia és más tudományok. Az alkalmazás egyetemessége azonban számos összeférhetetlen kifejezés, módszer és megközelítés megjelenéséhez vezetett, ami megnehezíti a klaszteranalízis egyértelmű használatát és következetes értelmezését.

Enciklopédiai YouTube

  • 1 / 5

    A klaszterelemzés a következő fő feladatokat látja el:

    • Tipológia vagy osztályozás kidolgozása.
    • Az objektumok csoportosítására szolgáló hasznos fogalmi sémák feltárása.
    • Hipotézisek generálása adatfeltárás alapján.
    • Hipotézisvizsgálat vagy kutatás annak megállapítására, hogy az így vagy úgy azonosított típusok (csoportok) valóban jelen vannak-e a rendelkezésre álló adatokban.

    Függetlenül a vizsgálat tárgyától, a klaszteranalízis használata a következő lépésekből áll:

    • Minta kiválasztása klaszterezéshez. Ebből az következik, hogy célszerű csak a mennyiségi adatokat klaszterezni.
    • Annak a változókészletnek a meghatározása, amely alapján a mintában lévő objektumok értékelésre kerülnek, azaz a jellemzőteret.
    • Az objektumok közötti hasonlóság (vagy különbség) adott mértékének kiszámítása.
    • A fürtelemzési módszer használata hasonló objektumok csoportjainak létrehozásához.
    • A fürtmegoldás eredményeinek megbízhatóságának ellenőrzése.

    Az adatokkal szemben támasztott két alapvető követelmény leírása található - a homogenitás és a teljesség. A homogenitás megköveteli, hogy az összes klaszterezett entitás azonos természetű legyen, és hasonló jellemzőkkel írja le. Ha a klaszteranalízist faktoranalízis előzi meg, akkor a mintát nem kell „javítani” - a megadott követelményeket maga a faktormodellezési eljárás automatikusan teljesíti (van még egy előnye - z-szabványosítás nélkül negatív következményei mintavételhez; ha közvetlenül klaszteranalízisre végezzük, az a csoportok felosztásának egyértelműségének csökkenésével járhat). IN egyébként a mintát módosítani kell.

    A klaszterezési problémák tipológiája

    Bemeneti típusok

    IN modern tudomány A bemeneti adatok feldolgozására többféle algoritmust használnak. Elemzés az objektumok jellemzői alapján történő összehasonlításával (leggyakrabban a biológiai tudományok) hívják K- elemzés típusa, jellemzők összehasonlítása esetén objektumok alapján - R- az elemzés típusa. Vannak kísérletek hibrid típusú elemzések alkalmazására (pl. RQ-elemzés), de ez a módszertan még nincs megfelelően kidolgozva.

    A klaszterezés céljai

    • Adatok megértése a klaszterstruktúra azonosításával. A minta hasonló objektumok csoportjaira bontása lehetővé teszi a további adatfeldolgozás és döntéshozatal egyszerűsítését azáltal, hogy minden klaszterre eltérő elemzési módszert alkalmazunk (az „oszd meg és uralkodj” stratégia).
    • Adattömörítés. Ha az eredeti minta túl nagy, akkor csökkentheti azt, így minden klaszterből egy-egy tipikus képviselő marad.
    • Újdonságfelismerés. A rendszer azonosítja azokat az atipikus objektumokat, amelyek nem kapcsolhatók egyik fürthöz sem.

    Az első esetben a klaszterek számát próbálják csökkenteni. A második esetben fontosabb az egyes klasztereken belüli objektumok nagyfokú hasonlóságának biztosítása, és bármennyi klaszter lehet. A harmadik esetben az egyedi objektumok a legérdekesebbek, amelyek egyik klaszterbe sem illeszkednek.

    Mindezekben az esetekben a hierarchikus klaszterezés használható, amikor a nagy klasztereket kisebbekre osztják, amelyek viszont még kisebbekre, stb. Az ilyen problémákat taxonómiai problémáknak nevezzük. A taxonómia eredménye egy faszerű hierarchikus struktúra. Ezen túlmenően minden objektumra jellemző, hogy felsorolja az összes klasztert, amelyhez tartozik, általában a nagytól a kicsiig.

    Klaszterezési módszerek

    A klaszterezési módszereknek nincs általánosan elfogadott osztályozása, de a megközelítések számos csoportja megkülönböztethető (egyes módszerek egyszerre több csoportba is besorolhatók, ezért javasolt ezt a tipizálást a klaszterezési módszerek valós osztályozásának közelítésének tekinteni ):

    1. Valószínűségi megközelítés. Feltételezzük, hogy minden vizsgált objektum a k osztály valamelyikébe tartozik. Egyes szerzők (például A. I. Orlov) úgy vélik, hogy ez a csoport egyáltalán nem kapcsolódik a klaszterezéshez, és „diszkrimináció” néven ellenzik azt, vagyis az objektumok valamelyik ismert csoporthoz való hozzárendelését (képzési minták).
    2. Rendszer alapú megközelítések mesterséges intelligencia: nagyon feltételes csoport, hiszen rengeteg módszer létezik, és módszertanilag is nagyon eltérőek.
    3. Logikus megközelítés. A dendrogram egy döntési fa felhasználásával készül.
    4. Gráfelméleti megközelítés.
    5. Hierarchikus megközelítés. Beágyazott csoportok (különböző sorrendű klaszterek) jelenlétét feltételezzük. Az algoritmusok pedig agglomeratív (egyesítő) és osztó (osztó) részekre oszlanak. A jellemzők száma alapján esetenként megkülönböztetnek monotetikus és politetikus osztályozási módszereket.
      • Hierarchikus felosztási klaszterezés vagy taxonómia. A klaszterezési problémákat kvantitatív taxonómia kezeli.
    6. Egyéb módszerek. Az előző csoportokban nem szerepel.
      • Statisztikai klaszterezési algoritmusok
      • Klaszterképzők együttese
      • KRAB család algoritmusai
      • Szitálási módszeren alapuló algoritmus

    A 4. és 5. megközelítést olykor strukturális vagy geometriai megközelítések néven kombinálják, amelyek a közelség formalizáltabb fogalmával rendelkeznek. A felsorolt ​​módszerek közötti jelentős különbségek ellenére mindegyik az eredeti „ tömörségi hipotézis": az objektumok terében minden közeli objektumnak ugyanahhoz a klaszterhez kell tartoznia, és ennek megfelelően minden különböző objektumnak különböző klaszterben kell lennie.

    A klaszterezési probléma formális megfogalmazása

    Hadd X (\displaystyle X)- sok tárgy, Y (\displaystyle Y)- a klaszterek számainak (neveinek, címkéinek) halmaza. Meg van adva az objektumok közötti távolság függvény ρ (x , x ′) (\displaystyle \rho (x,x")). Az objektumok véges betanítási mintája van X m = ( x 1 , … , x m ) ⊂ X (\megjelenítési stílus X^(m)=\(x_(1),\pontok,x_(m)\)\X részhalmaz). A mintát fel kell osztani diszjunkt részhalmazokra, úgynevezett klaszterek, így minden klaszter olyan objektumokból áll, amelyek metrikájukban hasonlóak ρ (\displaystyle \rho ), és a különböző klaszterek objektumai jelentősen eltértek egymástól. Ugyanakkor minden objektum x i ∈ X m (\displaystyle x_(i)\in X^(m)) fürtszám hozzá van rendelve y i (\displaystyle y_(i)).

    Klaszterezési algoritmus egy függvény a: X → Y (\displaystyle a\kettőspont X\-ig), amely bármely tárgyra x ∈ X (\displaystyle x\in X) megegyezik a klaszterszámmal y ∈ Y (\displaystyle y\in Y). Sok Y (\displaystyle Y) bizonyos esetekben előre ismert, de gyakrabban a klaszterek optimális számának meghatározása a feladat, egyik-másik szempontjából minőségi kritériumok klaszterezés.

    Általában érdemes megjegyezni, hogy történetileg a hasonlóság mértékét a különbség (távolság) mértéke helyett gyakran használják a közelség mértékeként a biológiában.

    A szociológiában

    Az eredmények elemzésekor szociológiai kutatás Az elemzést a hierarchikus agglomeratív család módszereivel, nevezetesen a Ward-módszerrel javasolt elvégezni, amelyben a klasztereken belüli minimális diszperziót optimalizálják, ami megközelítőleg azonos méretű klaszterek létrehozását eredményezi. A Ward-féle módszer a legalkalmasabb a szociológiai adatok elemzésére. A különbség jobb mércéje a másodfokú euklideszi távolság, amely segít növelni a klaszterek kontrasztját. A hierarchikus klaszteranalízis fő eredménye egy dendrogram vagy „jégcsapdiagram”. Értelmezése során a kutatók ugyanazzal a problémával szembesülnek, mint a faktoranalízis eredményeinek értelmezése - a klaszterek azonosításának egyértelmű kritériumainak hiánya. Két fő módszer alkalmazása javasolt - a dendrogram vizuális elemzése és a különböző módszerekkel végzett klaszterezési eredmények összehasonlítása.

    A dendrogram vizuális elemzése magában foglalja a fa „kivágását” a mintaelemek hasonlóságának optimális szintjén. A Rescaled Distance Cluster Combine skála 5. szintjén célszerű „levágni a szőlőágat” (M. S. Oldenderfer és R. K. Blashfield terminológiája), így 80%-os hasonlóság érhető el. Ha a fürtök azonosítása ezzel a címkével nehézkes (több kis fürt egyesül egy nagyba), akkor választhat másik címkét. Ezt a technikát Oldenderfer és Blashfield javasolta.

    Felmerül a kérdés az elfogadott klasztermegoldás fenntarthatóságával kapcsolatban. Lényegében a klaszterezés stabilitásának ellenőrzése annak megbízhatóságának ellenőrzésén múlik. Itt van egy ökölszabály – a stabil tipológia megmarad, ha a klaszterezési módszerek megváltoznak. A hierarchikus klaszteranalízis eredményeit iteratív klaszteranalízissel ellenőrizhetjük a k-means módszerrel. Ha a válaszadói csoportok összehasonlított besorolása 70%-nál nagyobb (az egyezések több mint 2/3-a) egybeesési arányt mutat, akkor klaszterdöntés születik.

    Lehetetlen egy megoldás megfelelőségét más típusú elemzés igénybevétele nélkül ellenőrizni. Legalábbis elméleti értelemben ez a probléma nem oldódott meg. IN klasszikus munka Oldenderfer és Blashfield „Cluster Analysis”-ét részletesen tárgyalja, és végül elutasítja további öt robusztussági vizsgálati módszert:

    1. kofenetikus korreláció - nem ajánlott és korlátozott a használat során;
    2. szignifikancia tesztek (varianciaanalízis) - mindig szignifikáns eredményt adnak;
    3. az ismételt (véletlenszerű) mintavétel technikája, amely azonban nem bizonyítja a döntés érvényességét;
    4. a külső tulajdonságokra vonatkozó szignifikanciavizsgálatok csak ismételt mérésekre alkalmasak;
    5. A Monte Carlo módszerek nagyon összetettek, és csak tapasztalt matematikusok számára érhetők el [ (angol. élérzékelés) vagy tárgyfelismerés.
    6. Intelligens adatelemzés (angolul: data mining) – a klaszterezés az adatbányászatban akkor nyer értéket, ha az adatelemzés és a teljes analitikai megoldás felépítésének egyik szakaszaként működik. Az elemzőnek gyakran könnyebb azonosítani a hasonló objektumok csoportjait, tanulmányozni a jellemzőit, és minden csoporthoz külön modellt építeni, mint egy általános modellt létrehozni az összes adathoz. Ezt a technikát folyamatosan alkalmazzák a marketingben, vevőcsoportok, vásárlók, termékek azonosítására és mindegyikre külön stratégia kidolgozására.

    A klaszteranalízis az

    Jó napot kívánok. Tisztelem azokat az embereket, akik rajonganak a munkájukért.

    Maxim, barátom, ebbe a kategóriába tartozik. Folyamatosan dolgozik a számokkal, elemzi azokat, és megfelelő jelentéseket készít.

    Tegnap együtt ebédeltünk, és közel fél órán keresztül mesélt a klaszteranalízisről - mi az, és milyen esetekben indokolt és célszerű a használata. Nos, mi vagyok én?

    Jó a memóriám, ezért mindezeket az adatokat, amelyekről egyébként már tudtam, eredeti és leginformatívabb formában adom át Önöknek.

    A klaszterelemzés célja, hogy egy objektumkészletet homogén csoportokra (klaszterekre vagy osztályokra) ossza fel. Ez egy többdimenziós adatosztályozási probléma.

    Körülbelül 100 különböző klaszterezési algoritmus létezik, de a leggyakrabban használt a hierarchikus klaszterelemzés és a k-közép klaszterezés.

    Hol használják a klaszteranalízist? A marketingben ez a versenytársak és a fogyasztók szegmentálása.

    A vezetésben: a személyzet felosztása különböző motivációs szintű csoportokra, beszállítók osztályozása, hasonló termelési helyzetek azonosítása, amelyekben hibák fordulnak elő.

    Az orvostudományban - a tünetek, a betegek, a gyógyszerek osztályozása. A szociológiában a válaszadók homogén csoportokra való felosztása. Valójában a klaszteranalízis az emberi élet minden területén bevált.

    Ennek a módszernek az a szépsége, hogy akkor is működik, ha kevés az adat, és nem teljesülnek a normál eloszlás követelményei. valószínűségi változókés a statisztikai elemzés klasszikus módszereinek egyéb követelményei.

    Magyarázzuk meg a klaszteranalízis lényegét anélkül, hogy szigorú terminológiához folyamodnánk:
    Tegyük fel, hogy felmérést végzett az alkalmazottak körében, és szeretné meghatározni, hogyan lehet a leghatékonyabban irányítani a személyzetet.

    Vagyis csoportokra kívánja osztani az alkalmazottakat, és mindegyiknél kiemelni a leghatékonyabb irányítási karokat. Ugyanakkor a csoportok közötti különbségeknek nyilvánvalónak kell lenniük, és a csoporton belül a válaszadóknak minél hasonlóbbaknak kell lenniük.

    A probléma megoldására hierarchikus klaszterelemzést javasolunk.

    Ennek eredményeként egy fát kapunk, amelyre nézve el kell döntenünk, hogy hány osztályba (klaszterbe) szeretnénk felosztani a személyzetet.

    Tegyük fel, hogy úgy döntünk, hogy három csoportra osztjuk a személyzetet, majd az egyes klaszterekbe tartozó válaszadók vizsgálatához egy hozzávetőlegesen a következő tartalmú táblázatot kapunk:


    Nézzük meg, hogyan készül a fenti táblázat. Az első oszlop a fürt számát tartalmazza - a csoportot, amelynek adatai megjelennek a sorban.

    Például az első klaszter 80%-a férfiak. Az első klaszter 90%-a a 30 és 50 év közötti korosztályba tartozik, és a válaszadók 12%-a gondolja úgy, hogy a juttatások nagyon fontosak. És így tovább.

    Próbáljunk meg portrékat készíteni az egyes klaszterek válaszadóiról:

    1. Az első csoport főként érett férfiakból áll, akik vezető pozíciót töltenek be. Nem érdekli őket a szociális csomag (MED, LGOTI, IDŐ-mentes idő). Inkább jó fizetést kapnak, mintsem munkáltatói segítséget.
    2. A második csoport ezzel szemben a szociális csomagot részesíti előnyben. Főleg „idős” emberekből áll, akik alacsony pozíciókat töltenek be. A fizetés minden bizonnyal fontos számukra, de vannak más prioritások is.
    3. A harmadik csoport a „legfiatalabb”. Az előző kettővel ellentétben nyilvánvaló érdeklődés mutatkozik a tanulási lehetőségek és a szakmai fejlődés iránt. Ez a munkavállalói kategória jó eséllyel hamarosan csatlakozik az első csoporthoz.

    Így a hatékony személyzeti menedzsment módszerek bevezetésére irányuló kampány tervezésekor nyilvánvaló, hogy a mi helyzetünkben lehetséges a második csoport szociális csomagjának növelése például a bérek rovására.

    Ha már arról beszélünk, hogy mely szakembereket érdemes továbbképzésre küldeni, akkor mindenképpen a harmadik csoportra ajánlhatjuk a figyelmet.

    Forrás: http://www.nickart.spb.ru/analysis/cluster.php

    A klaszteranalízis jellemzői

    A klaszter egy eszköz ára egy bizonyos időszak alatt, amely alatt tranzakciókat hajtottak végre. Az így létrejövő vásárlások és eladások mennyiségét egy szám jelzi a klaszteren belül.

    Egy tetszőleges időkeret sávja általában több klasztert tartalmaz. Ez lehetővé teszi, hogy minden egyes sávon, minden árszinten részletesen megtekinthesse a vásárlások, eladások mennyiségét és azok egyenlegét.


    Egy eszköz árának változása elkerülhetetlenül más eszközök ármozgásának láncolatát vonja maga után.

    Figyelem!

    A legtöbb esetben a trendmozgás megértése már abban a pillanatban megtörténik, amikor az gyorsan fejlődik, és a trend mentén történő piacra lépés korrekciós hullámba torkollik.

    A sikeres tranzakciókhoz meg kell értenie a jelenlegi helyzetet, és képesnek kell lennie előre látni a jövőbeni ármozgásokat. Ez a klasztergráf elemzésével tanulható meg.

    A klaszterelemzés segítségével a legkisebb ársávon belül is láthatja a piaci szereplők aktivitását. Ez a legpontosabb és legrészletesebb elemzés, mivel ez mutatja a tranzakciós volumen pont szerinti eloszlását az eszköz egyes árszintjein.

    Folyamatos konfliktus van a piacon az eladók és a vevők érdekei között. És minden legkisebb ármozgás (pipa) egy kompromisszum – egy olyan árszint – felé való elmozdulás, amely jelenleg mindkét félnek megfelel.

    De a piac dinamikus, az eladók és a vevők száma folyamatosan változik. Ha egy időben a piacot az eladók uralták, akkor a következő pillanatban nagy valószínűséggel lesznek vevők.

    A szomszédos árszinteken végrehajtott tranzakciók száma sem azonos. Pedig először a piaci helyzet tükröződik a tranzakciók összvolumenében, és csak azután az árban.

    Ha látja a domináns piaci szereplők (eladók vagy vevők) lépéseit, akkor magát az ármozgást is előre jelezheti.

    Mert sikeres pályázat klaszterelemzés, először is meg kell értenie, mi az a fürt és a delta.


    A klaszter egy ármozgás, amely szintekre van felosztva, amelyeken a tranzakciók történtek ismert kötetek. A Delta megmutatja az egyes klaszterekben előforduló vásárlások és eladások közötti különbséget.

    Minden klaszter vagy delták csoportja lehetővé teszi annak megértését, hogy egy adott időpontban a vevők vagy az eladók uralják-e a piacot.

    Elég csak a teljes deltát kiszámítani az eladások és vásárlások összegzésével. Ha a delta negatív, akkor a piac túladott, és redundáns eladási tranzakciók vannak. Ha a delta pozitív, a vásárlók egyértelműen uralják a piacot.

    Maga a delta is vehet normál ill kritikus érték. A klaszterben a normál feletti delta térfogatérték piros színnel van kiemelve.

    Ha a delta mérsékelt, akkor ez a piac lapos állapotát jellemzi. at normál érték delta a piacon van egy trendmozgás, de a kritikus érték mindig az árforduló előhírnöke.

    Forex kereskedés CA segítségével

    A maximális profit eléréséhez meg kell tudnia határozni a delta átmenetét a mérsékelt szintről a normál szintre. Valójában ebben az esetben észreveheti a lakásból a trendmozgásba való átmenet legelejét, és a legnagyobb profitot érheti el.

    A fürtdiagram vizuálisabb, láthatja a kötetek felhalmozódásának és eloszlásának jelentős szintjét, valamint támogatási és ellenállási szinteket. Ez lehetővé teszi a kereskedő számára, hogy pontosan megtalálja a kereskedésbe való belépést.

    A delta segítségével megítélheti az eladások vagy vásárlások túlsúlyát a piacon. A fürtelemzés lehetővé teszi a tranzakciók megfigyelését és mennyiségük nyomon követését bármely TF sávjában.

    Ez különösen fontos közeledéskor jelentős szinteket támogatást vagy ellenállást. A klaszterek megítélése a kulcsa a piac megértésének.

    Forrás: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

    A klaszteranalízis alkalmazási területei és jellemzői

    A klaszteranalízis kifejezés (elsőként Tryon, 1939) valójában különféle osztályozási algoritmusokat tartalmaz.

    Sok terület kutatóinak gyakori kérdése, hogy a megfigyelt adatokat hogyan lehet vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni.

    Szerint modern rendszer A biológia szerint az ember a főemlősök, emlősök, magzatvíz, gerincesek és állatok közé tartozik.

    Vegye figyelembe, hogy ebben az osztályozásban minél magasabb az aggregáció szintje, annál kisebb a hasonlóság a megfelelő osztály tagjai között.

    Az emberek több hasonlóságot mutatnak más főemlősökkel (azaz a majmokkal), mint az emlősök családjának „távoli” tagjaival (azaz a kutyákkal) stb.

    Vegye figyelembe, hogy az előző tárgyalás a klaszterezési algoritmusokra vonatkozik, de nem tesz említést a statisztikai szignifikancia teszteléséről.

    Valójában a klaszteranalízis nem annyira közönséges statisztikai módszer, mint inkább különféle algoritmusok „halmaza” az „objektumok klaszterekbe való elosztására”.

    Van egy olyan álláspont, hogy sok más statisztikai eljárástól eltérően a klaszterelemzési módszereket a legtöbb esetben akkor alkalmazzák, amikor nincs a priori hipotézis az osztályokról, de még a vizsgálat leíró szakaszában van.

    Figyelem!

    Meg kell érteni, hogy a klaszteranalízis meghatározza a „legvalószínűbb jelentős megoldást”.

    Ezért a statisztikai szignifikancia vizsgálat itt nem igazán alkalmazható, még akkor sem, ha a p-szintek ismertek (mint a K-közép módszernél).

    A klaszterezési technikákat számos területen alkalmazzák. Hartigan (1975) kiváló áttekintést adott számos publikált tanulmányról, amelyek klaszterelemzési módszerekkel nyert eredményeket tartalmaztak.

    Például az orvostudomány területén a betegségek csoportosítása, a betegségek kezelése vagy a betegségek tünetei széles körben használt taxonómiákhoz vezet.

    A pszichiátria területén az olyan tünetcsoportok, mint a paranoia, skizofrénia stb. helyes diagnózisa kulcsfontosságú a sikeres terápia szempontjából. A régészetben klaszteranalízissel a kutatók megpróbálják megállapítani a kőeszközök, temetkezési tárgyak stb. taxonómiáját.

    A klaszterelemzésnek széles körben elterjedt alkalmazásai vannak a marketingkutatásban. Általánosságban elmondható, hogy amikor az információ „hegyeit” további feldolgozásra alkalmas csoportokba kell sorolni, a klaszterelemzés nagyon hasznosnak és hatékonynak bizonyul.

    Fa klaszterezés

    A Fő cél részben megadott példa elmagyarázza a fa klaszterezési algoritmus célját.

    Ennek az algoritmusnak az a célja, hogy az objektumokat (például állatokat) elég nagy klaszterekbe csoportosítsa az objektumok közötti hasonlóság vagy távolság bizonyos mértékével. Az ilyen klaszterezés tipikus eredménye egy hierarchikus fa.

    Vegyünk egy vízszintes fa diagramot. A diagram az osztály minden objektumával kezdődik (a diagram bal oldalán).

    Most képzeld el, hogy fokozatosan (nagyon kis lépésekben) „lazítod” a kritériumot, hogy mely tárgyak egyediek és melyek nem.

    Más szavakkal, csökkenti a két vagy több objektum egy fürtbe való egyesítésére vonatkozó döntéshez kapcsolódó küszöbértéket.

    Ennek eredményeként egyre több objektumot kapcsol össze, és egyre több, egyre eltérő elemekből álló klasztert aggregál (kombinál).

    Végül az utolsó lépésben az összes objektumot egyesítjük. Ezeken a diagramokon a vízszintes tengelyek az illesztési távolságot (a függőleges fadiagramokon a függőleges tengelyek a csatlakozási távolságot jelölik).

    Tehát a grafikon minden egyes csomópontjához (ahol egy új klaszter jön létre) láthatja azt a távolságértéket, amelyhez a megfelelő elemek egy új, egyetlen klaszterhez vannak társítva.

    Ha az adatok világos "struktúrával" rendelkeznek az egymáshoz hasonló objektumok klaszterei tekintetében, akkor ez a struktúra valószínűleg különböző ágakon tükröződik a hierarchikus fában.

    Az összevonási módszerrel végzett sikeres elemzés eredményeként lehetővé válik a klaszterek (elágazások) kimutatása és értelmezése.

    Az unió vagy fa klaszterezési módszert használják az objektumok közötti különbségek vagy távolságok klasztereinek kialakítására. Ezek a távolságok meghatározhatók egydimenziós vagy többdimenziós térben.

    Például, ha egy kávézóban csoportosítaná az ételek fajtáit, figyelembe vehetné a benne lévő kalóriák számát, az árat, szubjektív értékelésízlés stb.

    A többdimenziós térben lévő objektumok közötti távolság kiszámításának legközvetlenebb módja az euklideszi távolságok kiszámítása.

    Ha két ill háromdimenziós tér, akkor ez a mérték a térbeli objektumok közötti valós geometriai távolság (mintha mérőszalaggal mérnék az objektumok közötti távolságokat).

    A pooling algoritmus azonban nem „érdekel”, hogy az adott távolsághoz „megadott” távolságok a valós távolságok, vagy valamilyen más származtatott távolságmérték, ami a kutató számára értelmesebb; a kutatók előtt álló kihívás pedig a megfelelő módszer kiválasztása az adott alkalmazásokhoz.

    Euklideszi távolság.Úgy tűnik, hogy ez a távolság leggyakoribb típusa. Ez egyszerűen egy geometriai távolság többdimenziós térben, és a következőképpen számítható ki:

    Vegye figyelembe, hogy az euklideszi távolságot (és négyzetét) az eredeti adatokból számítják ki, nem a szabványosított adatokból.

    Ez egy elterjedt módszer a kiszámítására, aminek vannak bizonyos előnyei (például két objektum távolsága nem változik, amikor új objektumot viszünk be az elemzésbe, ami kiugró értéknek bizonyulhat).

    Figyelem!

    A távolságokat azonban nagyban befolyásolhatják azon tengelyek közötti különbségek, amelyekből a távolságokat számítjuk. Például, ha az egyik tengelyt centiméterben mérjük, majd átváltja milliméterre (az értékeket 10-zel megszorozva), akkor a koordinátákból számított végső euklideszi távolság (vagy az euklideszi távolság négyzete) nagymértékben megváltozik. , és ennek következtében a klaszteranalízis eredményei nagymértékben eltérhetnek a korábbiaktól.

    Négyzetes euklideszi távolság. Néha érdemes négyzetre emelni a szabványos euklideszi távolságot, hogy nagyobb súlyt kapjanak az egymástól távolabb lévő tárgyak.

    Ezt a távolságot a következőképpen kell kiszámítani:

    Várostömb távolság (Manhattan távolság). Ez a távolság egyszerűen a koordináták közötti különbségek átlaga.

    A legtöbb esetben ez a távolságmérés ugyanazt az eredményt adja, mint a közönséges euklideszi távolság.

    Megjegyezzük azonban, hogy ennél a mértéknél az egyes nagy eltérések (outlierek) befolyása csökken (mivel nem négyzetesek). A Manhattan távolságot a következő képlettel számítják ki:

    Csebisev távolság. Ez a távolság akkor lehet hasznos, ha két objektumot „különbözőként” akarunk meghatározni, ha azok bármely koordinátában (bármelyik dimenzióban) különböznek. A Csebisev távolságot a következő képlettel számítják ki:

    Teljesítmény távolság. Néha az ember fokozatosan növeli vagy csökkenti a súlyokat egy olyan dimenzióhoz, amelyhez a megfelelő objektumok nagyon eltérőek.

    Ez a hatványtörvény távolság használatával érhető el. A teljesítménytávolságot a következő képlet segítségével számítjuk ki:

    ahol r és p a felhasználó által meghatározott paraméterek. Néhány példa a számításokra megmutathatja, hogyan „működik” ez a mérték.

    A p paraméter az egyes koordináták mentén fellépő különbségek fokozatos súlyozásáért, az r paraméter az objektumok közötti nagy távolságok progresszív súlyozásáért felelős. Ha mind az r, mind a p paraméter kettővel egyenlő, akkor ez a távolság egybeesik az euklideszi távolsággal.

    A nézeteltérések százalékos aránya. Ezt a mértéket akkor használjuk, ha az adatok kategorikusak. Ezt a távolságot a következő képlettel számítjuk ki:

    Társulási vagy kapcsolódási szabályok

    Az első lépésben, amikor minden objektum külön klaszter, az objektumok közötti távolságot a kiválasztott mérték határozza meg.

    Ha azonban több objektum kapcsolódik egymáshoz, akkor felmerül a kérdés, hogyan kell meghatározni a klaszterek közötti távolságokat?

    Más szóval, egy unió vagy kapcsolódási szabály szükséges a két klaszterhez. Itt többféle lehetőség kínálkozik: például összekapcsolhat két klasztert, ha két fürtben lévő bármely két objektum közelebb van egymáshoz, mint a megfelelő kapcsolati távolság.

    Más szavakkal, a „legközelebbi szomszéd szabályt” használja a klaszterek közötti távolság meghatározására; ezt a módszert egyetlen link módszernek nevezik.

    Ez a szabály „szálas” klasztereket épít, pl. a klasztereket csak olyan egyedi elemek „kapcsolják össze”, amelyek történetesen a legközelebb állnak egymáshoz.

    Alternatív megoldásként használhat szomszédokat olyan fürtökben, amelyek az összes többi objektumpárral a legtávolabb vannak egymástól. Ezt a módszert teljes link módszernek nevezik.

    Számos más módszer is létezik a klaszterek kombinálására, hasonlóak a tárgyaltakhoz.

    Egyetlen link (legközelebbi szomszéd módszer). Ahogy fentebb leírtuk, ebben a módszerben a két klaszter közötti távolságot a különböző klaszterekben lévő két legközelebbi objektum (legközelebbi szomszéd) távolsága határozza meg.

    Ennek a szabálynak bizonyos értelemben össze kell fűznie az objektumokat, hogy klasztereket képezzenek, és a kapott klasztereket általában hosszú "láncok" képviselik.

    Teljes link (a legtávolabbi szomszédok módszere). Ebben a módszerben a klaszterek közötti távolságokat a különböző klaszterekben (vagyis a "legtávolabbi szomszédok") lévő bármely két objektum közötti legnagyobb távolság határozza meg.

    Súlyozatlan páronkénti átlag. Ebben a módszerben a két különböző klaszter közötti távolságot a bennük lévő összes objektumpár közötti átlagos távolságként számítjuk ki.

    A módszer akkor hatékony, ha az objektumok valójában különböző „ligeteket” alkotnak, de ugyanolyan jól működik kiterjesztett („lánc” típusú) klaszterek esetén is.

    Megjegyezzük, hogy Sneath és Sokal (1973) könyvükben bevezetik az UPGMA rövidítést, hogy ezt a módszert a számtani átlagokat használó súlyozatlan párcsoportos módszernek nevezzék.

    Súlyozott páronkénti átlag. A módszer megegyezik a súlyozatlan páronkénti átlag módszerrel, azzal a különbséggel, hogy a megfelelő klaszterek méretét (vagyis a bennük lévő objektumok számát) használjuk súlyozási tényezőként a számításoknál.

    Ezért a javasolt módszert kell használni (az előző helyett), ha egyenlőtlen klaszterméreteket feltételezünk.

    Sneath és Sokal (1973) könyve bevezeti a WPGMA mozaikszót, hogy ezt a módszert a számtani átlagokat használó súlyozott pár-csoport módszerként említse.

    Súlyozatlan centroid módszer. Ebben a módszerben a két klaszter közötti távolságot a súlypontjaik közötti távolságként határozzuk meg.

    Figyelem!

    Sneath és Sokal (1973) az UPGMC mozaikszót használják, hogy ezt a módszert súlyozatlan párcsoportos módszerként említik a centroid átlagát használva.

    Súlyozott centroid módszer (medián). Ez a módszer megegyezik az előzővel, azzal a különbséggel, hogy a számítások súlyozással veszik figyelembe a klaszterek mérete közötti különbséget (azaz a bennük lévő objektumok számát).

    Ezért, ha jelentős különbségek vannak (vagy gyaníthatóan) a klaszterméretekben, ez a módszer előnyösebb, mint az előző.

    Sneath és Sokal (1973) a WPGMC rövidítést használta, hogy súlyozott pár-csoport módszerként hivatkozzon rá a centroid átlagát használva.

    Ward módszere. Ez a módszer különbözik az összes többi módszertől, mert módszereket használ varianciaanalízis a klaszterek közötti távolságok becslésére.

    A módszer minimalizálja a négyzetek összegét (SS) bármely két (hipotetikus) klaszterre, amely minden lépésben létrehozható.

    Részletek Wardban (1963) találhatók. Összességében a módszer nagyon hatékonynak tűnik, de hajlamos kis klaszterek létrehozására.

    Ezt a módszert korábban a csoportosítandó "objektumokkal" kapcsolatban tárgyaltuk. Minden más típusú elemzésben a kutatót érdeklő kérdés általában megfigyelésekben vagy változókban fejeződik ki.

    Kiderült, hogy a klaszterezés, mind a megfigyelések, mind a változók alapján, egészen érdekes eredményekhez vezethet.

    Képzelje el például, hogy egy orvoskutató adatokat gyűjt a szívbetegségben szenvedő betegek állapotának (eseteinek) különböző jellemzőiről (változóiról).

    Előfordulhat, hogy a kutatók csoportosíthatják a megfigyeléseket (betegeket), hogy azonosítsák a hasonló tünetekkel rendelkező betegek csoportjait.

    Ugyanakkor a kutatónak érdemes lehet változókat klaszterezni, hogy azonosítsa azokat a változók klasztereit, amelyek hasonló fizikai feltételekhez kapcsolódnak.

    A megfigyelések vagy változók klaszterezéséről szóló vita után felmerülhet a kérdés, hogy miért ne csoportosíthatnánk mindkét irányban?

    A Cluster Analysis modul hatékony kétirányú csatlakozási rutint tartalmaz, amely lehetővé teszi ezt.

    A kétirányú összevonást azonban (viszonylag ritkán) alkalmazzák olyan körülmények között, amikor a megfigyelések és a változók várhatóan egyszerre járulnak hozzá az értelmes klaszterek felfedezéséhez.

    Így, visszatérve az előző példához, feltételezhetjük, hogy az orvoskutatónak olyan betegcsoportokat kell azonosítania, amelyek hasonlóak a fizikai állapot jellemzőinek bizonyos klasztereihez.

    A kapott eredmények értelmezésének nehézsége abból adódik, hogy a különböző klaszterek közötti hasonlóságok származhatnak (vagy okai lehetnek) a változók részhalmazainak egyes eltéréseiből.

    Ezért a létrejövő klaszterek heterogének természetükben. Ez elsőre kissé homályosnak tűnhet; Valójában a többi klaszterelemzési módszerhez képest a kétirányú összekapcsolás valószínűleg a legkevésbé használt módszer.

    Egyes kutatók azonban úgy vélik, hogy hatékony eszközt kínál a feltáró adatelemzéshez (további információért lásd Hartigan (1975) leírását a módszerről).

    A K módszert jelent

    Ez a klaszterezési módszer jelentősen eltér az olyan agglomeratív módszerektől, mint az Unió (fa klaszterezés) és a Kétirányú unió. Tegyük fel, hogy már vannak hipotézisei a klaszterek számáról (megfigyelések vagy változók alapján).

    Megadhatja a rendszernek, hogy pontosan három klasztert alkosson, hogy azok a lehető legkülönbözőbbek legyenek.

    Pontosan ezt a típusú problémát oldja meg a K-közép algoritmus. Általánosságban elmondható, hogy a K-közép módszer pontosan K különböző klasztert épít fel, amelyek a lehető legközelebb helyezkednek el. nagy távolságok egymástól.

    Egy fizikai állapot példájában az orvoskutatónak "gyanúja" lehet klinikai tapasztalat hogy páciensei főként három különböző kategóriába sorolhatók.

    Figyelem!

    Ha igen, akkor az átlag különféle intézkedések fizikai paraméterek az egyes klaszterek esetében kvantitatív módot ad a kutató hipotéziseinek reprezentálására (például az 1. klaszterbe tartozó betegeknél magas az 1. paraméter, alacsonyabb a 2. paraméter stb.).

    Számítási szempontból ezt a módszert fordított varianciaanalízisnek tekinthetjük. A program K véletlenszerűen kiválasztott klaszterrel indul, majd megváltoztatja az objektumok tagságát, így:

    1. minimalizálja a klasztereken belüli változékonyságot,
    2. maximalizálja a klaszterek közötti variabilitást.

    Ez a módszer hasonló a fordított ANOVA módszerhez, mivel az ANOVA szignifikancia tesztje összehasonlítja a csoportok közötti és a csoporton belüli variabilitást annak a hipotézisnek a tesztelésében, hogy a csoportátlagok különböznek egymástól.

    A K-közép klaszterezés során a program objektumokat (azaz megfigyeléseket) egyik csoportból (klaszterből) a másikba helyez át annak érdekében, hogy a varianciaanalízis (ANOVA) során a legjelentősebb eredményt kapja.

    Általában a K-közép klaszteranalízis eredményeinek megszerzése után az egyes dimenziók mentén minden klaszter átlagát ki lehet számítani annak felmérésére, hogy a klaszterek mennyire különböznek egymástól.

    Ideális esetben az elemzésben használt mérések többségéhez, ha nem az összeshez szélesen változó eszközöket kell beszereznie.

    Forrás: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

    A tárgyak osztályozása jellemzőik szerint

    A klaszteranalízis többdimenziós statisztikai módszerek összessége az objektumok osztályozására az őket jellemző jellemzők alapján, az objektumok halmazának homogén csoportokra való felosztására, amelyek a kritériumok meghatározásában hasonlóak, valamint egy bizonyos csoport objektumainak azonosítására.

    A klaszter olyan objektumok csoportja, amelyeket az objektumok közötti hasonlóság vagy különbségek adott mértéke alapján a klaszterelemzés eredményeként azonosítanak.

    Az objektum egy meghatározott kutatási tétel, amelyet osztályozni kell. Az osztályozás tárgyai általában a megfigyelések. Például a termékek fogyasztói, országok vagy régiók, termékek stb.

    Bár lehetséges a változók szerinti klaszteranalízis is. Az objektumok osztályozása a többdimenziós klaszteranalízisben egyszerre több kritérium szerint történik.

    Ezek lehetnek kvantitatív vagy kategorikus változók, a klaszterelemzési módszertől függően. Így, fő cél klaszteranalízis – hasonló objektumok csoportjainak keresése egy mintában.

    A klaszteranalízis többváltozós statisztikai módszereinek halmaza felosztható hierarchikus (agglomeratív és osztó) és nem hierarchikus (k-közép módszer, kétlépcsős klaszteranalízis) módszerekre.

    A módszereknek azonban nincs általánosan elfogadott osztályozása, és a klaszterelemzési módszerek néha döntési fák, neurális hálózatok, diszkriminanciaanalízis és logisztikus regresszió készítésére szolgáló módszereket is tartalmaznak.

    A klaszteranalízis felhasználási köre sokoldalúsága miatt igen széles. A klaszterelemzést a közgazdaságtan, a marketing, a régészet, az orvostudomány, a pszichológia, a kémia, a biológia, a közigazgatás, a filológia, az antropológia, a szociológia és más területeken használják.

    Íme néhány példa a fürtelemzés használatára:

    • orvostudomány – betegségek osztályozása, tüneteik, kezelési módszerek, betegcsoportok osztályozása;
    • marketing – a vállalat termékvonalának optimalizálásának, a piac árucsoportok vagy fogyasztók szerinti szegmentálásának, a potenciális fogyasztók azonosításának feladatai;
    • szociológia – a válaszadók homogén csoportokra osztása;
    • pszichiátria – a tünetcsoportok helyes diagnózisa meghatározó a sikeres terápia szempontjából;
    • biológia - az élőlények csoportosítása;
    • közgazdaságtan – az Orosz Föderáció tantárgyainak osztályozása a befektetés vonzereje szerint.

    Forrás: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

    A klaszterelemzés megértése

    A klaszteranalízis különböző osztályozási algoritmusokat tartalmaz. A kutatók gyakori kérdése számos területen, hogy hogyan lehet a megfigyelt adatokat vizuális struktúrákba rendezni.

    Például a biológusok célja, hogy az állatokat különböző fajokba sorolják, hogy értelmesen leírják a köztük lévő különbségeket.

    A klaszteranalízis feladata a kezdeti objektumok halmazának felosztása egymáshoz közeli, hasonló objektumok csoportjaira. Ezeket a csoportokat klasztereknek nevezzük.

    Más szóval, a klaszteranalízis az objektumok jellemzőik szerinti osztályozásának egyik módja. Kívánatos, hogy az osztályozási eredmények értelmes értelmezést kapjanak.

    A klaszterelemzési módszerekkel kapott eredményeket a legkülönfélébb területeken alkalmazzák. A marketingben ez a versenytársak és a fogyasztók szegmentálása.

    A pszichiátriában az olyan tünetek helyes diagnózisa, mint a paranoia, skizofrénia stb., meghatározó a sikeres terápia szempontjából.

    A menedzsmentben fontos a beszállítók osztályozása és a hasonló gyártási helyzetek azonosítása, amikor hibák lépnek fel. A szociológiában a válaszadók homogén csoportokra való felosztása. A portfólióbefektetésben fontos az értékpapírok csoportosítása a jövedelmezőségi trendek hasonlósága szerint, hogy a tőzsdéről szerzett információk alapján olyan optimális befektetési portfóliót hozzunk létre, amely adott kockázati fok mellett lehetővé teszi a befektetési megtérülés maximalizálását.

    Általánosságban elmondható, hogy amikor nagy mennyiségű ilyen jellegű információt kell osztályozni és további feldolgozásra alkalmas formában kell bemutatni, a klaszteranalízis nagyon hasznosnak és hatékonynak bizonyul.

    A klaszterelemzés lehetővé teszi meglehetősen nagy mennyiségű információ figyelembevételét, és nagy mennyiségű társadalmi-gazdasági információ tömörítését, így azok kompakt és vizuális megjelenését teszik lehetővé.

    Figyelem!

    A klaszterelemzés nagy jelentőséggel bír a gazdasági fejlődést jellemző idősorok (például általános gazdasági és áruviszonyok) kapcsán.

    Itt kiemelheti azokat az időszakokat, amikor a megfelelő mutatók értékei meglehetősen közel voltak, és meghatározhatja az idősorok azon csoportjait, amelyek dinamikája a leginkább hasonló.

    A társadalmi-gazdasági előrejelzési feladatokban nagyon ígéretes a klaszteranalízis más kvantitatív módszerekkel (például regressziós elemzéssel) való kombinálása.

    Előnyök és hátrányok

    A fürtelemzés lehetővé teszi minden olyan objektum objektív osztályozását, amelyekre számos jellemző jellemző. Ennek számos előnye származhat:

    1. Az így létrejövő klaszterek értelmezhetők, azaz leírhatják, hogy valójában milyen csoportok léteznek.
    2. Az egyes klaszterek eldobhatók. Ez olyan esetekben hasznos, amikor bizonyos hibákat követtek el az adatgyűjtés során, aminek következtében az egyes objektumok indikátorainak értékei élesen eltérnek. Klaszteranalízis alkalmazásakor az ilyen objektumok külön fürtbe esnek.
    3. Csak azok a klaszterek választhatók ki további elemzésre, amelyek rendelkeznek az érdeklődésre számot tartó jellemzőkkel.

    Mint minden más módszernek, a klaszteranalízisnek is vannak bizonyos hátrányai és korlátai. Különösen a fürtök összetétele és száma függ a kiválasztott partíciós feltételektől.

    Az eredeti adattömb kompaktabb formára való redukálásakor bizonyos torzulások léphetnek fel, és az egyes objektumok egyedi jellemzői elveszhetnek, mivel azokat a klaszterparaméterek általánosított értékeinek jellemzőivel helyettesítik.

    Mód

    Jelenleg több mint száz különböző klaszterezési algoritmus ismert. Sokféleségüket nemcsak a különböző számítási módszerek magyarázzák, hanem a klaszterezés alapjául szolgáló különböző fogalmak is.

    A következő klaszterezési módszereket implementálták a Statistica csomagban.

    • Hierarchikus algoritmusok – fa klaszterezés. A hierarchikus algoritmusok a szekvenciális klaszterezés elvén alapulnak. A kezdeti lépésben minden objektumot külön fürtnek tekintünk. A következő lépésben az egymáshoz legközelebb eső klaszterek egy részét külön fürtté egyesítjük.
    • K-módszer. Ezt a módszert használják leggyakrabban. A klaszteranalízis ún. referenciamódszereinek csoportjába tartozik. A K klaszterek számát a felhasználó határozza meg.
    • Két bemenetes kombinálás. Ennek a módszernek a használatakor a klaszterezés egyszerre történik változók (oszlopok) és megfigyelések (sorok) segítségével.

    A kétirányú összevonási eljárást olyan esetekben használják, amikor a változók és megfigyelések egyidejű klaszterezése várhatóan jelentős eredményeket hoz.

    Az eljárás eredménye a változók és megfigyelések leíró statisztikái, valamint egy kétdimenziós színdiagram, amelyben az adatértékek színkóddal vannak ellátva.

    A színeloszlás alapján képet kaphat a homogén csoportokról.

    Változók normalizálása

    Az objektumok kezdeti halmazának klaszterekbe történő particionálása magában foglalja az objektumok közötti távolságok kiszámítását és az objektumok kiválasztását, amelyek távolsága a lehető legkisebb.

    A leggyakrabban használt euklideszi (geometriai) távolság, amely mindannyiunk számára ismerős. Ez a mérőszám az objektumok térbeli közelségére vonatkozó intuitív elképzeléseknek felel meg (mintha az objektumok közötti távolságokat mérőszalaggal mérnék).

    De egy adott metrika esetében az objektumok közötti távolságot nagymértékben befolyásolhatják a léptékek (mértékegységek) változásai. Például, ha az egyik jellemzőt milliméterben mérjük, majd az értékét centiméterre konvertáljuk, az objektumok közötti euklideszi távolság nagymértékben megváltozik. Ez oda vezet, hogy a klaszteranalízis eredményei jelentősen eltérhetnek a korábbiaktól.

    Ha a változókat különböző mértékegységekben mérjük, akkor ezek előzetes normalizálása szükséges, vagyis az eredeti adatok olyan átalakítása, amely azokat dimenzió nélküli mennyiségekké alakítja át.

    A normalizálás nagymértékben torzítja az eredeti tér geometriáját, ami megváltoztathatja a klaszterezési eredményeket

    A Statistica csomagban bármely x változó normalizálása a következő képlettel történik:

    Ehhez kattintson a jobb gombbal a változó nevére, és a megnyíló menüben válassza ki a parancssort: Fill/ Standardize Block/ Standardize Columns. A normalizált változó értékei lesznek egyenlő nullával, és szóródás – egység.

    K-közép módszer a Statistica programban

    A K-közép módszer az objektumok halmazát egy adott számú K különböző klaszterre osztja, amelyek egymástól a lehető legnagyobb távolságra helyezkednek el.

    Általában a K-közép klaszteranalízis eredményeinek megszerzése után az egyes dimenziók mentén minden klaszter átlagát ki lehet számítani annak felmérésére, hogy a klaszterek mennyire különböznek egymástól.

    Ideális esetben az elemzésben használt legtöbb méréshez szélesen változó eszközöket kell beszereznie.

    Az egyes dimenziókhoz kapott F-statisztikai értékek egy másik mutatója annak, hogy a megfelelő dimenzió mennyire tesz különbséget a klaszterek között.

    Példaként vegyük egy vállalkozás 17 alkalmazottjának felmérését a karrierjük minőségi mutatóival való elégedettségről. A táblázat tízfokú skálán ad választ a felmérés kérdéseire (1 a minimális pontszám, 10 a maximum).

    A változónevek a következő kérdésekre adott válaszoknak felelnek meg:

    1. SLC – személyes célok és szervezeti célok kombinációja;
    2. OSO – a méltányosság érzése a javadalmazásban;
    3. TBD - az otthonhoz való területi közelség;
    4. OEB – a gazdasági jólét érzése;
    5. KR – karrier növekedés;
    6. JSR – munkahelyváltási vágy;
    7. RSD – a társadalmi jólét érzése.

    Ezen adatok felhasználásával az alkalmazottakat csoportokra kell osztani, és mindegyikük számára azonosítani kell a leghatékonyabb irányítási eszközöket.

    Ugyanakkor a csoportok közötti különbségeknek nyilvánvalónak kell lenniük, és a csoporton belül a válaszadóknak minél hasonlóbbaknak kell lenniük.

    Ma a legtöbb szociológiai felmérés csak azt nyújtja százalék szavazatok: figyelembe veszik a pozitívan válaszolók fő számát, illetve az elégedetlenek százalékos arányát, de ezt a kérdést nem szisztematikusan vizsgálják.

    Leggyakrabban a felmérés nem mutat trendet a helyzetben. Egyes esetekben nem a „mellett” vagy „ellen” képviselők számát kell számolni, hanem a távolságot, vagy a hasonlóság mértékét, vagyis meg kell határozni a megközelítőleg egyformán gondolkodó csoportokat.

    A klaszterelemzési eljárásokkal a felmérési adatok alapján azonosíthatók a jellemzők között valóban létező kapcsolatok, és ezek alapján hozhatók létre azok tipológiája.

    Figyelem!

    A klaszterelemzési eljárásokkal végzett munka során a szociológus a priori hipotéziseinek megléte nem szükséges feltétel.

    A Statisticában a klaszteranalízis a következőképpen történik.

    A klaszterek számának kiválasztásakor a következőket kell követni: a klaszterek száma lehetőleg ne legyen túl nagy.

    Az a távolság, amelyen egy adott klaszter objektumai egyesültek, lehetőleg sokkal kisebb legyen, mint az a távolság, amelynél valami más csatlakozik ehhez a klaszterhez.

    A klaszterek számának megválasztásakor leggyakrabban több helyes megoldás is létezik egyszerre.

    Arra vagyunk kíváncsiak például, hogy a felmérés kérdéseire adott válaszok hogyan viszonyulnak a hétköznapi alkalmazottak és a vállalat vezetése között. Ezért a K=2-t választjuk. A további szegmentáláshoz növelheti a fürtök számát.

    1. válassza ki a megfigyeléseket a klaszterközéppontok közötti maximális távolsággal;
    2. távolságok rendezése és megfigyelések kiválasztása rendszeres időközönként (alapbeállítás);
    3. vegyük az első megfigyeléseket középpontnak, és csatoljuk hozzájuk a fennmaradó objektumokat.

    Célunkra az 1) lehetőség megfelelő.

    Sok klaszterező algoritmus gyakran természetellenes struktúrát „kényszerít” az adatokra, és megzavarja a kutatót. Ezért rendkívül szükséges több klaszterelemzési algoritmus alkalmazása és az algoritmusok eredményeinek átfogó értékelése alapján következtetések levonása.

    Az elemzés eredményei a megjelenő párbeszédpanelen tekinthetők meg:

    Ha kiválasztja az Átlagok grafikonja lapot, a klaszterközéppontok koordinátáinak grafikonja készül:


    Minden szaggatott vonal ezen a grafikonon az egyik klaszternek felel meg. Minden osztály vízszintes tengely a grafika az elemzésben szereplő változók egyikének felel meg.

    A függőleges tengely az egyes klaszterekbe tartozó objektumok változóinak átlagértékeinek felel meg.

    Megállapítható, hogy szinte minden kérdésben jelentős különbségek mutatkoznak a két embercsoport pályafutásához való hozzáállásában. Egyetlen kérdésben van teljes egyetértés – a társadalmi jólét érzése (SSW), pontosabban annak hiánya (2,5 pont a 10-ből).

    Feltételezhetjük, hogy az 1. klaszter a dolgozókat, a 2. klaszter pedig a menedzsmentet. A vezetők elégedettebbek a karriernövekedéssel (CG), a személyes célok és a szervezeti célok kombinációjával (SLC).

    Magasabb az észlelt gazdasági jólét (SEW) és az észlelt fizetési méltányosság (SPE) szintje.

    Kevésbé aggódnak az otthonuk területi közelsége (TPH) miatt, mint a munkavállalók, valószínűleg a kevesebb közlekedési probléma miatt. Ezenkívül a vezetők kevésbé akarnak munkahelyet váltani (JSR).

    Annak ellenére, hogy a munkavállalókat két kategóriába sorolják, a legtöbb kérdésre viszonylag egyformán válaszolnak. Más szóval, ha valami nem felel meg a munkavállalók általános csoportjának, az nem felel meg a felső vezetésnek, és fordítva.

    Az időbeosztások összehangolása arra enged következtetni, hogy az egyik csoport jóléte egy másik csoport jólétében tükröződik.

    Az 1. klaszter nem elégedett az otthonhoz való területi közelséggel. Ez a csoport alkotja azoknak a munkavállalóknak a zömét, akik főként együtt érkeznek a vállalkozásba különböző oldalak városok.

    Ezért javasolható a fő vezetésnek, hogy a nyereség egy részét fordítsák a cég alkalmazottainak lakásépítésére.

    Jelentős különbségek vannak a két embercsoport karrierjéhez való hozzáállásában. Azok a munkavállalók, akik elégedettek a karrier növekedésével, akiknél nagy az egyezés a személyes célok és a szervezet céljai között, nem vágynak munkahelyet váltani, és elégedettnek érzik magukat munkájuk eredményével.

    Ezzel szemben azok a munkavállalók, akik munkahelyet akarnak váltani, és elégedetlenek munkájuk eredményével, nem elégedettek a megadott mutatókkal. A felső vezetésnek különös figyelmet kell fordítani a jelenlegi helyzetre.

    Az egyes jellemzők varianciaanalízisének eredményei a Varianciaanalízis gombra kattintva jelennek meg.

    Megjelenik az objektumok klaszterközpontoktól való eltéréseinek négyzetes összege (SS belül), valamint a klaszterközpontok közötti eltérések négyzetes összege (SS Between), az F-statisztikai értékek és a p szignifikanciaszintek.

    Figyelem!

    Példánkban két változó szignifikanciaszintje meglehetősen nagy, amit a megfigyelések kis száma magyaráz. IN teljes verzió A munkában fellelhető kutatások szerint a klaszterközpontok átlagegyenlőségére vonatkozó hipotéziseket 0,01-nél kisebb szignifikanciaszinten elvetik.

    Az Osztályozások és távolságok mentése gomb megjeleníti az egyes fürtökben lévő objektumok számát, valamint az objektumok távolságát az egyes klaszterek közepétől.

    A táblázat mutatja a megfigyelési számokat (CASE_NO), az alkotó klasztereket a CLUSTER számokkal és az egyes klaszterek középpontjától való távolságot (DISTANCE).

    A fürtökhöz tartozó objektumokkal kapcsolatos információk fájlba írhatók, és felhasználhatók további elemzésekhez. Ebben a példában a kérdőívekkel kapott eredmények összehasonlítása azt mutatta, hogy az 1. klaszter főleg hétköznapi dolgozókból, a 2. klaszter pedig vezetőkből áll.

    Megállapítható tehát, hogy a felmérési eredmények feldolgozásakor klaszteranalízis bizonyult erőteljes módszer, lehetővé téve olyan következtetések levonását, amelyekre nem lehet levonni az átlagok hisztogramját, vagy kiszámítani, hogy a munkával töltött életminőség különböző mutatóival hány százalékban elégedettek.

    A fa klaszterezés egy példa egy hierarchikus algoritmusra, melynek elve az, hogy szekvenciálisan egyesítik egy klaszterbe, először a legközelebbi, majd egyre távolabbi elemeket egymástól.

    A legtöbb ilyen algoritmus egy hasonlósági (távolsági) mátrixból indul ki, és minden egyes elemet először külön klaszternek tekintünk.

    A fürtelemző modul betöltése és a Joining (fa klaszterezés) kiválasztása után a fürtözési paraméterek beviteli ablakában a következő paramétereket módosíthatja:

    • Kezdeti adatok (Input). Ezek lehetnek a vizsgált adatok mátrixa (Raw data) és távolságmátrix (Distance matrix) formájában.
    • Egy objektum állapotát leíró megfigyelések (Cases (raw)) vagy változók (Változó (oszlopok)) klaszterezése.
    • Távolságmérés. Itt a következő mértékeket választhatja ki: Euklideszi távolságok, Négyzetes euklideszi távolságok, Várostömb (Manhattan) távolság, Chebychev távolság metrika, Teljesítmény távolság...), Százalékos nézeteltérés.
    • Klaszterezési módszer (Amalgamation (linkage) szabály). A következő opciók lehetségesek: Egyszeri kapcsolat, Teljes kapcsolódás, Súlyozatlan pár-csoport átlag, Súlyozott pár-csoport átlag ), Súlyozatlan pár-csoport centroid, Súlyozott pár-csoport centroid (medián), Ward módszere.

    A klaszterezés eredményeként egy vízszintes vagy függőleges dendrogram jön létre - egy grafikon, amelyen az objektumok és a klaszterek közötti távolságok meghatározásra kerülnek, ha szekvenciálisan kombinálják őket.

    A grafikon fastruktúrája lehetővé teszi a klaszterek meghatározását a kiválasztott küszöbértéktől – a klaszterek közötti meghatározott távolságtól függően.

    Ezenkívül megjelenik az eredeti objektumok közötti távolságok mátrixa (Distance matrix); az egyes forrásobjektumok átlagos és szórása (Distiptív statisztika).

    A vizsgált példában az alapértelmezett beállításokkal rendelkező változók klaszteranalízisét végezzük el. A kapott dendrogram az ábrán látható.


    A dendrogram függőleges tengelye az objektumok, valamint az objektumok és a klaszterek közötti távolságokat mutatja. Így az OEB és az OSD változók közötti távolság öt. Az első lépésben ezeket a változókat egy klaszterbe egyesítik.

    A dendrogram vízszintes szegmensei az adott klaszterezési lépéshez kiválasztott távolsági küszöbértékeknek megfelelő szinteken rajzolódnak ki.

    A grafikonon látható, hogy a „munkahelyváltási vágy” (WSW) kérdés külön klasztert alkot. Általában mindenkit egyformán meglátogat a vágy, hogy bárhová menjünk. Ezután egy külön klaszter az otthonhoz való területi közelség (TDP) kérdése.

    Fontosságát tekintve a második helyen áll, ami megerősíti a K-közép módszerrel végzett vizsgálat eredményei alapján a lakásépítés szükségességére vonatkozó következtetést.

    Az észlelt gazdasági jólét (SEW) és a fizetési méltányosság (SEE) egyesül – ez egy blokk gazdasági kérdések. A karrierfejlesztés (CR) és a személyes és szervezeti célok kombinációja (LOG) is ötvöződik.

    Más klaszterezési módszerek, valamint más típusú távolságok megválasztása nem vezet jelentős változáshoz a dendrogramban.

    Eredmények:

    1. A klaszteranalízis az erős eszköz feltáró adatelemzés és statisztikai kutatás bármely témakörben.
    2. A Statistica program a klaszterelemzés hierarchikus és strukturális módszereit egyaránt megvalósítja. Ennek a statisztikai csomagnak az előnyei a grafikus képességeikből fakadnak. A kapott klaszterek kétdimenziós és háromdimenziós grafikus megjelenítése a vizsgált változók terében, valamint az objektumok csoportosítására szolgáló hierarchikus eljárás eredményei.
    3. Több klaszterelemzési algoritmust kell alkalmazni, és az algoritmusok eredményeinek átfogó értékelése alapján következtetéseket levonni.
    4. A klaszterelemzés akkor tekinthető sikeresnek, ha elkészül különböző módokon, az eredményeket összehasonlítottuk és általános mintákat találtunk, és stabil klasztereket találtunk a klaszterezési módszertől függetlenül.
    5. A klaszterelemzés lehetővé teszi a problémahelyzetek azonosítását és a megoldási módok felvázolását. Ezért ez a módszer nem paraméteres statisztikaúgy lehet látni összetevő rendszerelemzés.


    Előző cikk: Következő cikk:

© 2015 .
Az oldalról | Kapcsolatok
| Webhelytérkép