Clustering - grupimi i objekteve të ngjashme në grupe - është një nga detyrat themelore në fushën e analizës së të dhënave dhe Mining të të dhënave. Lista e fushave të aplikimit ku përdoret është e gjerë: segmentimi i imazhit, marketingu, anti-mashtrimi, parashikimi, analiza e tekstit dhe shumë të tjera. Në fazën aktuale, grupimi është shpesh hapi i parë në analizën e të dhënave. Pas identifikimit të grupeve të ngjashme, përdoren metoda të tjera dhe ndërtohet një model i veçantë për secilin grup.

Problemi i grupimit në një formë ose në një tjetër është formuluar në fusha të tilla shkencore si statistikat, njohja e modeleve, optimizimi dhe mësimi i makinerive. Prandaj edhe shumëllojshmëria e sinonimeve për konceptin grup - klasë, takson, kondensim.

Për momentin, numri i metodave për ndarjen e grupeve të objekteve në grupe është mjaft i madh - disa dhjetëra algoritme dhe madje edhe më shumë modifikime të tyre. Megjithatë, ne jemi të interesuar për grupimin e algoritmeve nga pikëpamja e aplikimit të tyre në Data Mining.

Clustering në Data Mining

Clustering në Data Mining bëhet i vlefshëm kur ai vepron si një nga fazat e analizës së të dhënave dhe ndërtimit të një zgjidhjeje të plotë analitike. Shpesh është më e lehtë për një analist të identifikojë grupe objektesh të ngjashme, të studiojë tiparet e tyre dhe të ndërtojë një model të veçantë për secilin grup sesa të krijojë një të tillë. model i përgjithshëm mbi të gjitha të dhënat. Kjo teknikë përdoret vazhdimisht në marketing, duke identifikuar grupet e klientëve, blerësve, produkteve dhe duke zhvilluar një strategji të veçantë për secilin prej tyre.

Shumë shpesh, të dhënat e hasura nga teknologjia e Data Mining kanë këto karakteristika të rëndësishme:

dimension të lartë (mijëra fusha) dhe vëllim të madh (qindra mijëra e miliona regjistrime) tabelash të bazës së të dhënave dhe magazina të dhënash (baza të dhënash jashtëzakonisht të mëdha);
grupet e të dhënave përmbajnë nje numer i madh i numerike Dhe kategorik atributet.

Të gjitha atributet ose karakteristikat e objekteve ndahen në numerike(numerike) dhe kategorik(kategorike). Atributet numerike janë ato që mund të renditen në hapësirë, ndërsa atributet kategorike janë ato që nuk mund të renditen. Për shembull, atributi "moshë" është numerik, dhe "ngjyra" është kategorik. Atribuimi i vlerave tek atributet ndodh gjatë matjeve me llojin e zgjedhur të shkallës, dhe kjo, në përgjithësi, është një detyrë më vete.

Shumica e algoritmeve të grupimit përfshijnë krahasimin e objekteve me njëri-tjetrin bazuar në një masë të afërsisë (ngjashmërisë). Një masë e afërsisë është një sasi që ka një kufi dhe rritet me rritjen e afërsisë së objekteve. Masat e ngjashmërisë "shpihen" sipas rregullave të veçanta, dhe zgjedhja e masave specifike varet nga detyra, si dhe nga shkalla e matjes. Përdoret shumë shpesh si masë afërsie për atributet numerike. Distanca euklidiane, llogaritur me formulën:

$$D (x, y)=\sqrt(\sum_(i)((x-y)^2))$$

Nevoja për të përpunuar sasi të mëdha të dhënash në Data Mining ka çuar në formulimin e kërkesave që, nëse është e mundur, duhet të plotësojë algoritmi i grupimit. Le t'i shikojmë ato:

Numri minimal i mundshëm i kalimeve nëpër bazën e të dhënave;
Puna në një sasi të kufizuar RAM të kompjuterit;
Algoritmi mund të ndërpritet dhe rezultatet e ndërmjetme të ruhen për të vazhduar llogaritjet më vonë;
Algoritmi duhet të funksionojë kur objektet nga baza e të dhënave mund të merren vetëm në modalitetin e kursorit me një drejtim (d.m.th., në modalitetin e navigimit të regjistrimit).

Një algoritëm që plotëson këto kërkesa (sidomos i dyti) do të quhet i shkallëzuar(i shkallëzuar). Shkallëzueshmëria - prona më e rëndësishme algoritmi, në varësi të kompleksitetit të tij llogaritës dhe zbatimit të softuerit. Ekziston edhe një përkufizim më i gjerë. Një algoritëm quhet i shkallëzuar nëse, me një kapacitet konstant RAM, koha e funksionimit të tij rritet në mënyrë lineare me një rritje të numrit të regjistrimeve në bazën e të dhënave.

Por nuk është gjithmonë e nevojshme të përpunohen sasi jashtëzakonisht të mëdha të dhënash. Prandaj, në agimin e formimit të teorisë së analizës së grupimeve, praktikisht nuk iu kushtua vëmendje shkallëzueshmërisë së algoritmeve. Supozohej se të gjitha të dhënat e përpunuara do të përshtateshin në RAM; theksi kryesor ishte gjithmonë në përmirësimin e cilësisë së grupimit. Është e vështirë të arrihet një ekuilibër midis grupimit me cilësi të lartë dhe shkallëzueshmërisë. Prandaj, në mënyrë ideale, arsenali i Minierave të të Dhënave duhet të përmbajë si algoritme efikase të grupimit të mikrovargjeve, ashtu edhe ato që janë të shkallëzueshme për përpunimin e bazave të të dhënave të mëdha.

Algoritmet e grupimit: shkëlqimi dhe mjerimi

Pra, tashmë është e mundur të klasifikohen algoritmet e grupimeve në i shkallëzuar Dhe jo i shkallëzueshëm. Le të vazhdojmë klasifikimin.

Bazuar në metodën e ndarjes në grupe, algoritmet janë dy llojesh: hierarkike dhe johierarkike. Algoritmet klasike hierarkike funksionojnë vetëm me atribute kategorike kur ndërtohet një pemë e plotë e grupimeve të mbivendosura. Metodat aglomerative për ndërtimin e hierarkive të grupimeve janë të zakonshme këtu - ato përfshijnë kombinimin sekuencial të objekteve fillestare dhe një reduktim përkatës në numrin e grupimeve. Algoritmet hierarkike sigurojnë grupim me cilësi relativisht të lartë dhe nuk kërkojnë para-specifikim të numrit të grupimeve. Shumica e tyre kanë kompleksitet O(n 2).

Algoritmet johierarkike bazohen në optimizimin e një funksioni të caktuar objektiv që përcakton ndarjen optimale, në një kuptim të caktuar, të një grupi objektesh në grupime. Të njohura në këtë grup janë algoritmet e familjes k-means (k-means, fuzzy c-means, Gustafson-Kessel), të cilat përdorin si funksion objektiv shumën e devijimeve të ponderuara në katror të koordinatave të objektit nga qendrat e grupimeve të dëshiruara. . Grupet kërkohen për forma sferike ose elipsoidale. Në zbatimin kanonik, funksioni minimizohet bazuar në metodën e shumëzuesit Lagrange dhe lejon që dikush të gjejë vetëm minimumin më të afërt lokal. Përdorimi i metodave globale të kërkimit ( algoritme gjenetike) do të rrisë ndjeshëm kompleksitetin llogaritës të algoritmit.

Ndër algoritmet johierarkike që nuk bazohen në distancë, duhet të theksohet algoritmi EM (Pritje-Maksimizim). Në të, në vend të qendrave të grupimeve, supozohet se ekziston një funksion i densitetit të probabilitetit për çdo grup me vlerën dhe variancën përkatëse të pritjes matematikore. Në një përzierje shpërndarjesh (Fig. 2), kryhet një kërkim për parametrat e tyre (mesatarja dhe devijimet standarde) sipas parimit të gjasave maksimale. Algoritmi EM është një nga implementimet e një kërkimi të tillë. Problemi është se përpara fillimit të algoritmit, parashtrohet një hipotezë për llojin e shpërndarjeve që janë të vështira për t'u vlerësuar në grupin e përgjithshëm të të dhënave.

Një problem tjetër lind kur atributet e një objekti janë të përziera - një pjesë është e tipit numerik dhe pjesa tjetër është e tipit kategorik. Për shembull, le të themi se duhet të llogaritni distancën midis objekteve të mëposhtme me atribute (Mosha, Gjinia, Arsimi):

(1) (23, burri, më i lartë)
(2) (25, femra, mesatare).

Atributi i parë është numerik, pjesa tjetër janë kategorike. Nëse duam të përdorim një algoritëm klasik hierarkik me ndonjë masë ngjashmërie, do të duhet të diskreditojmë disi atributin Age. Për shembull, si kjo:

(1) (nën 30 vjeç, bashkëshorti, arsimi i lartë)
(2) (deri në 30 vjeç, femër, e mesme).

Në këtë rast, sigurisht që do të humbasim disa informacione. Nëse përcaktojmë distancën në hapësirën Euklidiane, atëherë do të lindin pyetje me atribute kategorike. Është e qartë se distanca midis "gjinisë së burrit" dhe "gjinisë së grave" është e barabartë me 0, sepse vlerat e kësaj karakteristike janë në shkallën e emërtimit. Dhe atributi "Edukimi" mund të matet si në shkallën e emrave ashtu edhe në shkallën e rendit, duke caktuar pikë të caktuara për secilën vlerë. Cilin opsion duhet të zgjedh? Por, çka nëse atributet kategorike janë më të rëndësishme se ato numerike? Zgjidhja e këtyre problemeve bie mbi supet e analistit. Për më tepër, kur përdorni algoritmin k-means dhe ato të ngjashme, lindin vështirësi me të kuptuarit e qendrave të grupimeve të atributeve kategorike dhe përcaktimin a priori të numrit të grupimeve.

Algoritmi për optimizimin e funksionit objektiv në algoritmet johierarkike të bazuara në distancë është iterativ në natyrë dhe në çdo përsëritje është e nevojshme të llogaritet një matricë e distancave midis objekteve. Me një numër të madh objektesh, kjo është joefikase dhe kërkon burime serioze llogaritëse. Kompleksiteti llogaritës i përsëritjes së parë të algoritmit k-means vlerësohet si O(kmn), ku k,m,n është respektivisht numri i grupimeve, atributeve dhe objekteve. Por mund të ketë shumë përsëritje! Ju do të duhet të bëni shumë kalime përmes grupit të të dhënave.

Vetë qasja me idenë e kërkimit të grupimeve me formë sferike ose elipsoidale ka shumë disavantazhe në k-means. Qasja funksionon mirë kur të dhënat në hapësirë formojnë grumbullime kompakte që dallohen qartë nga njëra-tjetra. Dhe nëse të dhënat janë të mbivendosura, atëherë asnjë nga algoritmet k-means nuk do të përballet kurrë me një detyrë të tillë. Gjithashtu, algoritmi nuk funksionon mirë në rastin kur një grup është shumë më i madh se të tjerët, dhe ato janë afër njëri-tjetrit - ndodh efekti i "ndarjes" së një grupi të madh (Fig. 3).

Megjithatë, kërkimet në fushën e përmirësimit të algoritmeve të grupimit janë në vazhdim. Zgjerime interesante të algoritmit k-means janë zhvilluar për të punuar me atributet kategorike (k-mode) dhe atribute të përziera (k-prototipe). Për shembull, k-prototypes llogarit distancat midis objekteve në mënyra të ndryshme në varësi të llojit të atributit.

Në tregun e algoritmeve të grupimit të shkallëzuar, beteja është të zvogëlohet çdo kalim "shtesë" përmes grupit të të dhënave ndërsa algoritmi është në punë. Janë zhvilluar analoge të shkallëzueshme të k-means dhe EM (scalable k-means and scalable EM), metoda aglomerative të shkallëzueshme (CURE, CACTUS). Këto algoritme moderne kërkojnë vetëm disa (dy deri në dhjetë) skanime të bazës së të dhënave përpara se të marrin grupimin përfundimtar.

Marrja e algoritmeve të shkallëzuar bazohet në idenë e braktisjes lokal funksionet e optimizimit. Krahasimi i çiftëzuar objektet mes tyre në algoritmin k-means nuk është gjë tjetër veçse optimizim lokal, sepse Në çdo përsëritje, është e nevojshme të llogaritet distanca nga qendra e grupit në çdo objekt. Kjo çon në kosto të larta llogaritëse. Kur vendoset globale Funksionet e optimizimit janë shtuar pikë e re nuk kërkon një grup llogaritje e madhe: llogaritet në bazë të vlerës së vjetër, objektit të ri dhe të ashtuquajturit karakteristikat e grupimit(veçoritë e grupimeve). Karakteristikat specifike të grupimit varen nga një algoritëm i veçantë. Kështu u shfaqën algoritmet BIRCH, LargeItem, CLOPE dhe shumë të tjerë.

Kështu, nuk ka asnjë algoritëm të vetëm universal të grupimit. Kur përdorni ndonjë algoritëm, është e rëndësishme të kuptoni avantazhet dhe disavantazhet e tij, të merrni parasysh natyrën e të dhënave me të cilat funksionon më mirë dhe aftësinë e tij për të shkallëzuar.

Letërsia

Bradley, P., Fayyad, U., Reina, C. Scaling Clustering Algorithms to Large Databases, Proc. Konferenca e 4-të Ndërkombëtare Zbulimi i njohurive dhe Minimi i të Dhënave, AAAI Press, Menlo Park, Kaliforni, 1998.
Zhang, T., Ramakrishnan, R., Livny, M. Birch: An Efficient Data Clustering Method for Large Databases, Proc. ACM SIGMOD Konf. Ndërkombëtar. Menaxhimi i të dhënave, ACM Press, Nju Jork, 1996.
Paul S. Bradley, Usama M. Fayyad, Cory A. Reina Scaling EM (Expectation-Maximization) Clustering to Large Databases, Microsoft Research, 1999.
Z. Huang. Grumbullimi i grupeve të mëdha të të dhënave me vlera të përziera numerike dhe kategorike. Në Konferencën e Parë Paqësor-Azi mbi Zbulimin e Njohurive dhe Minierat e të Dhënave, 1997.
Milenova, B., Campos, M. Grumbullimi i bazave të të dhënave të mëdha me vlera numerike dhe nominale duke përdorur projeksione ortogonale, Oracle Data Mining Technologies, 2002.
Z. Huang. Një algoritëm i shpejtë grupimi për të grumbulluar grupe të dhënash shumë të mëdha kategorike në Minierat e të Dhënave. Çështjet Kërkimore mbi Minierat e të Dhënave dhe KDD, 1997.
Wang, K., Xu, C.. Liu, B. Grumbullimi i transaksioneve duke përdorur artikuj të mëdhenj. Në Proc. CIKM'99, Kansas, Misuri, 1999.
Guha S., Rastogi R., Shim K. CURE: An Efficient Clustering Algorithm for Large Databases, Proc. ACM SIGMOD Konf. Ndërkombëtar. Menaxhimi i të dhënave, ACM Press, Nju Jork, 1998.
Ganti V., Gerhke J., Ramakrishan R. KACTUS – Grumbullimi i të dhënave kategorike duke përdorur përmbledhjet. Në Proc KDD'99, 1999.
J. Bilmes. Një tutorial i butë mbi algoritmin EM dhe aplikimi i tij në vlerësimin e parametrave për përzierjet Gaussian dhe modelet e fshehura Markov, Tekn. Raporti ICSI-TR-97-021, 1997.
Minimi i të dhënave në bazat e të dhënave ultra të mëdha / V. Ganti, J. Gerke, R. Ramakrishnan // Open Systems, Nr. 9-10, 1999.
Barseghyan et al Metodat dhe modelet e analizës së të dhënave: OLAP dhe Data Mining. – Shën Petersburg, 2004.

Detyrat e grupimit në Data Mining

Hyrje në analizën e grupimeve

Nga të gjithë gamën e gjerë të aplikimeve të analizës së grupimeve, për shembull, problemet e parashikimit socio-ekonomik.

Kur analizon dhe parashikon dukuritë socio-ekonomike, studiuesi mjaft shpesh ndeshet me shumëdimensionalitetin e përshkrimit të tyre. Kjo ndodh kur zgjidhet problemi i segmentimit të tregut, duke ndërtuar një tipologji të vendeve sipas mjaftueshëm një numër i madh treguesit, parashikimi i kushteve të tregut për mallra individuale, studimi dhe parashikimi i depresionit ekonomik dhe shumë probleme të tjera.

Metodat analiza multivariate- mjeti sasior më efektiv për studimin e proceseve socio-ekonomike të përshkruara nga një numër i madh karakteristikash. Këto përfshijnë analizën e grupimeve, taksonominë, njohjen e modelit dhe analizën e faktorëve.

Analiza e grupimeve pasqyron më qartë tiparet e analizës multivariate në klasifikim, analizën e faktorëve - në studimin e marrëdhënieve.

Ndonjëherë qasja e analizës së grupimeve quhet në literaturë taksonomia numerike, klasifikimi numerik, njohja e vetë-mësimit, etj.

Analiza e grupeve gjeti aplikimin e saj të parë në sociologji. Emri analizë grupore vjen nga fjalë angleze grumbull – grumbull, grumbullim. Për herë të parë në vitin 1939, lënda e analizës së grupimeve u përcaktua dhe u përshkrua nga studiuesi Trion. Qëllimi kryesor i analizës së grupimeve është të ndajë grupin e objekteve dhe karakteristikave në studim në grupe ose grupe që janë homogjene në kuptimin e duhur. Kjo do të thotë se problemi i klasifikimit të të dhënave dhe identifikimit të strukturës përkatëse në to është duke u zgjidhur. Metodat e analizës së grupimeve mund të përdoren në një larmi rastesh, edhe në rastet kur bëhet fjalë për grupim të thjeshtë, në të cilin gjithçka zbret në formimin e grupeve bazuar në ngjashmërinë sasiore.

Avantazhi i madh i analizës së grupimeveështë se ju lejon të ndani objektet jo sipas një parametri, por sipas një grupi të tërë karakteristikash. Për më tepër, analiza e grupimeve, ndryshe nga shumica e metodave matematikore dhe statistikore, nuk imponon asnjë kufizim në llojin e objekteve në shqyrtim dhe lejon që dikush të marrë në konsideratë një sërë të dhënash fillestare të një natyre pothuajse arbitrare. Kjo ka një rëndësi të madhe, për shembull, për parashikimin e situatës së tregut, kur treguesit kanë një formë të larmishme, duke e bërë të vështirë përdorimin e metodave tradicionale ekonometrike.

Analiza e grupeve ju lejon të konsideroni një sasi mjaft të madhe informacioni dhe të zvogëloni dhe ngjeshni në mënyrë dramatike sasi të mëdha informacioni socio-ekonomik, duke i bërë ato kompakte dhe vizuale.

Analiza e grupimeve është e rëndësishme në lidhje me grupet e serive kohore që karakterizojnë zhvillimin ekonomik (për shembull, kushtet e përgjithshme ekonomike dhe të mallrave). Këtu mund të theksoni periudhat kur vlerat e treguesve përkatës ishin mjaft afër, si dhe të përcaktoni grupet e serive kohore, dinamikat e të cilave janë më të ngjashme.

Analiza e grupimeve mund të përdoret në mënyrë të përsëritur. Në këtë rast, hulumtimi kryhet derisa të arrihen rezultatet e nevojshme. Për më tepër, çdo cikël këtu mund të sigurojë informacion që mund të ndryshojë shumë drejtimin dhe qasjet ndaj aplikimit të mëtejshëm të analizës së grupimeve. Ky proces mund të përfaqësohet si një sistem reagimi.

Në detyrat e parashikimit socio-ekonomik, kombinimi i analizës së grupimeve me metoda të tjera sasiore (për shembull, analiza e regresionit) është shumë premtuese.

Ashtu si çdo metodë tjetër , analiza e grupimeve ka disavantazhe dhe kufizime të caktuara: Në veçanti, numri i grupimeve varet nga kriteret e përzgjedhura të ndarjes. Kur zvogëlohet grupi i të dhënave origjinale në një formë më kompakte, mund të ndodhin disa shtrembërime dhe gjithashtu mund të humbasin. tiparet e personalitetit objekte individuale duke zëvendësuar karakteristikat e tyre me vlerat e përgjithësuara të parametrave të grupimit. Gjatë klasifikimit të objekteve, shpesh injorohet mundësia e mungesës së ndonjë vlere grupi në grupin e konsideruar.

Në analizën e grupimeve konsiderohet se:

a) karakteristikat e zgjedhura lejojnë, në parim, ndarjen e dëshiruar në grupe;

b) janë zgjedhur drejt njësitë matëse (shkalla).

Zgjedhja e shkallës luan një rol të madh. Në mënyrë tipike, të dhënat normalizohen duke zbritur mesataren dhe pjesëtuar me devijimin standard në mënyrë që varianca të jetë e barabartë me një.

1. Problemi i grupimit

Detyra e grupimit është që, bazuar në të dhënat që përmban grupi X, ndanë shumë objekte G në m (m– të tëra) grupime (nëngrupe) P 1Q 2,…,Qm, në mënyrë që çdo objekt Gj i përkiste një dhe vetëm një nëngrupi të ndarjes dhe se objektet që i përkisnin të njëjtit grup ishin të ngjashëm, ndërsa objektet që i përkisnin grupeve të ndryshme ishin të pangjashëm.

Për shembull, le G përfshin n vende, secili prej të cilave karakterizohet nga GNP për frymë ( F 1), numri M makina për 1 mijë njerëz ( F 2), konsumi i energjisë elektrike për frymë ( F 3), konsumi për frymë i çelikut ( F 4) etj. Pastaj X 1(vektori i matjes) është një grup karakteristikash të specifikuara për vendin e parë, X 2- për të dytën, X 3 për të tretën etj. Qëllimi është kategorizimi i vendeve sipas nivelit të zhvillimit.

Zgjidhja e problemit të analizës së grupimeve është ndarjet që plotësojnë disa kritere optimaliteti. Ky kriter mund të jetë një lloj funksional që shpreh nivelet e dëshirueshmërisë së ndarjeve dhe grupimeve të ndryshme, i cili quhet funksion objektiv. Për shembull, shuma brenda grupit të devijimeve në katror mund të merret si funksion objektiv:

Ku x j- paraqet matje j- objekti.

Për të zgjidhur problemin e analizës së grupimeve, është e nevojshme të përcaktohet koncepti i ngjashmërisë dhe heterogjenitetit.

Është e qartë se objektet i -të dhe j-th do të binte në një grup kur distanca (largësia) midis pikave X i Dhe X j do të ishte mjaft i vogël dhe do të binte në grupime të ndryshme kur kjo distancë ishte mjaft e madhe. Kështu, rënia në një ose grupe të ndryshme objektesh përcaktohet nga koncepti i distancës midis X i Dhe X j nga Er, Ku Er - R-hapësirë euklidiane dimensionale. Funksioni jo negativ d(X i, X j) quhet funksion i distancës (metrik) nëse:

A) d(Xi, X j)³ 0 , per te gjithe X i Dhe X j nga Er

b) d(Xi, X j) = 0, nese dhe vetem nese X i= X j

V) d(Xi , X j) = d(X j , X i)

G) d(Xi, X j)£ d(Xi, X k) + d(X k, X j), ku X j; Xi dhe X k- çdo tre vektorë nga Er.

Kuptimi d(Xi, X j) Për Xi Dhe X j quhet distanca ndërmjet Xi Dhe X j dhe është e barabartë me distancën ndërmjet Gi Dhe G j sipas karakteristikave të përzgjedhura (F 1, F 2, F 3, ..., F p).

Funksionet më të përdorura të distancës janë:

1. Distanca Euklidiane d 2 (Xi , X j) =

2. l 1- normë d 1 (Xi , X j) =

3. Supremumi është normë d ¥ (Xi , X j) = sup

k = 1, 2, ..., fq

4. l f- normë d p (Xi , X j) =

Metrika Euklidiane është më e popullarizuara. Metrika l 1 është më e lehtë për t'u llogaritur. Norma supreme llogaritet lehtësisht dhe përfshin një procedurë porositjeje, a l f- norma mbulon funksionet e distancave 1, 2, 3,.

Le të jenë n dimensione X 1, X 2,..., Xn paraqitet si një matricë e të dhënave të madhësisë fq´ n:

Pastaj distanca midis çifteve të vektorëve d(X i, X j) mund të përfaqësohet si një matricë simetrike e distancës:

Koncepti i kundërt me distancën është koncepti i ngjashmërisë midis objekteve G i . Dhe G j. Funksion real jo negativ S(X i; X j) = S i j quhet masë ngjashmërie nëse:

1) 0 £ S(X i, X j)< 1 për X i ¹ X j

2) S( Xi, Xi) = 1

3) S( Xi, Xj) = S(Xj, X i )

Çiftet e vlerave të matjes së ngjashmërisë mund të kombinohen në një matricë ngjashmërie:

Madhësia Sij quhet koeficienti i ngjashmërisë.

2. Metodat e grupimit

Sot ka mjaft metoda të analizës së grupimeve. Le të shohim disa prej tyre (metodat e dhëna më poshtë zakonisht quhen metoda minimale të variancës).

Le X- matrica e vëzhgimit: X = (X 1, X 2,..., X u) dhe katrorin e distancës Euklidiane ndërmjet X i Dhe X j përcaktohet nga formula:

1) Metoda e plotë e lidhjes.

Thelbi i kësaj metode është se dy objekte që i përkasin të njëjtit grup (grup) kanë një koeficient ngjashmërie që është më pak se një vlerë e caktuar pragu. S. Për sa i përket distancës Euklidiane d kjo do të thotë që distanca midis dy pikave (objekteve) të grupit nuk duhet të kalojë një vlerë të caktuar praguh. Kështu, hpërcakton diametrin maksimal të lejuar të nëngrupit që formon grupimin.

2) Metoda e distancës maksimale lokale.

Çdo objekt trajtohet si një grup pikësh. Objektet grupohen sipas rregullit të mëposhtëm: dy grupe kombinohen nëse distanca maksimale midis pikave të një grupi dhe pikave të tjetrës është minimale. Procedura përbëhet nga n - 1 hapat dhe rezultati janë ndarje që përkojnë me të gjitha ndarjet e mundshme në metodën e mëparshme për çdo vlerë pragu.

3) Metoda e fjalës.

Në këtë metodë, si funksion objektiv përdoret shuma brendagrupore e devijimeve në katror, e cila nuk është gjë tjetër veçse shuma e distancave në katror ndërmjet secilës pikë (objekt) dhe mesatares së grupit që përmban këtë objekt. Në çdo hap, kombinohen dy grupime që çojnë në një rritje minimale të funksionit objektiv, d.m.th. shuma brenda grupit të katrorëve. Kjo metodë synon të kombinojë grupimet e vendosura afër.

4) Metoda Centroid.

Distanca midis dy grupimeve përcaktohet si distanca Euklidiane midis qendrave (mesatareve) të këtyre grupimeve:

d 2ij =(` X -` Y) T (` X -` Y) Grumbullimi ndodh në faza në secilën prej n–1 hapat kombinojnë dy grupime G Dhe fq duke pasur vlerë minimale d 2 ij Nëse n 1 me shume n 2, atëherë qendrat e bashkimit të dy grupimeve janë afër njëra-tjetrës dhe karakteristikat e grupit të dytë praktikisht injorohen gjatë bashkimit të grupimeve. Kjo metodë nganjëherë quhet edhe metoda e grupit të peshuar.

3. Algoritmi i grupimit sekuencial

Le të shqyrtojmë Ι = (Ι 1, Ι 2, … Ιn) si shumë grupime (I 1), (Ι 2 ),…(Ιn). Le të zgjedhim dy prej tyre, për shembull, Ι i Dhe I j, të cilat në njëfarë kuptimi janë më afër njëra-tjetrës dhe do t'i bashkojmë në një grup. Grupi i ri i grupimeve, tashmë i përbërë nga n -1 grupime, do të jetë:

(Ι 1), (Ι 2)…, {Ι i, Ι j ), …, (Ιn).

Duke përsëritur procesin, marrim grupe të njëpasnjëshme grupesh që përbëhen nga (n -2), (n -3), (n -4) etj. grupime. Në fund të procedurës, mund të merrni një grup të përbërë nga n objekte dhe që përkon me grupin origjinal Ι = (Ι 1, Ι 2, … Ιn).

Si masë e distancës, marrim katrorin e metrikës Euklidiane d i j 2. dhe llogaritni matricën D = (di j 2 ), ku di j 2- katrori i distancës ndërmjet

Ι i dhe I j:

			….	Ι n
	d 12 2	d 13 2	….	d 1n 2
		d 23 2	….	d2n2
			….	d 3n 2
….			….	….
Ι n

Lëreni distancën ndërmjet Ι i Dhe Ι j do të jetë minimale:

d i j 2 = min (d i j 2 , i¹ j). Ne formojmë me ndihmën Ι i Dhe Ι j grup i ri

{Ι i, I j). Le të ndërtojmë një të re ((n-1), (n-1)) matrica e distancës

	(Ι i, Ι j)				….	Ι n
(Ι i; Ι j)		d i j 2 1	d i j 2 2		….	d i j 2 n
			d 12 2	d 1 3	….	d 1 2 n
					….	d 2 n
					….	d 3n

(n -2) Rreshtat për matricën e fundit janë marrë nga ajo e mëparshme, dhe rreshti i parë llogaritet përsëri. Llogaritjet mund të reduktohen në minimum nëse mund të shprehemi d i j 2 k ,k = 1, 2,…,n; (k¹ i¹ j) përmes elementeve të matricës origjinale.

Fillimisht, distanca përcaktohet vetëm midis grupimeve me një element, por është e nevojshme të përcaktohen distancat midis grupimeve që përmbajnë më shumë se një element. Mund të bëhet menyra te ndryshme, dhe në varësi të metodës së zgjedhur, marrim algoritme të analizës së grupimeve me veti të ndryshme. Për shembull, mund të vendosni distancën midis grupit i+j dhe disa grupe të tjera k, e barabartë me mesataren aritmetike të distancave ndërmjet grupimeve i Dhe k dhe grupimeve j Dhe k:

d i+j,k = ½ (d i k + d j k).

Por mund të përcaktohet edhe d i+j,k si minimumi i këtyre dy distancave:

d i+j,k = min (d i k + d j k).

Kështu, përshkruhet hapi i parë i algoritmit hierarkik aglomerativ. Hapat e mëvonshëm janë të ngjashëm.

Një klasë mjaft e gjerë e algoritmeve mund të merret nëse formula e përgjithshme e mëposhtme përdoret për të rillogaritur distancat:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Ku

A(w) = , nësed ik£ djk

A(w) = , nësed ik> djk

B(w) = , nësed i k £ djk

B (w) =, Nësed ik> djk

Ku n i Dhe n j- numri i elementeve në grupe i Dhe j, A w– një parametër i lirë, zgjedhja e të cilit përcaktohet nga një algoritëm specifik. Për shembull, kur w = 1 marrim të ashtuquajturin algoritëm " lidhje e mesme", për të cilën formula e rillogaritjes së distancës merr formën:

d i+j,k =

NË në këtë rast distanca midis dy grupimeve në çdo hap të algoritmit rezulton të jetë e barabartë me mesataren aritmetike të distancave midis të gjithë çifteve të elementeve, në mënyrë që një element i çiftit t'i përkasë një grupi, tjetri tjetrit.

Kuptimi vizual i parametrit w bëhet i qartë nëse vendosim w® ¥ . Formula për rillogaritjen e distancave merr formën:

d i+j,k =min (d i,kdjk)

Ky do të jetë i ashtuquajturi algoritmi "fqinji më i afërt", i cili ju lejon të identifikoni grupe të çdo forme komplekse, me kusht që pjesët e ndryshme të grupimeve të tilla të lidhen me zinxhirë elementësh afër njëri-tjetrit. Në këtë rast, distanca midis dy grupimeve në çdo hap të algoritmit rezulton të jetë e barabartë me distancën midis dy elementëve më të afërt që u përkasin këtyre dy grupimeve.

Shumë shpesh supozohet se janë dhënë distancat (diferencat) fillestare ndërmjet elementeve që grupohen. Në disa probleme kjo është me të vërtetë e vërtetë. Sidoqoftë, specifikohen vetëm objektet dhe karakteristikat e tyre, dhe bazuar në këto të dhëna ndërtohet një matricë e distancës. Në varësi të faktit nëse llogariten distancat midis objekteve ose midis karakteristikave të objekteve, përdoren metoda të ndryshme.

Në rastin e analizës grupore të objekteve, masa më e zakonshme e ndryshimit është ose katrori i distancës Euklidiane

(ku x ih, x jh- vlerat h- Shenja e për i th dhe j-th objekte, dhe m- numri i karakteristikave), ose vetë distanca Euklidiane. Nëse veçorive u caktohen pesha të ndryshme, atëherë këto pesha mund të merren parasysh gjatë llogaritjes së distancës

Ndonjëherë distanca përdoret si një masë e diferencës, e llogaritur me formulën:

të cilat quhen: distanca “Hamming”, “Manhattan” ose “blloku i qytetit”.

Një masë natyrore e ngjashmërisë së karakteristikave të objektit në shumë detyra është koeficienti i korrelacionit midis tyre

Ku m i , m j ,d unë,d j- respektivisht devijimet mesatare dhe standarde për karakteristikat i Dhe j. Një masë e ndryshimit midis karakteristikave mund të jetë vlera 1 - r. Në disa probleme, shenja e koeficientit të korrelacionit është e parëndësishme dhe varet vetëm nga zgjedhja e njësisë së matjes. Në këtë rast, përdoret matja e ndryshimit midis karakteristikave ô 1 - r i j ô

4. Numri i grupimeve

Një çështje shumë e rëndësishme është problemi i zgjedhjes së numrit të kërkuar të grupimeve. Ndonjëherë mund të zgjidhni m numrin e grupimeve a priori. Megjithatë, në rast i përgjithshëm ky numër përcaktohet në procesin e ndarjes së grupit në grupe.

Hulumtimi u krye nga Fortier dhe Solomon dhe u zbulua se numri i grupimeve duhet të merret për të arritur probabilitetin a se është gjetur ndarja më e mirë. Kështu, numri optimal i ndarjeve është një funksion i fraksionit të dhënë b ndarjet më të mira ose në një farë kuptimi të pranueshme në grupin e të gjitha të mundshmeve. Sa më i lartë të jetë proporcioni, aq më i madh është shpërndarja totale b ndarjet e pranueshme. Fortier dhe Solomon zhvilluan një tabelë që mund të përdoret për të gjetur numrin e ndarjeve të nevojshme. S(a , b ) varet nga a Dhe b (ku a është probabiliteti që të gjendet ndarja më e mirë, b - pjesa e ndarjeve më të mira në numrin e përgjithshëm të ndarjeve) Për më tepër, si masë heterogjeniteti, nuk përdoret masa e shpërndarjes, por masa e anëtarësimit të prezantuar nga Holzenger dhe Harman. Tabela e vlerave S(a , b ) jepet më poshtë.

Tabela e vleraveS(a , b )

b \ a	0.20	0.10	0.05	0.01	0.001	0.0001
0.20	8	11	14	21	31	42
0.10	16	22	29	44	66	88
0.05	32	45	59	90	135	180
0.01	161	230	299	459	689	918
0.001	1626	2326	3026	4652	6977	9303
0.0001	17475	25000	32526	55000	75000	100000

Shumë shpesh, kriteri për kombinimin (numri i grupimeve) është një ndryshim në funksionin përkatës. Për shembull, shuma e devijimeve në katror:

Procesi i grupimit duhet të korrespondojë këtu me një rritje minimale vijuese të vlerës së kriterit E. Prania e një kërcimi të mprehtë në vlerë E mund të interpretohet si një karakteristikë e numrit të grupimeve që ekzistojnë objektivisht në popullatën në studim.

Pra, mënyra e dytë për të përcaktuar numrin më të mirë të grupimeve zbret në identifikimin e kërcimeve të përcaktuara nga kalimi fazor nga një gjendje e lidhur fort në një gjendje të lidhur dobët të objekteve.

5. Dendogramet

Metoda më e njohur për paraqitjen e një matrice të distancës ose ngjashmërisë bazohet në idenë e një dendogrami ose diagrami peme. Një dendogram mund të përkufizohet si një paraqitje grafike e rezultateve të një procesi grupimi sekuencial, i cili kryhet në termat e një matrice të distancës. Duke përdorur një dendogram, ju mund të përfaqësoni grafikisht ose gjeometrikisht procedurën e grupimit, me kusht që kjo procedurë të funksionojë vetëm me elementë të matricës së distancës ose ngjashmërisë.

Ka shumë mënyra për të ndërtuar dendograme. Në dendogram, objektet janë të vendosura vertikalisht në të majtë, rezultatet e grumbullimit janë të vendosura në të djathtë. Vlerat e distancës ose ngjashmërisë që korrespondojnë me strukturën e grupimeve të reja përshkruhen përgjatë një linje horizontale në krye të dendogrameve.

Fig1

Figura 1 tregon një shembull të një dendogrami. Figura 1 korrespondon me rastin e gjashtë objekteve ( n=6) Dhe kkarakteristikat (shenjat). Objektet A Dhe ME janë më të afërt dhe për këtë arsye kombinohen në një grup në një nivel afërsie prej 0.9. ObjektetDDhe E bashkohen në nivelin 0.8. Tani kemi 4 grupime:

(A, C), (F), ( D, E), ( B) .

Më pas formohen grupe (A, C, F) Dhe ( E, D, B) , që korrespondon me nivelet e afërsisë prej 0.7 dhe 0.6. Së fundi, të gjitha objektet janë grupuar në një grup në një nivel prej 0.5.

Lloji i dendogramit varet nga zgjedhja e masës së ngjashmërisë ose distancës midis objekteve dhe grupimeve dhe metodës së grumbullimit. Pika më e rëndësishme është zgjedhja e masës së ngjashmërisë ose matjes së distancës midis objektit dhe grupit.

Numri i algoritmeve të analizës së grupimeve është shumë i madh. Të gjitha ato mund të ndahen në hierarkike dhe johierarkike.

Algoritmet hierarkike shoqërohen me ndërtimin e dendogrameve dhe ndahen në:

a) aglomerative, e karakterizuar nga kombinimi i njëpasnjëshëm i elementeve fillestare dhe një ulje përkatëse në numrin e grupimeve;

b) i ndashëm (i ndashëm), në të cilin rritet numri i grupimeve, duke filluar nga një, duke rezultuar në formimin e një sekuence grupesh ndarëse.

Algoritmet e analizës së grupimeve sot kanë një implementim të mirë të softuerit, i cili lejon zgjidhjen e problemeve të dimensionit më të madh.

6. Të dhënat

Analiza e grupimeve mund të aplikohet për të dhënat e intervalit, frekuencat dhe të dhënat binare. Është e rëndësishme që variablat të ndryshojnë në shkallë të krahasueshme.

Heterogjeniteti i njësive matëse dhe pamundësia që rezulton për të shprehur në mënyrë të vlefshme vlerat e treguesve të ndryshëm në të njëjtën shkallë çon në faktin se distancat midis pikave që pasqyrojnë pozicionin e objekteve në hapësirën e vetive të tyre rezultojnë të varen nga një shkallë e zgjedhur në mënyrë arbitrare. Për të eliminuar heterogjenitetin në matjen e të dhënave burimore, të gjitha vlerat e tyre janë të para-normalizuara, d.m.th. shprehen përmes raportit të këtyre vlerave me një vlerë të caktuar që pasqyron veti të caktuara të një treguesi të caktuar. Normalizimi i të dhënave fillestare për analizën e grupimeve ndonjëherë kryhet duke ndarë vlerat fillestare me devijimin standard të treguesve përkatës. Një mënyrë tjetër është llogaritja e të ashtuquajturit kontribut të standardizuar. Quhet gjithashtu Z-kontributi.

Z -kontributi tregon se sa devijime standarde ndajnë një vëzhgim të caktuar nga mesatarja:

Ku x i- kuptimi i këtij vëzhgimi,- mesatare, S- devijimi standard.

Mesatarja për Z - Kontributet janë zero dhe devijimi standard është 1.

Standardizimi lejon që vëzhgimet nga shpërndarje të ndryshme të krahasohen. Nëse shpërndarja e një variabli është normale (ose afër normales) dhe mesatarja dhe varianca njihen ose vlerësohen nga mostrat e mëdha, atëherë Z -Inputi i vëzhgimit jep informacion më specifik për vendndodhjen e tij.

Vini re se metodat e standardizimit nënkuptojnë njohjen e të gjitha veçorive si ekuivalente nga pikëpamja e përcaktimit të ngjashmërisë së objekteve në shqyrtim. Tashmë është vënë re se në lidhje me ekonominë, njohja e ekuivalencës së treguesve të ndryshëm nuk duket gjithmonë e justifikuar. Do të ishte e dëshirueshme, së bashku me standardizimin, t'i jepej secilit prej treguesve një peshë që pasqyron rëndësinë e tij në përcaktimin e ngjashmërive dhe dallimeve të objekteve.

Në këtë situatë, është e nevojshme të përdoret një metodë për përcaktimin e peshave të treguesve individualë - një studim i ekspertëve. Për shembull, gjatë zgjidhjes së problemit të klasifikimit të vendeve sipas nivelit të zhvillimit ekonomik, rezultatet e një sondazhi të 40 ekspertëve kryesorë të Moskës për problemet e vendeve të zhvilluara u përdorën në një shkallë prej dhjetë pikësh:

treguesit e përgjithësuar të zhvillimit socio-ekonomik - 9 pikë;

treguesit e shpërndarjes sektoriale të popullsisë së punësuar – 7 pikë;

treguesit e prevalencës së punës me qira – 6 pikë;

treguesit që karakterizojnë elementin njerëzor të forcave prodhuese - 6 pikë;

treguesit e zhvillimit të forcave prodhuese materiale - 8 pikë;

indeks shpenzimet qeveritare– 4 pikë;

Treguesit “ushtarako-ekonomikë” – 3 pikë;

treguesit social-demografikë – 4 pikë.

Vlerësimet e ekspertëve ishin relativisht të qëndrueshme.

Vlerësimet e ekspertëve japin baza e njohur për të përcaktuar rëndësinë e treguesve të përfshirë në një grup të caktuar treguesish. Shumëzimi i vlerave të normalizuara të treguesve me koeficientin që korrespondon me rezultatin mesatar të vlerësimit lejon llogaritjen e distancave midis pikave që pasqyrojnë pozicionin e vendeve në hapësirën shumëdimensionale, duke marrë parasysh peshën e pabarabartë të karakteristikave të tyre.

Shumë shpesh, kur zgjidhen probleme të tilla, përdoren jo një, por dy llogaritje: e para, në të cilën të gjitha karakteristikat konsiderohen ekuivalente, e dyta, ku atyre u jepen pesha të ndryshme në përputhje me vlerat mesatare të vlerësimeve të ekspertëve.

7. Zbatimi i analizës së grupimeve

Le të shohim disa aplikime të analizës së grupimeve.

1. Ndarja e vendeve në grupe sipas nivelit të zhvillimit.

65 vende u studiuan duke përdorur 31 tregues (të ardhurat kombëtare për frymë, përqindja e popullsisë së punësuar në industri, kursimet për frymë, përqindja e popullsisë së punësuar në bujqësia në%, jetëgjatësia mesatare, numri i makinave për 1 mijë banorë, numri i forcave të armatosura për 1 milion banorë, pjesa e PBB-së së industrisë në %, pjesa e PBB-së së bujqësisë në %, etj.)

Çdo vend vepron në këtë konsideratë si një objekt i karakterizuar nga vlera të caktuara prej 31 treguesish. Prandaj, ato mund të përfaqësohen si pika në hapësirën 31-dimensionale. Një hapësirë e tillë zakonisht quhet hapësira e vetive të objekteve që studiohen. Krahasimi i distancës ndërmjet këtyre pikave do të pasqyrojë shkallën e afërsisë së vendeve në fjalë, ngjashmërinë e tyre me njëri-tjetrin. Kuptimi socio-ekonomik i këtij kuptimi të ngjashmërisë do të thotë që vendet konsiderohen sa më të ngjashme, aq më të vogla janë dallimet midis të njëjtëve tregues me të cilët ato përshkruhen.

Hapi i parë i një analize të tillë është identifikimi i një çifti të ekonomive kombëtare të marra parasysh në matricën e ngjashmërisë, distanca ndërmjet të cilave është më e vogla. Këto do të jenë padyshim ekonomitë më të ngjashme, të ngjashme. Në diskutimin e mëposhtëm, të dyja këto vende konsiderohen si një grup i vetëm, një grup i vetëm. Në përputhje me rrethanat, matrica origjinale transformohet në mënyrë që elementët e saj të bëhen distancat midis të gjitha çifteve të mundshme prej jo 65, por 64 objektesh - 63 ekonomi dhe një grup i sapo transformuar - një bashkim i kushtëzuar i dy vendeve më të ngjashme. Nga matrica origjinale e ngjashmërisë, rreshtat dhe kolonat hiqen që korrespondojnë me distancat nga çifti i vendeve të përfshira në bashkim me të gjitha të tjerat, por shtohen një rresht dhe kolonë që përmbajnë distancën midis grupit të marrë gjatë bashkimit dhe vendeve të tjera.

Distanca midis grupit të sapopërfituar dhe vendeve supozohet të jetë e barabartë me mesataren e distancave midis këtij të fundit dhe dy vendeve që përbëjnë grupimin e ri. Me fjalë të tjera, grupi i kombinuar i vendeve konsiderohet si një i tërë me karakteristika afërsisht të barabarta me mesataren e karakteristikave të vendeve të përfshira në të.

Hapi i dytë i analizës është shqyrtimi i matricës së transformuar në këtë mënyrë me 64 rreshta dhe kolona. Përsëri, identifikohen një çift ekonomish, distanca ndërmjet të cilave është më pak e rëndësishme dhe ato, ashtu si në rastin e parë, janë bashkuar. Në këtë rast, distanca më e vogël mund të jetë midis një çifti vendesh, ose midis çdo vendi dhe bashkimit të vendeve të marra në fazën e mëparshme.

Procedurat e mëtejshme janë të ngjashme me ato të përshkruara më sipër: në secilën fazë, matrica transformohet në mënyrë që dy kolona dhe dy rreshta që përmbajnë distancën me objektet (çifte vendesh ose shoqata - grupime) të mbledhura së bashku në fazën e mëparshme përjashtohen prej saj. ; rreshtat dhe kolonat e përjashtuara zëvendësohen me një kolonë dhe rresht që përmban distancat nga bashkimet e reja me objektet e mbetura; atëherë në matricën e modifikuar identifikohet çifti i objekteve më të afërta. Analiza vazhdon derisa matrica të jetë shteruar plotësisht (d.m.th., derisa të gjitha vendet të kombinohen në një tërësi). Rezultatet e përgjithësuara të analizës së matricës mund të paraqiten në formën e një peme ngjashmërie (dendogrami), e ngjashme me atë të përshkruar më sipër, me të vetmin ndryshim se pema e ngjashmërisë, e cila pasqyron afërsinë relative të të 65 vendeve që po shqyrtojmë, është shumë më kompleks se diagrami në të cilin shfaqen vetëm pesë ekonomi kombëtare. Kjo pemë, sipas numrit të objekteve që krahasohen, përfshin 65 nivele. Niveli i parë (i ulët) përmban pikë që i korrespondojnë secilit shtet veç e veç. Lidhja e këtyre dy pikave në nivelin e dytë tregon një palë shtetesh që janë më të afërt për nga lloji i përgjithshëm i ekonomisë kombëtare. Në nivelin e tretë, vërehet raporti tjetër i ngjashëm i dyfishtë i vendeve (siç është përmendur tashmë, ky raport mund të përmbajë ose një çift të ri vendesh, ose një vend të ri dhe një çift të identifikuar tashmë të vendeve të ngjashme). Dhe kështu me radhë deri në nivelin e fundit, në të cilin të gjitha vendet e studiuara veprojnë si një grup i vetëm.

Si rezultat i aplikimit të analizës së grupimeve, u përftuan pesë grupet e mëposhtme të vendeve:

· Grupi afro-aziatik;

· Grupi latino-aziatik;

· Grupi latino-mesdhetar;

· një grup vendesh të zhvilluara kapitaliste (pa SHBA)

· SHBA

Futja e treguesve të rinj përtej 31 treguesve të përdorur këtu, ose zëvendësimi i tyre me të tjerë, sjell natyrshëm ndryshime në rezultatet e klasifikimit të vendeve.

2. Ndarja e vendeve sipas kriterit të ngjashmërisë së kulturës.

Siç e dini, marketingu duhet të marrë parasysh kulturën e vendeve (zakonet, traditat, etj.).

Përmes grupimit, u përftuan grupet e mëposhtme të vendeve:

· Arabisht;

· Lindja e Mesme;

· Skandinave;

· Të flasë gjermanisht;

· Të flasë anglisht;

· Evropiane romane;

· Amerika Latine;

· Lindja e Largët.

3. Zhvillimi i një parashikimi të kushteve të tregut të zinkut.

Analiza e grupeve luan një rol të rëndësishëm në fazën e reduktimit të modelit ekonomik dhe matematikor të tregut të mallrave, duke ndihmuar në lehtësimin dhe thjeshtimin e procedurave llogaritëse, duke siguruar kompaktësi më të madhe të rezultateve të marra duke ruajtur saktësinë e nevojshme. Përdorimi i analizës së grupimeve bën të mundur ndarjen e të gjithë grupit fillestar të treguesve të tregut në grupe (grupe) sipas kritereve të duhura, duke lehtësuar kështu zgjedhjen e treguesve më përfaqësues.

Analiza e grupeve përdoret gjerësisht për të modeluar kushtet e tregut. Në praktikë, shumica e problemeve të parashikimit mbështeten në përdorimin e analizës së grupimeve.

Për shembull, detyra e zhvillimit të një parashikimi për tregun e zinkut.

Fillimisht, u zgjodhën 30 tregues kryesorë të tregut global të zinkut:

X 1 - kohë

Shifrat e prodhimit:

X 2 - në botë

X 4 - Evropë

X 5 - Kanada

X 6 - Japoni

X 7 - Australi

Treguesit e konsumit:

X 8 - në botë

X 10 - Evropa

X 11 - Kanada

X 12 - Japoni

X 13 - Australi

Rezervat e zinkut të prodhuesve:

X 14 - në botë

X 16 - Evropë

X 17 - vende të tjera

Rezervat e zinkut të konsumatorëve:

X 18 - në SHBA

X 19 - në Angli

X 10 - në Japoni

Importi i xeheve dhe koncentrateve të zinkut (mijë ton)

X 21 - në SHBA

X 22 - në Japoni

X 23 - në Gjermani

Eksporti i xeheve dhe koncentrateve të zinkut (mijë ton)

X 24 - nga Kanadaja

X 25 - nga Australia

Importi i zinkut (mijë ton)

X 26 - në SHBA

X 27 - në Angli

X 28 - në Gjermani

Eksportet e zinkut (mijë ton)

X 29 - nga Kanadaja

X 30 - nga Australia

Për të përcaktuar varësitë specifike, u përdor aparati i analizës së korrelacionit dhe regresionit. Analiza e marrëdhënieve u krye në bazë të një matrice të koeficientëve të korrelacionit të çiftëzuar. Këtu u pranua hipoteza për shpërndarjen normale të treguesve të analizuar të tregut, ku shihet qartë se r ij nuk janë i vetmi tregues i mundshëm i marrëdhënies ndërmjet treguesve të përdorur. Nevoja për të përdorur analizën e grupimeve në këtë problem është për faktin se numri i treguesve që ndikojnë në çmimin e zinkut është shumë i madh. Ekziston nevoja për t'i reduktuar ato për një sërë arsyesh të mëposhtme:

a) mungesa e të dhënave të plota statistikore për të gjitha variablat;

b) një ndërlikim i mprehtë i procedurave llogaritëse kur një numër i madh variablash futen në model;

c) përdorimi optimal i metodave të analizës së regresionit kërkon që numri i vlerave të vëzhguara të tejkalojë numrin e variablave të paktën 6-8 herë;

d) dëshira për të përdorur variabla statistikisht të pavarura në model, etj.

Është shumë e vështirë të kryhet një analizë e tillë drejtpërdrejt në një matricë relativisht të rëndë të koeficientëve të korrelacionit. Duke përdorur analizën e grupimeve, i gjithë grupi i variablave të tregut mund të ndahet në grupe në mënyrë të tillë që elementët e secilit grup të lidhen fort me njëri-tjetrin, dhe përfaqësuesit e grupeve të ndryshme karakterizohen nga korrelacion i dobët.

Për të zgjidhur këtë problem, u përdor një nga algoritmet e analizës hierarkike aglomerative të grupimeve. Në çdo hap, numri i grupimeve zvogëlohet me një për shkak të kombinimit optimal, në një kuptim të caktuar, të dy grupeve. Kriteri për bashkim është ndryshimi në funksionin përkatës. Si funksion i tillë, ne përdorëm vlerat e shumave të devijimeve në katror të llogaritura duke përdorur formulat e mëposhtme:

(j = 1, 2, ...,m),

Ku j- numri i grupit, n- numri i elementeve në grup.

r ij-koeficienti i korrelacionit të çiftit.

Kështu, procesi i grupimit duhet të korrespondojë me një rritje minimale vijuese të vlerës së kriterit E.

Në fazën e parë, grupi i të dhënave fillestare paraqitet si një grup i përbërë nga grupime, ku secili përfshin një element. Procesi i grupimit fillon me kombinimin e një çifti të tillë grupimesh, gjë që çon në një rritje minimale të shumës së devijimeve në katror. Kjo kërkon vlerësimin e vlerave të shumës së devijimeve në katror për secilën nga të mundshmet shoqatat e grupimeve. Në fazën tjetër, merren parasysh vlerat e shumave të devijimeve në katror grupe etj. Ky proces do të ndalet në njëfarë hapi. Për ta bërë këtë, ju duhet të monitoroni vlerën e shumës së devijimeve në katror. Duke marrë parasysh një sekuencë vlerash në rritje, mund të perceptohet një kërcim (një ose disa) në dinamikën e tij, i cili mund të interpretohet si një karakteristikë e numrit të grupeve që ekzistojnë "objektivisht" në popullatën në studim. Në shembullin e dhënë, kërcimet ndodhën kur numri i grupeve ishte 7 dhe 5. Numri i grupeve nuk duhet të zvogëlohet më tej, sepse kjo çon në uljen e cilësisë së modelit. Pas marrjes së grupeve, zgjidhen variablat që janë më të rëndësishëm në kuptimin ekonomik dhe që lidhen më ngushtë me kriterin e përzgjedhur të situatës së tregut - në këtë rast, me kuotat e zinkut në London Metal Exchange. Kjo qasje na lejon të ruajmë një pjesë të konsiderueshme të informacionit të përmbajtur në grupin origjinal të treguesve fillestarë të tregut.

pershendetje!

Në tezën time, kam shqyrtuar dhe analiza krahasuese algoritmet e grumbullimit të të dhënave. Mendova se materiali i mbledhur dhe i përpunuar tashmë mund të jetë interesant dhe i dobishëm për dikë.
Sashaeve foli për atë që është grupimi në artikullin "Klasterimi: algoritmet k-means dhe c-means". Unë do të përsëris pjesërisht fjalët e Aleksandrit dhe do t'i shtoj pjesërisht. Gjithashtu në fund të këtij shkrimi, të interesuarit mund të lexojnë materialet nëpërmjet lidhjeve në bibliografi.

Gjithashtu u përpoqa ta sjell stilin e thatë të prezantimit “të diplomuar” në një stil më gazetaresk.

Koncepti i grupimit

Grumbullimi (ose analiza e grupimeve) është detyra e ndarjes së një grupi objektesh në grupe të quajtura grupe. Brenda secilit grup duhet të ketë objekte "të ngjashme", dhe objektet nga grupe të ndryshme duhet të jenë sa më të ndryshme që të jetë e mundur. Dallimi kryesor midis grupimit dhe klasifikimit është se lista e grupeve nuk është e përcaktuar qartë dhe përcaktohet gjatë funksionimit të algoritmit.

Zbatimi i analizës së grupimeve në përgjithësi zbret në hapat e mëposhtëm:

Përzgjedhja e një kampioni objektesh për grupim.
Përcaktimi i një grupi variablash me të cilat do të vlerësohen objektet në mostër. Nëse është e nevojshme, normalizoni vlerat e variablave.
Llogaritja e vlerave të matjes së ngjashmërisë midis objekteve.
Zbatimi i metodës së analizës së grupimeve për të krijuar grupe objektesh të ngjashme (grupe).
Prezantimi i rezultateve të analizës.

Pas marrjes dhe analizimit të rezultateve, është e mundur të rregullohet metoda e përzgjedhur metrike dhe grupimi derisa të merret rezultati optimal.

Masat e distancës

Pra, si ta përcaktojmë "ngjashmërinë" e objekteve? Së pari ju duhet të krijoni një vektor karakteristikash për secilin objekt - si rregull, ky është një grup vlerat numerike, për shembull, gjatësia dhe pesha e një personi. Megjithatë, ka edhe algoritme që punojnë me karakteristika cilësore (të ashtuquajturat kategorike).

Pasi të kemi përcaktuar vektorin e veçorive, mund të kryhet normalizimi në mënyrë që të gjithë komponentët të kontribuojnë në mënyrë të barabartë në llogaritjen e "distancës". Gjatë procesit të normalizimit, të gjitha vlerat sillen në një interval të caktuar, për shembull, [-1, -1] ose .

Më në fund, për secilën palë objektesh matet "distanca" midis tyre - shkalla e ngjashmërisë. Ka shumë metrika, këtu janë vetëm ato kryesore:

Zgjedhja e metrikës varet tërësisht nga studiuesi, pasi rezultatet e grupimit mund të ndryshojnë ndjeshëm kur përdoren masa të ndryshme.

Klasifikimi i algoritmeve

Për veten time, unë kam identifikuar dy klasifikime kryesore të algoritmeve të grupimit.

Hierarkike dhe e sheshtë.
Algoritmet hierarkike (të quajtura edhe algoritme taksonomie) ndërtojnë jo vetëm një ndarje të kampionit në grupime të shkëputura, por një sistem ndarjesh të ndërlidhura. Se. Si rezultat, marrim një pemë grupesh, rrënja e së cilës është i gjithë kampioni, dhe gjethet janë grupimet më të vogla.
Algoritmet e sheshta ndërtojnë një ndarje të objekteve në grupime.
E qartë dhe e paqartë.
Algoritmet e pastra (ose jo të mbivendosura) i caktojnë çdo objekti të mostrës një numër grupi, d.m.th. çdo objekt i përket vetëm një grupi. Algoritmet fuzzy (ose kryqëzuese) i caktojnë çdo objekti një grup vlerash reale që tregojnë shkallën e marrëdhënies së objektit me grupimet. Ato. çdo objekt i përket çdo grupi me një probabilitet të caktuar.

Bashkimi i grupimeve

Në rastin e përdorimit të algoritmeve hierarkike, lind pyetja se si të kombinohen grupimet me njëri-tjetrin, si të llogariten "distancat" midis tyre. Ka disa metrika:

Lidhje e vetme (distancat e fqinjit më të afërt)
Në këtë metodë, distanca ndërmjet dy grupimeve përcaktohet nga distanca midis dy objekteve më të afërta (fqinjët më të afërt) në grupime të ndryshme. Grupet që rezultojnë kanë tendencë të formojnë zinxhirë.
Lidhje e plotë (distanca e fqinjëve më të largët)
Në këtë metodë, distancat midis grupimeve përcaktohen nga distanca më e madhe midis çdo dy objekti në grupime të ndryshme (d.m.th., fqinjët më të largët). Kjo metodë zakonisht funksionon shumë mirë kur objektet vijnë nga grupe të veçanta. Nëse grupimet kanë një formë të zgjatur ose lloji i tyre natyror është "zinxhir", atëherë kjo metodë është e papërshtatshme.
Mesatarja e papeshuar në çift
Në këtë metodë, distanca midis dy grupimeve të ndryshme llogaritet si distanca mesatare midis të gjitha palëve të objekteve në to. Metoda është efektive kur objektet formojnë grupe të ndryshme, por funksionon po aq mirë në rastet e grupimeve të zgjeruara (të tipit "zinxhir").
Mesatarja e ponderuar në çift
Metoda është identike me metodën mesatare të papeshuar në çift, me përjashtim të faktit se madhësia e grupimeve përkatëse (d.m.th., numri i objekteve që ato përmbajnë) përdoret si faktor peshimi në llogaritjet. Prandaj, kjo metodë duhet të përdoret kur priten madhësi të pabarabarta të grupimeve.
Metoda centroide e papeshuar
Në këtë metodë, distanca midis dy grupimeve përcaktohet si distanca midis qendrave të tyre të gravitetit.
Metoda centroide e ponderuar (mediane)
Kjo metodë është identike me atë të mëparshme, përveç se llogaritja përdor peshat për të llogaritur dallimet midis madhësive të grupimeve. Prandaj, nëse ka ose dyshohet se ka dallime të rëndësishme në madhësitë e grupimeve, kjo metodë preferohet nga ajo e mëparshme.

Pasqyrë e algoritmeve

Algoritmet e grupimit hierarkik

Ndër algoritmet e grupimit hierarkik, ekzistojnë dy lloje kryesore: algoritme nga poshtë-lart dhe nga lart-poshtë. Algoritmet nga lart-poshtë punojnë në një parim nga lart-poshtë: në fillim, të gjitha objektet vendosen në një grup, i cili më pas ndahet në grupe gjithnjë e më të vogla. Më të zakonshmet janë algoritmet nga poshtë-lart, të cilët fillojnë duke vendosur çdo objekt në një grup të veçantë dhe më pas duke i kombinuar grupimet në grupe gjithnjë e më të mëdha derisa të gjitha objektet në mostër të përfshihen në një grup të vetëm. Në këtë mënyrë, ndërtohet një sistem ndarjesh të mbivendosur. Rezultatet e algoritmeve të tilla zakonisht paraqiten në formën e një peme - një dendrogram. Një shembull klasik i një peme të tillë është klasifikimi i kafshëve dhe bimëve.

Për të llogaritur distancat midis grupimeve, të gjithë përdorin më shpesh dy distanca: një lidhje të vetme ose një lidhje të plotë (shiko përmbledhjen e matjeve të distancës midis grupimeve).

Një disavantazh i algoritmeve hierarkike është sistemi i ndarjeve të plota, i cili mund të jetë i panevojshëm në kontekstin e problemit që zgjidhet.

Algoritmet e gabimit kuadratik

Problemi i grupimit mund të konsiderohet si ndërtimi i një ndarjeje optimale të objekteve në grupe. Në këtë rast, optimaliteti mund të përkufizohet si kërkesa për të minimizuar gabimin mesatar katror të ndarjes:

Ku c j- “qendra e masës” e grupit j(pika me karakteristika mesatare për një grup të caktuar).

Algoritmet e gabimit kuadratik janë një lloj algoritmesh të sheshta. Algoritmi më i zakonshëm në këtë kategori është metoda k-means. Ky algoritëm ndërton një numër të caktuar grupimesh të vendosura sa më larg njëri-tjetrit. Puna e algoritmit ndahet në disa faza:

Zgjidh rastësisht k pikat që janë “qendrat e masës” fillestare të grupimeve.
Cakto çdo objekt në grup me "qendrën e masës" më të afërt.
Rillogaritni “qendrat e masës” të grupimeve sipas përbërjes së tyre aktuale.
Nëse kriteri i ndalimit të algoritmit nuk plotësohet, kthehu në hapin 2.

Ndryshimi minimal në gabimin mesatar katror zakonisht zgjidhet si kriter për ndalimin e algoritmit. Është gjithashtu e mundur të ndalohet algoritmi nëse në hapin 2 nuk ka pasur objekte që lëvizin nga grupi në grup.

Për disavantazhet të këtij algoritmi Kjo mund të përfshijë nevojën për të specifikuar numrin e grupimeve për t'u ndarë.

Algoritmet Fuzzy

Algoritmi më i popullarizuar i grupimit fuzzy është algoritmi c-means. Është një modifikim i metodës k-means. Hapat e algoritmit:

Ky algoritëm mund të mos jetë i përshtatshëm nëse numri i grupimeve është i panjohur paraprakisht, ose nëse është e nevojshme të caktohet në mënyrë të qartë secili objekt në një grup.

Algoritme të bazuara në teorinë e grafikëve

Thelbi i algoritmeve të tilla është se një përzgjedhje e objekteve përfaqësohet në formën e një grafiku G=(V, E), kulmet e të cilave korrespondojnë me objektet dhe skajet e të cilave kanë një peshë të barabartë me "distancën" midis objekteve. Përparësitë e algoritmeve të grupimit të grafikëve janë qartësia, lehtësia relative e zbatimit dhe aftësia për të prezantuar përmirësime të ndryshme bazuar në konsiderata gjeometrike. Algoritmet kryesore janë algoritmi për identifikimin e komponentëve të lidhur, algoritmi për ndërtimin e një peme minimale që shtrihet dhe algoritmi i grupimit shtresë pas shtrese.

Algoritmi për identifikimin e komponentëve të lidhur

Në algoritmin për identifikimin e komponentëve të lidhur, specifikohet parametri i hyrjes R dhe në grafik fshihen të gjitha skajet për të cilat “distancat” janë më të mëdha R. Vetëm çiftet më të afërta të objekteve mbeten të lidhura. Qëllimi i algoritmit është të zgjedhë një vlerë të tillë R, i shtrirë në intervalin e të gjitha "distancave" në të cilat grafiku "shpërndahet" në disa komponentë të lidhur. Komponentët që rezultojnë janë grupime.

Për të zgjedhur një parametër R Zakonisht ndërtohet një histogram i shpërndarjeve të distancave në çift. Në detyrat me një strukturë të mirëpërcaktuar të të dhënave, histogrami do të ketë dy maja - njëra korrespondon me distancat brenda grupimeve, e dyta - distancat ndër-grupore. Parametri R zgjidhet nga zona minimale midis këtyre majave. Në të njëjtën kohë, është mjaft e vështirë të kontrollosh numrin e grupimeve duke përdorur një prag të distancës.

Algoritmi i pemës me shtrirje minimale

Algoritmi i pemës me shtrirje minimale fillimisht ndërton një pemë me shtrirje minimale në një grafik dhe më pas heq në mënyrë sekuenciale skajet me peshën më të madhe. Figura tregon pemën minimale të shtrirjes së marrë për nëntë objekte.

Duke hequr një lidhje të etiketuar CD me gjatësi 6 njësi (skaji me distancë maksimale), marrim dy grupime: (A, B, C) dhe (D, E, F, G, H, I). Grupi i dytë më vonë mund të ndahet në dy grupe të tjera duke hequr skajin EF, i cili ka një gjatësi prej 4.5 njësi.

Grumbullimi shtresë pas shtrese

Algoritmi i grupimit shtresë pas shtrese bazohet në identifikimin e komponentëve të lidhur të grafikut në një nivel të caktuar distancash ndërmjet objekteve (kulmeve). Niveli i distancës përcaktohet nga pragu i distancës c. Për shembull, nëse distanca ndërmjet objekteve

, Kjo .

Algoritmi i grupimit shtresë pas shtrese gjeneron një sekuencë nëngrafësh të grafikut G, të cilat pasqyrojnë marrëdhëniet hierarkike midis grupimeve:

Ku G t = (V, E t)- grafiku i nivelit me t,
,
me t– pragu i distancës t-të,
m – numri i niveleve të hierarkisë,
G 0 = (V, o), o është grupi bosh i skajeve të grafikut i marrë nga t 0 = 1,
G m = G, domethënë një grafik i objekteve pa kufizime në distancë (gjatësia e skajeve të grafikut), pasi t m = 1.

Duke ndryshuar pragjet e distancës ( s 0 , …, s m), ku 0 = nga 0 < nga 1 < …< me m= 1, është e mundur të kontrollohet thellësia e hierarkisë së grupimeve që rezultojnë. Kështu, algoritmi i grupimit shtresë pas shtrese është i aftë të krijojë një ndarje të sheshtë dhe hierarkike të të dhënave.

Krahasimi i algoritmeve

Kompleksiteti llogaritës i algoritmeve

Tabela e krahasimit të algoritmeve

Algoritmi i grupimit	Forma e grupit	Fut te dhenat	rezultatet
Hierarkike	falas	Numri i grupimeve ose pragu i distancës për të shkurtuar hierarkinë	Pema e grupimeve binare
k-do të thotë	Hipersfera	Numri i grupimeve	Qendrat e grupimeve
c-do të thotë	Hipersfera	Numri i grupimeve, shkalla e paqartësisë	Qendrat e grupimit, matrica e anëtarësimit
Zgjedhja e komponentëve të lidhur	falas	Pragu i distancës R
Pema me shtrirje minimale	falas	Numri i grupimeve ose pragu i distancës për heqjen e skajeve	Struktura e pemëve të grupimeve
Grumbullimi shtresë pas shtrese	falas	Sekuenca e pragjeve të distancës	Struktura e pemëve të grupimeve me nivele të ndryshme hierarkie

Pak për aplikimin

Në punën time, më duhej të zgjidhja zona individuale nga strukturat hierarkike (pemët). Ato. në thelb ishte e nevojshme të pritej pema origjinale në disa pemë më të vogla. Meqenëse një pemë e drejtuar është një rast i veçantë i një grafi, algoritmet e bazuara në teorinë e grafikut janë një përshtatje e natyrshme.

Ndryshe nga një grafik plotësisht i lidhur, në një pemë të drejtuar jo të gjitha kulmet janë të lidhura nga skajet, dhe total skajet është n–1, ku n është numri i kulmeve. Ato. në lidhje me nyjet e pemëve, puna e algoritmit për identifikimin e komponentëve të lidhur do të thjeshtohet, pasi heqja e çdo numri skajesh do të "thyejë" pemën në komponentë të lidhur (pemë individuale). Algoritmi i pemës me shtrirje minimale në këtë rast do të përkojë me algoritmin për zgjedhjen e komponentëve të lidhur - duke hequr skajet më të gjata, pema origjinale ndahet në disa pemë. Në këtë rast, është e qartë se faza e ndërtimit të vetë pemës me shtrirje minimale është anashkaluar.

Nëse do të përdoreshin algoritme të tjera, ata do të duhej të merrnin parasysh veçmas praninë e lidhjeve midis objekteve, gjë që e ndërlikon algoritmin.

Më vete, do të doja të them se për të arritur rezultatin më të mirë, është e nevojshme të eksperimentoni me zgjedhjen e masave të distancës, dhe ndonjëherë edhe të ndryshoni algoritmin. Nuk ka zgjidhje të vetme.

, administrata publike, filologji, antropologji, marketing, sociologji, gjeologji dhe disiplina të tjera. Megjithatë, universaliteti i aplikimit ka çuar në shfaqjen e një numri të madh termash, metodash dhe qasjesh të papajtueshme, duke e bërë të vështirë përdorimin e qartë dhe interpretimin konsistent të analizës së grupimeve.

YouTube Enciklopedike

1 / 5
Analiza e grupimeve kryen detyrat kryesore të mëposhtme:
- Zhvillimi i një tipologjie ose klasifikimi.
- Një eksplorim i skemave konceptuale të dobishme për grupimin e objekteve.
- Gjenerimi i hipotezave bazuar në kërkimin e të dhënave.
- Testimi ose hulumtimi i hipotezave për të përcaktuar nëse llojet (grupet) të identifikuara në një mënyrë ose në një tjetër janë realisht të pranishme në të dhënat e disponueshme.
Pavarësisht nga lënda e studimit, përdorimi i analizës së grupimeve përfshin hapat e mëposhtëm:
- Përzgjedhja e një kampioni për grupim. Implikimi është se ka kuptim të grumbullohen vetëm të dhënat sasiore.
- Përcaktimi i grupit të variablave me të cilat do të vlerësohen objektet në mostër, domethënë hapësira e veçorive.
- Llogaritja e vlerave të një mase të veçantë të ngjashmërisë (ose ndryshimit) midis objekteve.
- Përdorimi i metodës së analizës së grupimeve për të krijuar grupe objektesh të ngjashme.
- Kontrollimi i besueshmërisë së rezultateve të zgjidhjes së grupit.
Ju mund të gjeni një përshkrim të dy kërkesave themelore për të dhënat - homogjeniteti dhe plotësia. Homogjeniteti kërkon që të gjitha entitetet e grupuara të jenë të së njëjtës natyrë dhe të përshkruara nga një grup i ngjashëm karakteristikash. Nëse analiza e grupimit paraprihet nga analiza e faktorëve, atëherë kampioni nuk ka nevojë të "riparohet" - kërkesat e deklaruara përmbushen automatikisht nga vetë procedura e modelimit të faktorëve (ekziston një avantazh tjetër - z-standardizimi pa pasoja negative për marrjen e mostrave; nëse kryhet drejtpërdrejt për analizën e grupimeve, mund të sjellë një ulje të qartësisë së ndarjes së grupeve). NË ndryshe mostra duhet të rregullohet.

Tipologjia e problemeve të grumbullimit

Llojet e hyrjes

NË shkenca moderne Përdoren disa algoritme për përpunimin e të dhënave hyrëse. Analiza duke krahasuar objektet bazuar në karakteristikat (më të zakonshmet në shkencat biologjike) quhet P-lloji i analizës dhe në rastin e krahasimit të veçorive, bazuar në objekte - R-lloji i analizës. Ka përpjekje për të përdorur lloje hibride të analizës (për shembull, RQ-analiza), por kjo metodologji ende nuk është zhvilluar siç duhet.

Qëllimet e grupimit
- Kuptimi i të dhënave duke identifikuar strukturën e grupimeve. Ndarja e kampionit në grupe objektesh të ngjashme bën të mundur thjeshtimin e mëtejshëm të përpunimit të të dhënave dhe vendimmarrjes duke aplikuar një metodë të ndryshme analize për secilin grup (strategjia "përça dhe sundo").
- Kompresimi i të dhënave. Nëse kampioni origjinal është tepër i madh, atëherë mund ta zvogëloni atë, duke lënë një përfaqësues më tipik nga çdo grup.
- Zbulimi i risive. Identifikohen objekte atipike që nuk mund të ngjiten në asnjë nga grupimet.
Në rastin e parë, ata përpiqen të zvogëlojnë numrin e grupimeve. Në rastin e dytë, është më e rëndësishme të sigurohet një shkallë e lartë e ngjashmërisë së objekteve brenda secilit grup, dhe mund të ketë çdo numër grupesh. Në rastin e tretë, më interesantët janë objektet individuale që nuk përshtaten në asnjë nga grupimet.
Në të gjitha këto raste mund të përdoret grupimi hierarkik, kur grupimet e mëdha ndahen në më të vogla, të cilat nga ana e tyre ndahen në edhe më të vogla etj. Probleme të tilla quhen probleme taksonomie. Taksonomia rezulton në një pemë të ngjashme struktura hierarkike. Në këtë rast, çdo objekt karakterizohet duke renditur të gjitha grupimet të cilave u përket, zakonisht nga i madhi tek i vogël.

Metodat e grupimit

Nuk ka një klasifikim të pranuar përgjithësisht të metodave të grupimit, por mund të dallohen një sërë grupesh qasjesh (disa metoda mund të klasifikohen në disa grupe njëherësh dhe për këtë arsye propozohet që ky tipifikim të konsiderohet si një përafrim me klasifikimin real të metodave të grupimit ):
1. Qasje probabiliste. Supozohet se çdo objekt në shqyrtim i përket njërës nga klasat k. Disa autorë (për shembull, A.I. Orlov) besojnë se ky grup nuk ka të bëjë fare me grupimin dhe e kundërshtojnë atë me emrin "diskriminim", domethënë zgjedhjen e caktimit të objekteve në një nga grupet e njohura (mostrat e trajnimit).
2. Qasje të bazuara në sisteme inteligjence artificiale: një grup shumë i kushtëzuar, pasi ka shumë metoda dhe metodologjikisht ato janë shumë të ndryshme.
3. Qasje logjike. Dendrogrami është ndërtuar duke përdorur një pemë vendimi.
4. Qasja grafiko-teorike.
5. Qasja hierarkike. Supozohet prania e grupeve të mbivendosur (grupe të rendit të ndryshëm). Algoritmet, nga ana tjetër, ndahen në aglomerativë (unifikues) dhe ndarës (ndarës). Në bazë të numrit të karakteristikave, ndonjëherë dallohen metodat monotetike dhe politetike të klasifikimit.
  - Grumbullimi ose taksonomia hierarkike divizionale. Problemet e grupimit trajtohen në një taksonomi sasiore.
6. Metoda të tjera. Nuk përfshihet në grupet e mëparshme.
  - Algoritmet statistikore të grupimit
  - Ansambli i grupimeve
  - Algoritmet e familjes KRAB
  - Algoritmi i bazuar në metodën e shoshitjes
Qasjet 4 dhe 5 nganjëherë kombinohen nën emrin e një qasjeje strukturore ose gjeometrike, e cila ka një koncept më të formalizuar të afërsisë. Pavarësisht dallimeve të rëndësishme midis metodave të listuara, të gjitha ato mbështeten në origjinalin " hipoteza e kompaktësisë": në hapësirën e objektit, të gjitha objektet e afërta duhet t'i përkasin të njëjtit grup, dhe të gjitha objektet e ndryshme, në përputhje me rrethanat, duhet të jenë në grupime të ndryshme.

Formulimi formal i problemit të grupimit

Le X (\displaystyle X)- shumë objekte, Y (\displaystyle Y)- një grup numrash (emra, etiketa) grupesh. Funksioni i distancës ndërmjet objekteve është specifikuar ρ (x , x ′) (\style ekrani \rho (x,x")). Ekziston një mostër e kufizuar e trajnimit të objekteve X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=$x_(1),\pika,x_(m)$\nëngrupi X). Kërkohet të ndahet kampioni në nënbashkësi të ndara të quajtura grupime, në mënyrë që çdo grup të përbëhet nga objekte që janë të ngjashëm në metrikë ρ (\displaystyle \rho), dhe objektet e grupimeve të ndryshme ishin dukshëm të ndryshme. Në të njëjtën kohë, çdo objekt x i ∈ X m (\style ekrani x_(i)\në X^(m))është caktuar numri i grupit y i (\displaystyle y_(i)).
Algoritmi i grupimitështë një funksion a: X → Y (\displaystyle a\pikon X\në Y), e cila ndaj çdo objekti x ∈ X (\shfaqja x\në X) përputhet me numrin e grupit y ∈ Y (\shfaqja y\në Y). Një tufë me Y (\displaystyle Y) në disa raste dihet paraprakisht, por më shpesh detyra është të përcaktohet numri optimal i grupimeve, nga pikëpamja e njërit ose tjetrit. kriteret e cilësisë grumbullimi.
Në përgjithësi, vlen të theksohet se historikisht, masat e ngjashmërisë dhe jo masat e dallimit (distanca) përdoren shpesh si matje të afërsisë në biologji.

Në sociologji

Gjatë analizimit të rezultateve kërkime sociologjike Rekomandohet që analiza të kryhet duke përdorur metoda të familjes aglomerative hierarkike, përkatësisht metodën Ward, në të cilën është optimizuar dispersioni minimal brenda grupimeve, duke rezultuar në krijimin e grupimeve me madhësi afërsisht të barabarta. Metoda e Ward është më e përshtatshme për analizimin e të dhënave sociologjike. Një masë më e mirë e diferencës është distanca kuadratike Euklidiane, e cila ndihmon në rritjen e kontrastit të grupimeve. Rezultati kryesor i analizës së grupimeve hierarkike është një dendrogram ose "diagrami i akullit". Kur e interpretojnë atë, studiuesit përballen me të njëjtin lloj problemi si interpretimi i rezultateve të analizës së faktorëve - mungesa e kritereve të paqarta për identifikimin e grupimeve. Rekomandohet përdorimi i dy metodave kryesore - analiza vizuale e dendrogramit dhe krahasimi i rezultateve të grupimit të kryera me metoda të ndryshme.
Analiza vizuale e dendrogramit përfshin "prerjen" e pemës në nivelin optimal të ngjashmërisë së elementeve të mostrës. Këshillohet që të "prisni degën e rrushit" (terminologjia e M. S. Oldenderfer dhe R. K. Blashfield) në nivelin 5 të shkallës së Kombinatit të Kombinatit të Rescaled Distance Cluster, kështu që do të arrihet një nivel ngjashmërie prej 80%. Nëse identifikimi i grupimeve duke përdorur këtë etiketë është i vështirë (disa grupime të vogla bashkohen në një të madh), atëherë mund të zgjidhni një etiketë tjetër. Kjo teknikë është propozuar nga Oldenderfer dhe Blashfield.
Tani shtrohet pyetja për qëndrueshmërinë e zgjidhjes së miratuar të grupimit. Në thelb, kontrollimi i qëndrueshmërisë së grupimit zbret në kontrollimin e besueshmërisë së tij. Këtu ekziston një rregull i përgjithshëm - një tipologji e qëndrueshme ruhet kur ndryshojnë metodat e grupimit. Rezultatet e analizës hierarkike të grupimeve mund të verifikohen me anë të analizës iterative të grupimeve duke përdorur metodën k-means. Nëse klasifikimet e krahasuara të grupeve të të anketuarve kanë një shkallë koincidence prej më shumë se 70% (më shumë se 2/3 e ndeshjeve), atëherë merret një vendim grupimi.
Është e pamundur të kontrollohet përshtatshmëria e një zgjidhjeje pa përdorur një lloj tjetër analize. Të paktën në aspektin teorik, ky problem nuk është zgjidhur. NË vepër klasike"Analiza e grupeve" e Oldenderfer dhe Blashfield diskutohet në detaje dhe në fund refuzon pesë metoda shtesë të testimit të qëndrueshmërisë:
1. korrelacioni kofenetik - jo i rekomanduar dhe i kufizuar në përdorim;
2. testet e rëndësisë (analiza e variancës) - gjithmonë japin një rezultat domethënës;
3. teknikën e kampionimit të përsëritur (të rastësishëm), e cila megjithatë nuk vërteton vlefshmërinë e vendimit;
4. testet e rëndësisë për atributet e jashtme janë të përshtatshme vetëm për matje të përsëritura;
5. Metodat Monte Carlo janë shumë komplekse dhe janë të arritshme vetëm për matematikanët me përvojë [ (eng. zbulimi i skajeve) ose njohja e objektit.
6. Analiza inteligjente e të dhënave (anglisht: data mining) - grupimi në Data Mining merr vlerë kur vepron si një nga fazat e analizës së të dhënave dhe ndërtimit të një zgjidhjeje të plotë analitike. Shpesh është më e lehtë për një analist të identifikojë grupe objektesh të ngjashme, të studiojë tiparet e tyre dhe të ndërtojë një model të veçantë për secilin grup sesa të krijojë një model të përgjithshëm për të gjitha të dhënat. Kjo teknikë përdoret vazhdimisht në marketing, duke identifikuar grupet e klientëve, blerësve, produkteve dhe duke zhvilluar një strategji të veçantë për secilin prej tyre.
Analiza e grupimeve është
Diten e mire. Kam respekt për njerëzit që janë adhurues të punës së tyre.

Maxim, miku im, i përket kësaj kategorie. Punon vazhdimisht me numra, i analizon ato dhe bën raporte të përshtatshme.

Dje hëngrëm drekë së bashku dhe për gati gjysmë ore më tregoi për analizën e grupeve - çfarë është dhe në cilat raste përdorimi i tij është i justifikuar dhe i përshtatshëm. Epo, çfarë jam unë?

Unë kam një kujtesë të mirë, kështu që do t'ju jap të gjitha këto të dhëna, meqë ra fjala, për të cilat dija tashmë, në formën e tyre origjinale dhe më informuese.

Analiza e grupimeve është krijuar për të ndarë një grup objektesh në grupe homogjene (grupe ose klasa). Ky është një problem shumëdimensional i klasifikimit të të dhënave.

Ekzistojnë rreth 100 algoritme të ndryshme të grupimit, por më të përdorurit janë analiza hierarkike e grupimeve dhe grupimi k-means.

Ku përdoret analiza e grupimeve? Në marketing, ky është segmentimi i konkurrentëve dhe konsumatorëve.

Në menaxhim: ndarja e personelit në grupe të niveleve të ndryshme të motivimit, klasifikimi i furnitorëve, identifikimi i situatave të ngjashme të prodhimit në të cilat ndodhin defekte.

Në mjekësi - klasifikimi i simptomave, pacientëve, barnave. Në sociologji, ndarja e të anketuarve në grupe homogjene. Në fakt, analiza e grupimeve është dëshmuar mirë në të gjitha sferat e jetës njerëzore.

E bukura e kësaj metode është se funksionon edhe kur ka pak të dhëna dhe nuk plotësohen kërkesat për shpërndarje normale. variablat e rastësishëm dhe kërkesat e tjera të metodave klasike të analizës statistikore.

Le të shpjegojmë thelbin e analizës së grupimeve pa përdorur terminologji të rreptë:
Le të themi se keni kryer një anketë me punonjësit dhe dëshironi të përcaktoni se si të menaxhoni në mënyrë më efektive personelin.

Kjo do të thotë, ju dëshironi të ndani punonjësit në grupe dhe të nënvizoni levat më efektive të menaxhimit për secilin prej tyre. Në të njëjtën kohë, dallimet ndërmjet grupeve duhet të jenë të dukshme, dhe brenda grupit të anketuarit duhet të jenë sa më të ngjashëm.

Për të zgjidhur problemin, propozohet përdorimi i analizës hierarkike të grupimeve.

Si rezultat, do të marrim një pemë, duke parë të cilën duhet të vendosim në sa klasa (grumbullime) duam ta ndajmë personelin.

Le të supozojmë se vendosim ta ndajmë stafin në tre grupe, pastaj për të studiuar të anketuarit që bëjnë pjesë në secilin grup, do të marrim një tabelë me përafërsisht përmbajtjen e mëposhtme:

Le të shpjegojmë se si është formuar tabela e mësipërme. Kolona e parë përmban numrin e grupit - grupit, të dhënat për të cilat pasqyrohen në rresht.

Për shembull, grupi i parë është 80% meshkuj. 90% e grupit të parë bie në kategorinë e moshës nga 30 deri në 50 vjeç dhe 12% e të anketuarve besojnë se përfitimet janë shumë të rëndësishme. Dhe kështu me radhë.

Le të përpiqemi të krijojmë portrete të të anketuarve nga çdo grup:
1. Grupi i parë përbëhet kryesisht nga burra të pjekur që zënë poste drejtuese. Ata nuk janë të interesuar për paketën sociale (MED, LGOTI, kohë pa KOHË). Ata preferojnë të marrin një rrogë të mirë sesa ndihmë nga një punëdhënës.
2. Grupi i dytë, përkundrazi, i jep përparësi paketës sociale. Ai përbëhet kryesisht nga njerëz "të moshuar" që zënë pozicione të ulëta. Paga është sigurisht e rëndësishme për ta, por ka prioritete të tjera.
3. Grupi i tretë është "më i riu". Ndryshe nga dy të mëparshmet, ka një interes të dukshëm për mundësitë e të mësuarit dhe zhvillimin profesional. Kjo kategori punonjësish ka një shans të mirë për t'iu bashkuar së shpejti grupit të parë.
Kështu, kur planifikoni një fushatë për të futur metoda efektive të menaxhimit të personelit, është e qartë se në situatën tonë është e mundur të rritet paketa sociale e grupit të dytë në dëm, për shembull, të pagave.

Nëse flasim se cilët specialistë duhet të dërgohen për trajnim, patjetër që mund të rekomandojmë t'i kushtojmë vëmendje grupit të tretë.

Burimi: http://www.nickart.spb.ru/analysis/cluster.php

Karakteristikat e analizës së grupimeve

Një grup është çmimi i një aktivi gjatë një periudhe të caktuar kohore gjatë së cilës janë kryer transaksionet. Vëllimi që rezulton i blerjeve dhe shitjeve tregohet nga një numër brenda grupit.

Shiriti i çdo afati kohor zakonisht përmban disa grupime. Kjo ju lejon të shihni në detaje vëllimet e blerjeve, shitjeve dhe bilancin e tyre në çdo shirit individual, në çdo nivel çmimi.

Një ndryshim në çmimin e një aktivi sjell në mënyrë të pashmangshme një zinxhir lëvizjesh çmimesh në instrumente të tjera.

Kujdes!
Në shumicën e rasteve, të kuptuarit e një lëvizjeje trendi ndodh tashmë në momentin kur ajo po zhvillohet me shpejtësi dhe hyrja në treg përgjatë trendit rrezikon të përfundojë në një valë korrigjuese.

Për transaksione të suksesshme, ju duhet të kuptoni situatën aktuale dhe të jeni në gjendje të parashikoni lëvizjet e ardhshme të çmimeve. Kjo mund të mësohet duke analizuar grafikun e grupimit.

Duke përdorur analizën e grupimeve, mund të shihni aktivitetin e pjesëmarrësve të tregut edhe brenda shiritit më të vogël të çmimit. Kjo është analiza më e saktë dhe më e detajuar, pasi tregon shpërndarjen në pikë të vëllimeve të transaksioneve në çdo nivel çmimi të aktivit.

Ka një konflikt të vazhdueshëm midis interesave të shitësve dhe blerësve në treg. Dhe çdo lëvizje më e vogël e çmimeve (shënoni) është një lëvizje drejt një kompromisi - një nivel çmimi - që aktualisht i përshtatet të dyja palëve.

Por tregu është dinamik, numri i shitësve dhe blerësve po ndryshon vazhdimisht. Nëse në një moment tregu dominohej nga shitësit, atëherë në momentin tjetër me shumë mundësi do të ketë blerës.

Numri i transaksioneve të kryera në nivelet ngjitur të çmimeve gjithashtu nuk është i njëjtë. E megjithatë, së pari situata e tregut reflektohet në vëllimin total të transaksioneve dhe vetëm më pas në çmim.

Nëse shihni veprimet e pjesëmarrësve dominues të tregut (shitësit ose blerësit), atëherë mund të parashikoni vetë lëvizjen e çmimeve.

Për aplikim i suksesshëm analiza e grupimeve, para së gjithash, duhet të kuptoni se çfarë janë një grup dhe delta.

Një grup është një lëvizje çmimi që ndahet në nivele me të cilat janë kryer transaksionet vëllime të njohura. Delta tregon ndryshimin midis blerjeve dhe shitjeve që ndodhin në çdo grup.

Çdo grup, ose grup deltash, ju lejon të kuptoni nëse blerësit ose shitësit dominojnë tregun në një kohë të caktuar.

Mjafton vetëm të llogaritet delta totale duke përmbledhur shitjet dhe blerjet. Nëse delta është negative, atëherë tregu është i mbishitur dhe ka transaksione të tepërta shitjeje. Kur delta është pozitive, blerësit dominojnë qartë tregun.

Vetë delta mund të marrë normale ose vlerë kritike. Vlera e volumit delta mbi normalen në grup është e theksuar me të kuqe.

Nëse delta është e moderuar, atëherë kjo karakterizon një gjendje të sheshtë në treg. Në vlerë normale delta në treg ka një lëvizje trendi, por një vlerë kritike është gjithmonë një pararojë e një ndryshimi të çmimit.

Tregtimi në Forex duke përdorur CA

Për të marrë fitim maksimal, duhet të jeni në gjendje të përcaktoni kalimin e deltës nga një nivel i moderuar në një nivel normal. Në të vërtetë, në këtë rast, ju mund të vini re fillimin e kalimit nga lëvizja e sheshtë në trend dhe të jeni në gjendje të merrni fitimin më të madh.

Një grafik grupor është më vizual; ju mund të shihni nivele të konsiderueshme të akumulimit dhe shpërndarjes së vëllimeve, si dhe të ndërtoni nivele mbështetjeje dhe rezistencë. Kjo i lejon tregtarit të gjejë hyrjen e saktë në tregti.

Duke përdorur deltën, mund të gjykoni mbizotërimin e shitjeve ose blerjeve në treg. Analiza e grupeve ju lejon të vëzhgoni transaksionet dhe të gjurmoni vëllimet e tyre brenda një shiriti të çdo TF.

Kjo është veçanërisht e rëndësishme kur afroheni nivele të konsiderueshme mbështetje ose rezistencë. Gjykimet e grupimeve janë çelësi për të kuptuar tregun.

Burimi: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Fushat dhe veçoritë e zbatimit të analizës së grupimeve

Termi analizë grupore (i shpikur për herë të parë nga Tryon, 1939) në fakt përfshin një grup algoritmesh të ndryshme klasifikimi.

Një pyetje e zakonshme e bërë nga studiues në shumë fusha është se si të organizohen të dhënat e vëzhguara në struktura vizuale, d.m.th. zgjerojnë taksonomitë.

Në përputhje me sistem modern Sipas biologjisë, njerëzit i përkasin primatëve, gjitarëve, amniotëve, vertebrorëve dhe kafshëve.

Vini re se në këtë klasifikim, sa më i lartë të jetë niveli i grumbullimit, aq më pak ngjashmëri ka midis anëtarëve në klasën përkatëse.

Njerëzit kanë më shumë ngjashmëri me primatët e tjerë (d.m.th. majmunët) sesa me anëtarët "të jashtëm" të familjes së gjitarëve (d.m.th., qentë), etj.

Vini re se diskutimi i mëparshëm i referohet algoritmeve të grupimit, por nuk përmend asgjë në lidhje me testimin e rëndësisë statistikore.

Në fakt, analiza e grupimeve nuk është aq një metodë e zakonshme statistikore, sa një "bashkë" algoritmesh të ndryshme për "shpërndarjen e objekteve në grupime".

Ekziston një këndvështrim që, ndryshe nga shumë procedura të tjera statistikore, metodat e analizës së grupimeve përdoren në shumicën e rasteve kur nuk keni ndonjë hipotezë apriori për klasat, por jeni ende në fazën përshkruese të studimit.

Kujdes!
Duhet të kuptohet se analiza e grupimeve përcakton "zgjidhjen më të mundshme të rëndësishme".

Prandaj, testimi i rëndësisë statistikore nuk është realisht i zbatueshëm këtu, edhe në rastet kur njihen nivelet p (si në metodën K-means).

Teknikat e grupimit përdoren në një larmi fushash. Hartigan (1975) dha një përmbledhje të shkëlqyer të shumë studimeve të publikuara që përmbajnë rezultate të marra duke përdorur metodat e analizës së grupimeve.

Për shembull, në fushën e mjekësisë, grupimi i sëmundjeve, trajtimet për sëmundjet ose simptomat e sëmundjeve çon në taksonomi të përdorura gjerësisht.

Në fushën e psikiatrisë, diagnoza e saktë e grupeve të simptomave si paranoja, skizofrenia etj është vendimtare për terapi të suksesshme. Në arkeologji, duke përdorur analizën e grupimeve, studiuesit përpiqen të krijojnë taksonomi të veglave prej guri, objekteve funerale etj.

Ekzistojnë aplikime të gjera të analizës së grupimeve në kërkimin e marketingut. Në përgjithësi, sa herë që është e nevojshme të klasifikohen "malet" e informacionit në grupe të përshtatshme për përpunim të mëtejshëm, analiza e grupimeve rezulton të jetë shumë e dobishme dhe efektive.

Grumbullimi i pemëve

Shembulli i dhënë në seksionin Qëllimi kryesor shpjegon qëllimin e algoritmit të grupimit të pemëve.

Qëllimi i këtij algoritmi është të grupojë objektet (të tilla si kafshët) në grupime mjaft të mëdha duke përdorur një masë të ngjashmërisë ose distancës midis objekteve. Rezultati tipik i një grupimi të tillë është një pemë hierarkike.

Konsideroni një diagram peme horizontale. Diagrami fillon me çdo objekt në klasë (në anën e majtë të diagramit).

Tani imagjinoni që gradualisht (me hapa shumë të vegjël) ju "relaksoni" kriterin tuaj se cilat objekte janë unike dhe cilat jo.

Me fjalë të tjera, ju ulni pragun që lidhet me vendimin për të kombinuar dy ose më shumë objekte në një grup.

Si rezultat, ju lidhni gjithnjë e më shumë objekte së bashku dhe grumbulloni (kombinoni) gjithnjë e më shumë grupime që përbëhen nga elementë gjithnjë e më të ndryshëm.

Së fundi, në hapin e fundit, të gjitha objektet kombinohen së bashku. Në këto diagrame, boshtet horizontale paraqesin distancën e bashkimit (në diagramet vertikale të pemëve, boshtet vertikale përfaqësojnë distancën e bashkimit).

Pra, për secilën nyje në grafik (ku formohet një grup i ri), mund të shihni vlerën e distancës për të cilën elementët përkatës janë të lidhur në një grup të ri të vetëm.

Kur të dhënat kanë një "strukturë" të qartë për sa i përket grupimeve të objekteve që janë të ngjashëm me njëri-tjetrin, atëherë kjo strukturë ka të ngjarë të pasqyrohet në pemën hierarkike nga degë të ndryshme.

Si rezultat i analizës së suksesshme duke përdorur metodën e bashkimit, bëhet i mundur zbulimi i grupimeve (degëve) dhe interpretimi i tyre.

Metoda e bashkimit ose grumbullimit të pemëve përdoret për të formuar grupime të pangjashmërisë ose distancës midis objekteve. Këto distanca mund të përcaktohen në hapësirë njëdimensionale ose shumëdimensionale.

Për shembull, nëse do të grumbullonit llojet e ushqimit në një kafene, mund të merrni parasysh numrin e kalorive që përmban, çmimin, vlerësim subjektiv shije etj.

Mënyra më e drejtpërdrejtë për të llogaritur distancat midis objekteve në hapësirën shumëdimensionale është llogaritja e distancave Euklidiane.

Nëse keni dy ose hapësirë tredimensionale, atëherë kjo masë është distanca reale gjeometrike ndërmjet objekteve në hapësirë (sikur distancat ndërmjet objekteve të maten me shirit).

Megjithatë, algoritmi i bashkimit nuk i "kujdes" nëse distancat e "parashikuara" për atë distancë janë ato reale apo ndonjë masë tjetër e prejardhur e distancës, e cila është më domethënëse për studiuesin; dhe sfida për studiuesit është të zgjedhin metodën e duhur për aplikime specifike.

Distanca euklidiane. Ky duket të jetë lloji më i zakonshëm i distancës. Është thjesht një distancë gjeometrike në hapësirën shumëdimensionale dhe llogaritet si më poshtë:

Vini re se distanca Euklidiane (dhe katrori i saj) llogaritet nga të dhënat origjinale, jo nga të dhënat e standardizuara.

Kjo është një mënyrë e zakonshme për ta llogaritur atë, e cila ka disa avantazhe (për shembull, distanca midis dy objekteve nuk ndryshon kur një objekt i ri futet në analizë, i cili mund të jetë i jashtëm).

Kujdes!
Megjithatë, distancat mund të ndikohen shumë nga ndryshimet midis akseve nga të cilat llogariten distancat. Për shembull, nëse një nga boshtet matet në centimetra, dhe ju më pas e konvertoni atë në milimetra (duke shumëzuar vlerat me 10), atëherë distanca përfundimtare Euklidiane (ose katrori i distancës Euklidiane) e llogaritur nga koordinatat do të ndryshojë. në masë të madhe, dhe si rezultat, rezultatet e analizës së grupimeve mund të ndryshojnë shumë nga ato të mëparshme.

Distanca Euklidiane në katror. Ndonjëherë ju mund të dëshironi të katrorizoni distancën standarde Euklidiane për t'i dhënë më shumë peshë objekteve që janë më larg njëri-tjetrit.

Kjo distancë llogaritet si më poshtë:

Distanca e bllokut të qytetit (distanca e Manhatanit). Kjo distancë është thjesht mesatarja e dallimeve mbi koordinatat.

Në shumicën e rasteve, kjo matje e distancës prodhon të njëjtat rezultate si distanca e zakonshme Euklidiane.

Megjithatë, vërejmë se për këtë masë ndikimi i diferencave të mëdha individuale (të jashtmet) zvogëlohet (pasi ato nuk janë në katror). Distanca e Manhatanit llogaritet duke përdorur formulën:

Distanca e Chebyshev. Kjo distancë mund të jetë e dobishme kur dikush dëshiron të përkufizojë dy objekte si "të ndryshëm" nëse ato ndryshojnë në një koordinatë të vetme (në çdo dimension të vetëm). Distanca Chebyshev llogaritet duke përdorur formulën:

Distanca e fuqisë. Ndonjëherë dikush dëshiron të rrisë ose zvogëlojë në mënyrë progresive një peshë të lidhur me një dimension për të cilin objektet përkatëse janë shumë të ndryshme.

Kjo mund të arrihet duke përdorur distancën fuqi-ligj. Distanca e fuqisë llogaritet duke përdorur formulën:

ku r dhe p janë parametra të përcaktuar nga përdoruesi. Disa shembuj të llogaritjeve mund të tregojnë se si "funksionon" kjo masë.

Parametri p është përgjegjës për peshimin gradual të dallimeve përgjatë koordinatave individuale, parametri r është përgjegjës për peshimin progresiv të distancave të mëdha midis objekteve. Nëse të dy parametrat r dhe p janë të barabartë me dy, atëherë kjo distancë përkon me distancën Euklidiane.

Përqindja e mosmarrëveshjeve. Kjo masë përdoret kur të dhënat janë kategorike. Kjo distancë llogaritet me formulën:

Rregullat e lidhjes ose lidhjes

Në hapin e parë, kur çdo objekt është një grup i veçantë, distancat midis këtyre objekteve përcaktohen nga masa e zgjedhur.

Megjithatë, kur disa objekte janë të lidhura së bashku, lind pyetja, si duhet të përcaktohen distancat midis grupimeve?

Me fjalë të tjera, nevojitet një rregull bashkimi ose lidhjeje për dy grupimet. Këtu ka mundësi të ndryshme: për shembull, ju mund të lidhni dy grupe së bashku kur çdo dy objekte në dy grupe janë më afër njëri-tjetrit sesa distanca përkatëse e lidhjes.

Me fjalë të tjera, ju përdorni "rregullin e fqinjit më të afërt" për të përcaktuar distancën midis grupimeve; kjo metodë quhet metoda e lidhjes së vetme.

Ky rregull ndërton grupime "fibroze", d.m.th. grupe "të lidhura së bashku" vetëm nga elementë individualë që ndodhin të jenë më afër njëri-tjetrit.

Përndryshe, ju mund të përdorni fqinjët në grupe që janë më të largëta nga njëri-tjetri nga të gjitha palët e tjera të objekteve. Kjo metodë quhet metoda e lidhjes së plotë.

Ekzistojnë gjithashtu shumë metoda të tjera për kombinimin e grupimeve të ngjashme me ato të diskutuara.

Lidhje e vetme (metoda e fqinjit më të afërt). Siç u përshkrua më lart, në këtë metodë, distanca midis dy grupimeve përcaktohet nga distanca midis dy objekteve më të afërt (fqinjët më të afërt) në grupime të ndryshme.

Ky rregull duhet, në një farë kuptimi, t'i bashkojë objektet së bashku për të formuar grupime, dhe grupimet që rezultojnë priren të përfaqësohen nga "zinxhirë të gjatë".

Lidhja e plotë (metoda e fqinjëve më të largët). Në këtë metodë, distancat midis grupimeve përcaktohen nga distanca më e madhe midis çdo dy objekti në grupime të ndryshme (d.m.th. "fqinjët më të largët").

Mesatarja e papeshuar në çift. Në këtë metodë, distanca midis dy grupimeve të ndryshme llogaritet si distanca mesatare midis të gjitha palëve të objekteve në to.

Metoda është efektive kur objektet në të vërtetë formojnë "korije" të ndryshme, por funksionon po aq mirë në rastet e grupimeve të zgjeruara (të tipit "zinxhir").

Vini re se në librin e tyre, Sneath dhe Sokal (1973) prezantojnë shkurtesën UPGMA për t'iu referuar kësaj metode si metodë e grupit të çifteve të papeshuara duke përdorur mesataret aritmetike.

Mesatarja e ponderuar në çift. Metoda është identike me metodën mesatare të papeshuar në çift, me përjashtim të faktit se madhësia e grupimeve përkatëse (d.m.th., numri i objekteve që ato përmbajnë) përdoret si faktor peshimi në llogaritjet.

Prandaj, metoda e propozuar duhet të përdoret (në vend se ajo e mëparshme) kur supozohen madhësi të pabarabarta të grupimeve.

Libri i Sneath dhe Sokal (1973) prezanton akronimin WPGMA për t'iu referuar kësaj metode si metodë e grupit të çifteve të ponderuara duke përdorur mesataret aritmetike.

Metoda centroide e papeshuar. Në këtë metodë, distanca midis dy grupimeve përcaktohet si distanca midis qendrave të tyre të gravitetit.

Kujdes!
Sneath dhe Sokal (1973) përdorin akronimin UPGMC për t'iu referuar kësaj metode si metodë e grupit të palëve të papeshuara duke përdorur mesataren centroide.

Metoda centroide e ponderuar (mediane). Kjo metodë është identike me atë të mëparshme, përveç se llogaritjet përdorin peshat për të marrë parasysh ndryshimin midis madhësive të grupimeve (d.m.th., numri i objekteve në to).

Prandaj, nëse ka (ose dyshohet) dallime të rëndësishme në madhësitë e grupimeve, kjo metodë preferohet nga ajo e mëparshme.

Sneath dhe Sokal (1973) përdorën shkurtesën WPGMC për t'iu referuar si metodë e grupit të çifteve të ponderuara duke përdorur mesataren qendrore.

Metoda e Ward. Kjo metodë është e ndryshme nga të gjitha metodat e tjera sepse përdor metoda analiza e variancës për të vlerësuar distancat midis grupimeve.

Metoda minimizon shumën e katrorëve (SS) për çdo dy grupime (hipotetike) që mund të formohen në çdo hap.

Detajet mund të gjenden në Ward (1963). Në përgjithësi, metoda duket të jetë shumë efektive, por tenton të krijojë grupime të vogla.

Kjo metodë është diskutuar më parë për sa i përket "objekteve" që duhet të grumbullohen. Në të gjitha llojet e tjera të analizave, pyetja me interes për studiuesin zakonisht shprehet në terma të vëzhgimeve ose variablave.

Rezulton se grupimi, si nga vëzhgimet ashtu edhe nga variablat, mund të çojë në rezultate mjaft interesante.

Për shembull, imagjinoni që një studiues mjekësor po mbledh të dhëna për karakteristika (variabla) të ndryshme të gjendjeve (rasteve) të pacientëve që vuajnë nga sëmundjet e zemrës.

Një studiues mund të dëshirojë të grumbullojë vëzhgimet (pacientët) për të identifikuar grupe pacientësh me simptoma të ngjashme.

Në të njëjtën kohë, studiuesi mund të dëshirojë të grumbullojë variabla për të identifikuar grupe variablash që lidhen me kushte të ngjashme fizike.

Pas këtij diskutimi në lidhje me grumbullimin e vëzhgimeve apo variablave, dikush mund të pyesë, pse të mos grumbullohen në të dy drejtimet?

Moduli i Analizës së grupeve përmban një rutinë efikase të bashkimit të dyanshëm që ju lejon të bëni pikërisht këtë.

Megjithatë, bashkimi i dyanshëm përdoret (relativisht rrallë) në rrethana ku si vëzhgimet ashtu edhe variablat pritet të kontribuojnë njëkohësisht në zbulimin e grupimeve kuptimplote.

Kështu, duke u kthyer në shembullin e mëparshëm, mund të supozojmë se një studiues mjekësor duhet të identifikojë grupe pacientësh që janë të ngjashëm në lidhje me grupe të caktuara të karakteristikave të gjendjes fizike.

Vështirësia në interpretimin e rezultateve të marra lind nga fakti se ngjashmëritë midis grupimeve të ndryshme mund të lindin nga (ose të jenë shkaku i) disa dallimeve në nënbashkësi të variablave.

Prandaj, grupimet që rezultojnë janë heterogjene në natyrë. Kjo mund të duket pak e turbullt në fillim; në fakt, krahasuar me metodat e tjera të analizës së grupimeve të përshkruara, bashkimi i dyanshëm është ndoshta metoda më pak e përdorur.

Megjithatë, disa studiues besojnë se ajo ofron një mjet të fuqishëm të analizës së të dhënave eksploruese (për më shumë informacion, shih përshkrimin e kësaj metode nga Hartigan (1975).

K do të thotë metodë

Kjo metodë grumbullimi ndryshon dukshëm nga metoda të tilla grumbulluese si Unioni (grumbullimi i pemëve) dhe bashkimi i dyanshëm. Le të supozojmë se tashmë keni hipoteza për numrin e grupimeve (bazuar në vëzhgime ose variabla).

Ju mund t'i thoni sistemit të formojë saktësisht tre grupime në mënyrë që ato të jenë sa më të dallueshme të jetë e mundur.

Ky është pikërisht lloji i problemit që zgjidh algoritmi K-means. Në përgjithësi, metoda K-means ndërton saktësisht K grupime të ndryshme të vendosura sa më afër. distanca të gjata nga njeri tjetri.

Në shembullin e një gjendjeje fizike, një studiues mjekësor mund të ketë një "dyshim" nga ai i tij përvojë klinike se pacientët e tij kryesisht ndahen në tre kategori të ndryshme.

Kujdes!
Nëse po, atëherë mesatarja masa të ndryshme parametrat fizikë për çdo grup do të japë një mënyrë sasiore të paraqitjes së hipotezave të studiuesit (për shembull, pacientët në grupin 1 kanë një parametër të lartë 1, një parametër më të ulët 2, etj.).

Nga pikëpamja llogaritëse, ju mund ta mendoni këtë metodë si një analizë të variancës në të kundërt. Programi fillon me K grupime të zgjedhura rastësisht dhe më pas ndryshon anëtarësimin e objekteve në to në mënyrë që:
1. minimizuar ndryshueshmërinë brenda grupimeve,
2. maksimizoni ndryshueshmërinë ndërmjet grupimeve.
Kjo metodë është e ngjashme me ANOVA-n e kundërt në atë që testi i rëndësisë në ANOVA krahason ndryshueshmërinë ndërmjet grupit dhe brenda grupit në testimin e hipotezës se mesataret e grupit ndryshojnë nga njëri-tjetri.

Në grupimin K-means, programi lëviz objektet (d.m.th., vëzhgimet) nga një grup (grup) në tjetrin në mënyrë që të marrë rezultatin më domethënës kur kryen një analizë të variancës (ANOVA).

Në mënyrë tipike, pasi të merren rezultatet e një analize të grupimit K-means, mund të llogariten mesataret për çdo grupim përgjatë secilit dimension për të vlerësuar se sa të ndryshëm janë grupimet nga njëri-tjetri.

Në mënyrë ideale, ju duhet të merrni mjete shumë të ndryshme për shumicën, nëse jo të gjitha, të matjeve të përdorura në analizë.

Burimi: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikimi i objekteve sipas karakteristikave të tyre

Analiza e grupeve është një grup metodash statistikore shumëdimensionale për klasifikimin e objekteve sipas karakteristikave që i karakterizojnë, ndarjen e një grupi objektesh në grupe homogjene që janë të ngjashme në përcaktimin e kritereve dhe identifikimin e objekteve të një grupi të caktuar.

Një grup është një grup objektesh të identifikuara si rezultat i analizës së grupit bazuar në një masë të caktuar të ngjashmërisë ose dallimeve midis objekteve.

Objekti - këto janë objekte specifike të kërkimit që duhet të klasifikohen. Objektet e klasifikimit janë, si rregull, vëzhgimet. Për shembull, konsumatorët e produkteve, vendeve ose rajoneve, produkteve, etj.

Edhe pse është e mundur të kryhet analiza e grupimeve sipas variablave. Klasifikimi i objekteve në analizën e grupimeve shumëdimensionale ndodh sipas disa kritereve njëkohësisht.

Këto mund të jenë variabla sasiore ose kategorike, në varësi të metodës së analizës së grupimeve. Kështu që, objektivi kryesor analiza grupore – gjetja e grupeve të objekteve të ngjashme në një kampion.

Kompleti i metodave statistikore multivariate të analizës së grupimeve mund të ndahet në metoda hierarkike (agglomerative dhe ndarëse) dhe johierarkike (metoda k-means, analiza grupore me dy faza).

Megjithatë, nuk ka një klasifikim të pranuar përgjithësisht të metodave, dhe metodat e analizës së grupimeve ndonjëherë përfshijnë gjithashtu metoda për ndërtimin e pemëve të vendimeve, rrjeteve nervore, analizave diskriminuese dhe regresionit logjistik.

Shtrirja e përdorimit të analizës së grupimeve, për shkak të shkathtësisë së saj, është shumë e gjerë. Analiza e grupeve përdoret në ekonomi, marketing, arkeologji, mjekësi, psikologji, kimi, biologji, administratë publike, filologji, antropologji, sociologji dhe fusha të tjera.

Këtu janë disa shembuj të përdorimit të analizës së grupimeve:
- mjekësia - klasifikimi i sëmundjeve, simptomat e tyre, metodat e trajtimit, klasifikimi i grupeve të pacientëve;
- marketing - detyrat e optimizimit të linjës së produkteve të kompanisë, segmentimi i tregut sipas grupeve të mallrave ose konsumatorëve, identifikimi i konsumatorëve të mundshëm;
- sociologjia – ndarja e të anketuarve në grupe homogjene;
- psikiatri - diagnoza e saktë e grupeve të simptomave është vendimtare për terapinë e suksesshme;
- biologjia - klasifikimi i organizmave sipas grupeve;
- ekonomi - klasifikimi i subjekteve të Federatës Ruse sipas atraktivitetit të investimeve.
Burimi: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Kuptimi i analizës së grupeve

Analiza e grupimeve përfshin një grup algoritmesh të ndryshme klasifikimi. Një pyetje e zakonshme e bërë nga studiues në shumë fusha është se si të organizohen të dhënat e vëzhguara në struktura vizuale.

Për shembull, biologët synojnë të klasifikojnë kafshët në lloje të ndryshme në mënyrë që të përshkruajnë kuptimisht dallimet midis tyre.

Detyra e analizës së grupimeve është të ndajë grupin fillestar të objekteve në grupe objektesh të ngjashme që janë afër njëri-tjetrit. Këto grupe quhen grupe.

Me fjalë të tjera, analiza e grupimeve është një nga mënyrat për të klasifikuar objektet sipas karakteristikave të tyre. Është e dëshirueshme që rezultatet e klasifikimit të kenë një interpretim kuptimplotë.

Rezultatet e marra nga metodat e analizës së grupimeve përdoren në një larmi fushash. Në marketing, ky është segmentimi i konkurrentëve dhe konsumatorëve.

Në psikiatri diagnoza e saktë e simptomave si paranoja, skizofrenia etj është vendimtare për terapinë e suksesshme.

Në menaxhim, është e rëndësishme të klasifikohen furnizuesit dhe të identifikohen situata të ngjashme prodhimi në të cilat ndodhin defekte. Në sociologji, ndarja e të anketuarve në grupe homogjene. Në investimin e portofolit, është e rëndësishme të gruponi letrat me vlerë sipas ngjashmërisë në tendencat e përfitimit, në mënyrë që të krijoni, bazuar në informacionin e marrë në lidhje me tregun e aksioneve, një portofol investimi optimal që ju lejon të maksimizoni kthimet e investimeve në një shkallë të caktuar rreziku.

Në përgjithësi, sa herë që është e nevojshme të klasifikohet një sasi e madhe informacioni të këtij lloji dhe të paraqitet në një formë të përshtatshme për përpunim të mëtejshëm, analiza e grupeve rezulton të jetë shumë e dobishme dhe efektive.

Analiza e grupeve ju lejon të konsideroni një sasi mjaft të madhe informacioni dhe të ngjeshni në masë të madhe sasi të mëdha informacioni socio-ekonomik, duke i bërë ato kompakte dhe vizuale.

Kujdes!
Analiza e grupimeve ka një rëndësi të madhe në lidhje me grupet e serive kohore që karakterizojnë zhvillimin ekonomik (për shembull, kushtet e përgjithshme ekonomike dhe të mallrave).

Këtu mund të theksoni periudhat kur vlerat e treguesve përkatës ishin mjaft afër, si dhe të përcaktoni grupet e serive kohore, dinamikat e të cilave janë më të ngjashme.

Në detyrat e parashikimit socio-ekonomik, kombinimi i analizës së grupimeve me metoda të tjera sasiore (për shembull, analiza e regresionit) është shumë premtuese.

Avantazhet dhe disavantazhet

Analiza e grupimeve lejon një klasifikim objektiv të çdo objekti që karakterizohet nga një numër karakteristikash. Ka një sërë përfitimesh që mund të nxirren nga kjo:
1. Grupet që rezultojnë mund të interpretohen, domethënë, ato mund të përshkruajnë se cilat grupe ekzistojnë në të vërtetë.
2. Grupet individuale mund të hidhen poshtë. Kjo është e dobishme në rastet kur janë bërë gabime të caktuara gjatë mbledhjes së të dhënave, si rezultat i të cilave vlerat e treguesve për objekte individuale devijojnë ndjeshëm. Kur aplikoni analizën e grupimeve, objekte të tilla bien në një grup të veçantë.
3. Vetëm ato grupe që kanë karakteristikat e interesit mund të zgjidhen për analizë të mëtejshme.
Ashtu si çdo metodë tjetër, analiza e grupimeve ka disavantazhe dhe kufizime të caktuara. Në veçanti, përbërja dhe numri i grupimeve varet nga kriteret e përzgjedhura të ndarjes.

Kur zvogëloni grupin e të dhënave origjinale në një formë më kompakte, mund të shfaqen shtrembërime të caktuara dhe tiparet individuale të objekteve individuale mund të humbasin për shkak të zëvendësimit të tyre me karakteristikat e vlerave të përgjithësuara të parametrave të grupimit.

Metodat

Aktualisht, njihen më shumë se njëqind algoritme të ndryshme të grupimit. Diversiteti i tyre shpjegohet jo vetëm nga metoda të ndryshme llogaritëse, por edhe nga koncepte të ndryshme që qëndrojnë në themel të grupimit.

Metodat e mëposhtme të grupimit janë zbatuar në paketën Statistica.
- Algoritmet hierarkike - grupimi i pemëve. Algoritmet hierarkike bazohen në idenë e grupimit sekuencial. Në hapin fillestar, çdo objekt konsiderohet si një grup i veçantë. Në hapin tjetër, disa nga grupimet më afër njëri-tjetrit do të kombinohen në një grup të veçantë.
- Metoda K-means. Kjo metodë përdoret më shpesh. I përket grupit të të ashtuquajturave metoda referente të analizës së grupimeve. Numri i grupimeve K përcaktohet nga përdoruesi.
- Kombinim me dy hyrje. Kur përdoret kjo metodë, grupimi kryhet njëkohësisht si nga variabla (kolona) ashtu edhe nga vëzhgime (rreshta).
Procedura e bashkimit të dyanshëm përdoret në rastet kur grumbullimi i njëkohshëm midis variablave dhe vëzhgimeve mund të pritet të prodhojë rezultate domethënëse.

Rezultatet e procedurës janë statistika përshkruese për variablat dhe vëzhgimet, si dhe një tabelë ngjyrash dydimensionale në të cilën vlerat e të dhënave janë të koduara me ngjyra.

Bazuar në shpërndarjen e ngjyrave, mund të merrni një ide të grupeve homogjene.

Normalizimi i variablave

Ndarja e grupit fillestar të objekteve në grupe përfshin llogaritjen e distancave midis objekteve dhe zgjedhjen e objekteve, distanca e të cilëve është më e vogla nga të gjitha të mundshmet.

Më e përdorura është distanca Euklidiane (gjeometrike) që është e njohur për të gjithë ne. Kjo metrikë korrespondon me idetë intuitive për afërsinë e objekteve në hapësirë (sikur distancat midis objekteve të maten me një matës shiriti).

Por për një metrikë të caktuar, distanca midis objekteve mund të ndikohet shumë nga ndryshimet në shkallë (njësi matëse). Për shembull, nëse një nga tiparet matet në milimetra dhe më pas vlera e tij shndërrohet në centimetra, distanca Euklidiane midis objekteve do të ndryshojë shumë. Kjo do të çojë në faktin se rezultatet e analizës së grupimeve mund të ndryshojnë ndjeshëm nga ato të mëparshme.

Nëse variablat maten në njësi të ndryshme matëse, atëherë kërkohet normalizimi paraprak i tyre, pra një transformim i të dhënave origjinale që i shndërron ato në sasi pa dimension.

Normalizimi shtrembëron shumë gjeometrinë e hapësirës origjinale, gjë që mund të ndryshojë rezultatet e grumbullimit

Në paketën Statistica, normalizimi i çdo ndryshoreje x kryhet duke përdorur formulën:

Për ta bërë këtë, klikoni me të djathtën mbi emrin e ndryshores dhe zgjidhni sekuencën e komandave në menynë që hapet: Plotësoni/ Standardizo bllokun/ Standardizo kolonat. Vlerat e ndryshores së normalizuar do të bëhen e barabartë me zero, dhe dispersioni - unitet.

Metoda K-means në programin Statistica

Metoda K-means ndan një grup objektesh në një numër të caktuar K të grupimeve të ndryshme të vendosura në distancat më të mëdha të mundshme nga njëri-tjetri.

Në mënyrë tipike, pasi të merren rezultatet e një analize të grupimit K-means, mund të llogariten mesataret për çdo grupim përgjatë secilit dimension për të vlerësuar se sa të ndryshëm janë grupimet nga njëri-tjetri.

Në mënyrë ideale, ju duhet të merrni mjete shumë të ndryshme për shumicën e matjeve të përdorura në analizë.

Vlerat e statistikës F të marra për çdo dimension janë një tregues tjetër se sa mirë diskriminon dimensioni përkatës midis grupimeve.

Si shembull, merrni parasysh rezultatet e një sondazhi të 17 punonjësve të një ndërmarrje për kënaqësinë me treguesit e cilësisë së karrierës së tyre. Tabela jep përgjigjet për pyetjet e anketës në një shkallë prej dhjetë pikësh (1 është rezultati minimal, 10 është maksimumi).

Emrat e variablave korrespondojnë me përgjigjet e pyetjeve të mëposhtme:
1. SLC - një kombinim i qëllimeve personale dhe qëllimeve organizative;
2. OSO – ndjenja e drejtësisë në shpërblim;
3. TBD - afërsia territoriale me shtëpinë;
4. OEB – ndjenja e mirëqenies ekonomike;
5. KR – rritja e karrierës;
6. ZhSR - dëshira për të ndryshuar vendin e punës;
7. RSD - ndjenja e mirëqenies sociale.
Duke përdorur këto të dhëna, është e nevojshme të ndahen punonjësit në grupe dhe të identifikohen levat më efektive të menaxhimit për secilin prej tyre.

Në të njëjtën kohë, dallimet ndërmjet grupeve duhet të jenë të dukshme, dhe brenda grupit të anketuarit duhet të jenë sa më të ngjashëm.

Sot, shumica e anketave sociologjike ofrojnë vetëm përqindje vota: merret parasysh numri kryesor i atyre që janë përgjigjur pozitivisht ose përqindja e të pakënaqurve, por kjo çështje nuk merret parasysh sistematikisht.

Më shpesh, anketa nuk tregon një tendencë të situatës. Në disa raste, është e nevojshme të llogaritet jo numri i njerëzve që janë "pro" ose "kundër", por distanca ose masa e ngjashmërisë, domethënë, të përcaktohen grupet e njerëzve që mendojnë afërsisht në të njëjtën mënyrë.

Procedurat e analizës së grupimeve mund të përdoren për të identifikuar, bazuar në të dhënat e anketës, disa marrëdhënie reale ekzistuese midis karakteristikave dhe për të gjeneruar tipologjinë e tyre mbi këtë bazë.

Kujdes!
Prania e ndonjë hipoteze apriori të një sociologu gjatë punës me procedurat e analizës së grupimeve nuk është një kusht i domosdoshëm.

Në Statistica, analiza e grupimeve kryhet si më poshtë.

Kur zgjidhni numrin e grupimeve, drejtohuni nga sa vijon: numri i grupimeve, nëse është e mundur, nuk duhet të jetë shumë i madh.

Distanca në të cilën objektet e një grupi të caktuar janë bashkuar duhet, nëse është e mundur, të jetë shumë më e vogël se distanca në të cilën diçka tjetër bashkohet me këtë grup.

Kur zgjidhni numrin e grupimeve, më shpesh ekzistojnë disa zgjidhje të sakta në të njëjtën kohë.

Ne jemi të interesuar, për shembull, se si përgjigjet në pyetjet e anketës krahasohen midis punonjësve të zakonshëm dhe menaxhmentit të ndërmarrjes. Prandaj zgjedhim K=2. Për segmentim të mëtejshëm, mund të rrisni numrin e grupimeve.
1. zgjidhni vëzhgimet me distancën maksimale midis qendrave të grupimeve;
2. renditni distancat dhe zgjidhni vëzhgimet në intervale të rregullta (cilësimi i parazgjedhur);
3. merrni vëzhgimet e para si qendra dhe bashkëngjitni objektet e mbetura me to.
Për qëllimet tona, opsioni 1) është i përshtatshëm.

Shumë algoritme grupimi shpesh "imponojnë" një strukturë të panatyrshme mbi të dhënat dhe çorientojnë studiuesin. Prandaj, është jashtëzakonisht e nevojshme të aplikohen disa algoritme të analizës së grupimeve dhe të nxirren përfundime bazuar në një vlerësim të përgjithshëm të rezultateve të algoritmeve.

Rezultatet e analizës mund të shihen në kutinë e dialogut që shfaqet:

Nëse zgjidhni skedën Grafiku i mjeteve, do të ndërtohet një grafik i koordinatave të qendrave të grupimeve:

Secili vijë e thyer në këtë grafik korrespondon me një nga grupimet. Çdo ndarje boshti horizontal grafiku korrespondon me një nga variablat e përfshirë në analizë.

Boshti vertikal korrespondon me vlerat mesatare të variablave për objektet e përfshira në secilin prej grupeve.

Mund të vërehet se ka dallime domethënëse në qëndrimin e dy grupeve të njerëzve ndaj karrierës së tyre për pothuajse të gjitha çështjet. Ekziston një unanim i plotë vetëm për një çështje – ndjenjën e mirëqenies sociale (SSW), ose më mirë, mungesën e saj (2,5 pikë nga 10).

Mund të supozojmë se grupi 1 përfaqëson punëtorët, dhe grupi 2 përfaqëson menaxhimin. Menaxherët janë më të kënaqur me rritjen e karrierës (CG), kombinimin e qëllimeve personale dhe qëllimeve organizative (CLO).

Ata kanë nivele më të larta të mirëqenies ekonomike të perceptuar (SEW) dhe barazisë së perceptuar të pagave (SPE).

Ata janë më pak të shqetësuar për afërsinë territoriale me shtëpinë (TPH) sesa punëtorët, ndoshta për shkak të më pak problemeve me transportin. Gjithashtu, menaxherët kanë më pak dëshirë për të ndryshuar punë (JSR).

Përkundër faktit se punëtorët ndahen në dy kategori, ata u përgjigjen shumicës së pyetjeve në mënyrë relativisht të barabartë. Me fjalë të tjera, nëse diçka nuk i përshtatet grupit të përgjithshëm të punonjësve, e njëjta nuk i përshtatet menaxhmentit të lartë dhe anasjelltas.

Koordinimi i orareve na lejon të nxjerrim përfundime se mirëqenia e një grupi reflektohet në mirëqenien e një tjetri.

Grupi 1 nuk është i kënaqur me afërsinë territoriale me shtëpinë. Ky grup është pjesa më e madhe e punëtorëve që vijnë kryesisht në ndërmarrje me anët e ndryshme qytetet.

Prandaj, është e mundur t'i propozohet menaxhmentit kryesor që të ndajë një pjesë të fitimit për ndërtimin e banesave për punonjësit e kompanisë.

Ka dallime domethënëse në qëndrimin e dy grupeve të njerëzve ndaj karrierës së tyre. Ata punonjës që janë të kënaqur me rritjen e tyre në karrierë, të cilët kanë një nivel të lartë të pajtimit midis qëllimeve të tyre personale dhe qëllimeve të organizatës, nuk kanë dëshirë të ndryshojnë vendin e punës dhe të ndihen të kënaqur me rezultatet e punës së tyre.

Në të kundërt, punonjësit që duan të ndryshojnë vendin e punës dhe janë të pakënaqur me rezultatet e punës së tyre nuk janë të kënaqur me treguesit e deklaruar. Tek menaxhmenti i lartë vëmendje e veçantë duhet t'i kushtohet situatës aktuale.

Rezultatet e analizës së variancës për secilën karakteristikë shfaqen duke klikuar butonin Analiza e variancës.

Shfaqet shuma e devijimeve në katror të objekteve nga qendrat e grupimeve (SS Brenda) dhe shuma e devijimeve në katror midis qendrave të grupimeve (SS Between), vlerat statistikore F dhe nivelet e rëndësisë p.

Kujdes!
Për shembullin tonë, nivelet e rëndësisë për dy variabla janë mjaft të mëdha, gjë që shpjegohet nga numri i vogël i vëzhgimeve. NË versioni i plotë Hulumtimi, i cili mund të gjendet në punim, hipotezat për barazinë e mjeteve për qendrat e grupimeve janë hedhur poshtë në nivele të rëndësisë më të vogël se 0.01.

Butoni Ruaj klasifikimet dhe distancat shfaq numrin e objekteve të përfshira në çdo grup dhe distancat e objekteve në qendër të çdo grupi.

Tabela tregon numrat e vëzhgimit (RASTI_NO), grupimet përbërëse me numra CLUSTER dhe distancën nga qendra e çdo grupi (DISTANCE).

Informacioni rreth objekteve që i përkasin grupeve mund të shkruhet në një skedar dhe të përdoret në analiza të mëtejshme. Në këtë shembull, një krahasim i rezultateve të marra me pyetësorët tregoi se grupi 1 përbëhet kryesisht nga punëtorë të zakonshëm, dhe grupi 2 nga menaxherët.

Kështu, mund të vërehet se gjatë përpunimit të rezultateve të anketës, doli të ishte analiza e grupimeve metodë e fuqishme, duke na lejuar të nxjerrim përfundime që nuk mund të arrihen duke ndërtuar një histogram të mesatareve ose duke llogaritur përqindjen e njerëzve të kënaqur me tregues të ndryshëm të cilësisë së jetës së punës.

Grumbullimi i pemëve është një shembull i një algoritmi hierarkik, parimi i të cilit është të kombinohen në mënyrë sekuenciale në një grup, së pari elementët më të afërt dhe më pas gjithnjë e më të largët nga njëri-tjetri.

Shumica e këtyre algoritmeve fillojnë nga një matricë ngjashmërie (distancash) dhe çdo element individual fillimisht konsiderohet si një grup i veçantë.

Pasi të keni ngarkuar modulin e analizës së grupimeve dhe të zgjidhni Joining (grumbullimi i pemëve), në dritaren për futjen e parametrave të grupimit, mund të ndryshoni parametrat e mëposhtëm:
- Të dhënat fillestare (Input). Ato mund të jenë në formën e një matrice të të dhënave në studim (Raw data) dhe në formën e një matrice të distancës (Matrica e distancës).
- Grumbullimi i vëzhgimeve (Rastet (të papërpunuara)) ose variablat (Variabla (kolona)) që përshkruajnë gjendjen e një objekti.
- Masa e distancës. Këtu mund të zgjidhni masat e mëposhtme: Distancat euklidiane, Distancat Euklidiane në katror, Distanca e bllokut të qytetit (Manhattan), metrika e distancës së Chebychev, Distanca e fuqisë ...), Përqindja e mosmarrëveshjes.
- Metoda e grupimit (rregulli i shkrirjes (lidhjes)). Opsionet e mëposhtme janë të mundshme këtu: Lidhja e vetme, Lidhja e plotë, Mesatarja e grupit të çifteve të papeshuara, Mesatarja e grupit të çifteve të ponderuara ), Centroidi i grupit të palëve të papeshuara, centridi i grupit të çifteve të ponderuara (mediane), metoda e Ward.
Si rezultat i grumbullimit, ndërtohet një dendrogram horizontal ose vertikal - një grafik në të cilin distancat midis objekteve dhe grupimeve përcaktohen kur ato kombinohen në mënyrë sekuenciale.

Struktura e pemës së grafikut ju lejon të përcaktoni grupimet në varësi të pragut të zgjedhur - një distancë e caktuar midis grupimeve.

Përveç kësaj, shfaqet një matricë e distancave midis objekteve origjinale (Matrica e distancës); devijimet mesatare dhe standarde për çdo objekt burimor (Statistika distiptive).

Për shembullin e shqyrtuar, ne do të kryejmë një analizë grupi të variablave me cilësimet e paracaktuara. Dendrogrami që rezulton është paraqitur në figurë.

Boshti vertikal i dendrogramit tregon distancat midis objekteve dhe midis objekteve dhe grupimeve. Kështu, distanca midis variablave OEB dhe OSD është pesë. Në hapin e parë, këto variabla kombinohen në një grup.

Segmentet horizontale të dendrogramit vizatohen në nivele që korrespondojnë me vlerat e distancës së pragut të zgjedhur për një hap të caktuar grumbullimi.

Grafiku tregon se pyetja “dëshira për të ndryshuar punë” (WSW) formon një grup të veçantë. Në përgjithësi, dëshira për të shkuar kudo i viziton të gjithë njëlloj. Më pas, një grup i veçantë është çështja e afërsisë territoriale me shtëpinë (TDP).

Për nga rëndësia është në vendin e dytë, gjë që konfirmon konkluzionin për nevojën për ndërtimin e banesave të bërë në bazë të rezultateve të studimit duke përdorur metodën K-means.

Mirëqenia e perceptuar ekonomike (SEW) dhe kapitali i pagave (SEE) janë të kombinuara - ky është një bllok çështjet ekonomike. Zhvillimi i karrierës (CR) dhe kombinimi i qëllimeve personale dhe organizative (LOG) janë gjithashtu të kombinuara.

Metodat e tjera të grupimit, si dhe zgjedhja e llojeve të tjera të distancave, nuk çojnë në një ndryshim të rëndësishëm në dendrogram.

Rezultatet:
1. Analiza e grupimeve është një mjet i fuqishëm analiza e të dhënave eksploruese dhe kërkime statistikore në çdo fushë lëndore.
2. Programi Statistica zbaton metoda hierarkike dhe strukturore të analizës së grupimeve. Përparësitë e kësaj pakete statistikore rrjedhin nga aftësitë e tyre grafike. Janë dhënë paraqitjet grafike dydimensionale dhe tredimensionale të grupimeve rezultuese në hapësirën e variablave të studiuar, si dhe rezultatet e procedurës hierarkike për grupimin e objekteve.
3. Është e nevojshme të aplikohen disa algoritme të analizës së grupimeve dhe të nxirren përfundime bazuar në një vlerësim të përgjithshëm të rezultateve të algoritmeve.
4. Analiza e grupimit mund të konsiderohet e suksesshme nëse është e përfunduar menyra te ndryshme, rezultatet u krahasuan dhe u gjetën modele të përgjithshme dhe u gjetën grupime të qëndrueshme pavarësisht nga metoda e grupimit.
5. Analiza e grupimeve ju lejon të identifikoni situatat problemore dhe të përshkruani mënyrat për t'i zgjidhur ato. Prandaj kjo metodë statistika joparametrike mund të shihet si komponent analiza e sistemit.
Artikulli i mëparshëm: Sa është shpejtësia e dritës Artikulli vijues: Karakteristikat e elementit të karbonit dhe vetitë kimike

Pse keni nevojë për analiza grupore? Metodat e analizës së grupeve

Clustering në Data Mining

Algoritmet e grupimit: shkëlqimi dhe mjerimi

Tabela e vleraveS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Koncepti i grupimit

Masat e distancës

Klasifikimi i algoritmeve

Bashkimi i grupimeve

Pasqyrë e algoritmeve

Algoritmet e grupimit hierarkik

Algoritmet e gabimit kuadratik

Algoritmet Fuzzy

Algoritme të bazuara në teorinë e grafikëve

Algoritmi për identifikimin e komponentëve të lidhur

Algoritmi i pemës me shtrirje minimale

Grumbullimi shtresë pas shtrese

Krahasimi i algoritmeve

Pak për aplikimin

YouTube Enciklopedike

Tipologjia e problemeve të grumbullimit

Llojet e hyrjes

Qëllimet e grupimit

Metodat e grupimit

Formulimi formal i problemit të grupimit

Në sociologji

Karakteristikat e analizës së grupimeve

Tregtimi në Forex duke përdorur CA

Fushat dhe veçoritë e zbatimit të analizës së grupimeve

Grumbullimi i pemëve

Rregullat e lidhjes ose lidhjes

Klasifikimi i objekteve sipas karakteristikave të tyre