Kohët e fundit, Vladimir Davydov shkroi një postim në facebook në lidhje me testimin A / B ose MVT, i cili shkaktoi shumë pyetje.

Zakonisht, bërja e testimit A/B ose MVT në faqet e internetit është një gjë shumë e vështirë. Edhe pse "konviktorëve" u duket se kjo është elementare, sepse "kjo është e njëjta gjë, ka programe speciale, gyg".

Nëse zgjidhni të testoni përmbajtjen e uebit, mbani mend:

1. Së pari ju duhet të izoloni një audiencë ekuivalente, me përmasa të barabarta dhe me cilësi të barabartë. Kryerja e testeve A/A. Shumica dërrmuese e testeve të kryera nga agjencitë e transmetimit ose tregtarët e papërvojë të internetit nuk janë të sakta. Është për arsye se përmbajtja testohet në audienca të ndryshme.

2. Kryeni dhjetëra ose më mirë qindra teste gjatë disa muajve. Nuk ia vlen të testoni 2-3 versione të faqes për një javë.

3. Mos harroni se mund të testoni në formatin MVT (d.m.th., ka shumë opsione), dhe jo vetëm A dhe B.

4. Analizoni statistikisht grupin e të dhënave me rezultatet e testit (është absolutisht në rregull në Excel, mund të përdorni edhe SPSS). A janë rezultatet brenda kufirit të gabimit, sa fort devijojnë ato dhe si varen nga koha. Nëse, për shembull, në paragrafin e parë të testit A / A keni marrë devijime të forta të një opsioni nga një tjetër, ky është një dështim dhe nuk mund të vazhdoni testimin.

5. Mos provoni gjithçka. Nuk është argëtuese (vetëm nëse vërtet nuk keni asgjë tjetër për të bërë). Ka kuptim të testoni vetëm atë që, nga pikëpamja e marketingut dhe analizës së biznesit, mund të çojë në rezultate të dukshme. Dhe gjithashtu diçka nga e cila rezultati mund të matet vërtet. Për shembull, keni vendosur të rrisni madhësinë e shkronjave në sit, keni testuar një faqe me një font të madh për disa javë - shitjet u rritën. Çfarë thotë ajo? Nuk jam unë për asgjë (shih paragrafët e mëparshëm).

6. Ju duhet të provoni të gjithë rrugën. Kjo do të thotë, nuk mjafton të marrësh dhe të testosh faqen e blerjes (ose ndonjë veprim në sit) - duhet të testosh ato faqe dhe hapa që çojnë në këtë faqe përfundimtare të konvertimit.

Pyetja është bërë në komente:

Si të vendosni një fitues? Këtu kemi testuar titullin në një faqe që shitet "në ballë". Çfarë ndryshimi në konvertim duhet të jetë midis A dhe B për të njohur fituesin?

Përgjigja e Vladimirit:

Së pari, ju duhet të kryeni eksperimente të izoluara afatgjatë (rregulli bazë i çdo vlerësimi statistikor). Së dyti, gjithçka në mënyrë të pashmangshme varet nga statistikat dhe matematika (kjo është arsyeja pse unë rekomandoj excel dhe spss ose homologët e tyre falas). Duhet të llogarisim nivelin e besimit që ndryshimi në vlera do të thotë diçka. Ka një artikull të mirë (një nga shumë). Ata marrin transaksione nga GA sipas testeve të kryera Optimizelyhttps://www.distilled.net/uploads/ga_transactions.png , krahasoni transaksionet (blerjet) me shpërndarjen e zakonshme të ziles dhe shikoni nëse vlera mesatare bie brenda intervalit të besimit të gabimithttps://www.distilled.net/uploads/t-test_tool.png

Dëshironi të merrni një ofertë nga ne?

Filloni bashkëpunimin

Roli i rëndësisë statistikore në normat e konvertimit: 6 gjëra që duhet të dini

1. Pikërisht çfarë do të thotë

"Ndryshimi arriti një rritje prej 20% në konvertimet me një nivel besimi 90%. Fatkeqësisht, kjo deklaratë nuk është aspak ekuivalente me një tjetër, shumë të ngjashme: "Shanset për të rritur konvertimet me 20% janë 90%. Pra, për çfarë bëhet fjalë në të vërtetë?

20% është rritja që kemi regjistruar sipas rezultateve të testeve në një nga mostrat. Nëse do të fillonim të fantazonim dhe të spekulonim, mund të imagjinonim se kjo rritje mund të ishte e përhershme - nëse vazhdojmë të testojmë pafundësisht. Por kjo nuk do të thotë që me një probabilitet prej 90% do të kemi një rritje prej njëzet për qind të konvertimeve ose një rritje prej "të paktën" 20%, ose "afërsisht" 20%.

90% është probabiliteti i çdo ndryshimi në konvertim. Me fjalë të tjera, nëse do të kryenim dhjetë teste A/B për të marrë këtë rezultat, dhe do të vendosnim t'i ekzekutonim të gjitha dhjetë pafundësisht, atëherë njëri prej tyre (pasi ka 90% mundësi për ndryshim, atëherë 10% mbetet për të njëjtën rezultati) është ndoshta , do të përfundonte me rezultatin "pas testit" që i afrohet konvertimit origjinal - domethënë pa ndryshime. Nga nëntë testet e mbetura, disa mund të tregojnë një rritje prej shumë më pak se 20%. Në të tjerat, rezultati mund të tejkalojë këtë shirit.

Nëse i keqinterpretojmë këto të dhëna, jemi në rrezik të madh për të "përfunduar" testin. Është e lehtë të emocionohesh kur një test tregon norma të larta konvertimi me një nivel besimi 95%, por është më e mençur të mos presësh shumë derisa testi të arrijë në përfundimin e tij logjik.

2. Kur të përdoret

Kandidatët më të dukshëm janë testet e ndarjes A/B, por ato janë larg nga të vetmet. Ju gjithashtu mund të testoni për dallime të rëndësishme statistikisht midis segmenteve (për shembull, vizitat përmes kërkimit organik dhe të paguar) ose periudhave kohore (për shembull, prill 2013 dhe prill 2014).

Megjithatë, vlen të theksohet se ky korrelacion nuk nënkupton shkakësinë. Kur kryejmë teste të ndara, ne e dimë se çdo ndryshim në rezultate mund t'ia atribuojmë elementëve që i bëjnë faqet të ndryshme, pasi tregohet kujdes i veçantë për t'u siguruar që faqet të jenë ndryshe identike. Nëse po krahasoni grupe të tilla si vizitorët nga kërkimi organik dhe me pagesë, çdo faktor tjetër mund të hyjë në lojë - për shembull, mund të ketë shumë vizita nga kërkimi organik gjatë natës dhe konvertimi midis vizitorëve të natës është shumë i lartë. Testet e rëndësisë ndihmojnë në përcaktimin nëse ka një arsye për një ndryshim, por ato nuk mund t'ju tregojnë saktësisht se çfarë është.

3. Si të testoni ndryshimet në normat e konvertimit, normat e fryrjes dhe normat e daljes (norma e daljes)

Kur shikojmë "masat", ne në fakt po shikojmë mesataret e variablave binare - dikush ose ka përfunduar veprimin e synuar ose nuk e ka kryer. Nëse kemi një kampion prej 10 personash me një normë konvertimi 40%, ne në fakt po shohim një tabelë si kjo:

Do të na duhet kjo tabelë, së bashku me mesataren, për të llogaritur devijimin mesatar, një komponent kyç i rëndësisë statistikore. Megjithatë, fakti që çdo vlerë në tabelë është ose një zero ose një e bën më të lehtë për ne - ne mund të shmangim nevojën për të kopjuar një listë të madhe numrash duke përdorur një kalkulator të besimit të testit A/B dhe duke u nisur nga njohja e mesatares dhe mostrat e madhësive. Ky është një mjet nga KissMetrics.

(E rëndësishme! Ky mjet merr parasysh vetëm njërën anë të "këmbanës" së shpërndarjes së probabilitetit në llogaritjet. Për të përdorur të dyja anët dhe për ta përkthyer rezultatin në domethënie të dyfishtë, duhet të dyfishoni distancën nga 100% - për shembull, një -bishtore 95% behet me dy bisht 90%).

Edhe pse thotë "Mjet i vlefshmërisë së testit A/B" në përshkrim, ai mund të përdoret gjithashtu për çdo krahasim tjetër metrikë - thjesht zëvendësoni konvertimin me normën e fryrjes ose daljes. Përveç kësaj, mund të përdoret gjithashtu për të krahasuar segmentet ose intervalet kohore - llogaritjet do të jenë të njëjta.

Gjithashtu, është i përshtatshëm për testimin me shumë variacione (MVT) - thjesht krahasoni çdo ndryshim individualisht me origjinalin.

4. Si të testohen ndryshimet në kontrollin mesatar

Për të testuar mesataret e variablave jobinare, na nevojitet grupi i plotë i të dhënave, kështu që gjërat bëhen pak më të ndërlikuara këtu. Për shembull, ne duam të përcaktojmë nëse ka një ndryshim të rëndësishëm në shumën mesatare të porosisë për një test të ndarjes A / B - kjo pikë shpesh anashkalohet në optimizimin e konvertimit, megjithëse për treguesit e biznesit është po aq i rëndësishëm sa vetë konvertimi.

Gjëja e parë që na duhet është të marrim nga Google Analytics një listë të plotë të transaksioneve për çdo opsion testimi - për A dhe B (ishte, u bë). Mënyra më e lehtë për ta bërë këtë është të krijoni segmente të personalizuara të bazuara në variabla për testin tuaj të ndarjes dhe më pas të eksportoni raportin e transaksionit në një spreadsheet Excel. Sigurohuni që të përfshini të gjitha transaksionet, jo vetëm 10 rreshtat e paracaktuar.

Kur keni dy lista transaksionesh, mund t'i kopjoni në një mjet si ky:

Në rastin e mësipërm, nuk kemi një nivel besimi 95% në nivelin e zgjedhur. Në fakt, nëse shikojmë "p" mbi grafikun e poshtëm prej 0,63, është e qartë se ne nuk kemi as 50% rëndësi - ekziston një shans 63% që diferenca midis rezultateve të faqes të jetë shans i pastër.

5. Si të parashikoni kohëzgjatjen e një testi të ndarjes A/B që ju nevojitet

Evanmiller.org ka një mjet tjetër të dobishëm për optimizimin e konvertimit, Llogaritësin e madhësisë së mostrës.

Ky mjet ju lejon t'i përgjigjeni pyetjes "Sa kohë duhet për të marrë rezultate të besueshme të testit?", dhe kjo përgjigje nuk ia vlen të përpiqeni të hamendësoni.

Vlen të përmenden disa pika. Së pari, mjeti ka një ndryshim absolut/relativ - nëse doni të gjeni ndryshimin midis një norme konvertimi bazë prej 5% dhe një norme të ndryshueshme konvertimi prej 6%, do të jetë 1% në terma absolutë (6-5=1 ) ose 20 % në terma relative (6/5=1.2). Së dyti, në fund të faqes ka dy "rrëshqitës". Pjesa e poshtme është përgjegjëse për nivelin e kërkuar të rëndësisë - nëse qëllimi juaj është të merrni një rëndësi prej 95%, atëherë rrëshqitësi duhet të vendoset në 5%. Rrëshqitësi i sipërm tregon probabilitetin që numri i vizitave të kërkuara të faqes të jetë i mjaftueshëm - për shembull, nëse doni të dini numrin e vizitave të nevojshme për të arritur një shans tetëdhjetë përqind për të gjetur një rëndësi 95%, vendosni rrëshqitësin e sipërm në 80% dhe rrëshqitësi i poshtëm në 5%.

6. Çfarë nuk duhet bërë

Ekzistojnë disa mënyra të thjeshta për të identifikuar papërshtatshmërinë e një testi të ndarë, të cilat, megjithatë, nuk janë gjithmonë të dukshme në shikim të parë:

A) Testimi i ndarë i vlerave rendore jobinare

Për shembull, qëllimi juaj është të zbuloni nëse ka një ndryshim domethënës në gjasat që vizitorët nga grupet "origjinale" dhe "pas ndryshimeve" të blejnë produkte të caktuara. Ju etiketoni tre produkte "1", "2" dhe "3" dhe më pas vendosni ato vlera në fushat e testimit për rëndësi. Fatkeqësisht, kjo qasje nuk do të funksionojë - produkti 2 nuk është mesatarja e produkteve 1 dhe 3.

B) Cilësimet e shpërndarjes së trafikut

Në fillim të testit, ju vendosni të mos rrezikoni dhe vendosni shpërndarjen e trafikut në 90/10. Pas një kohe, shihni që ndryshimi nuk çoi në ndryshime të dukshme në konvertime dhe lëvizni rrëshqitësin në 50/50. Por vizitorët që kthehen ende i përkasin grupit të tyre origjinal, kështu që përfundoni në një situatë ku versioni i para-ndryshimit ka një përqindje më të lartë të vizitorëve që kthehen që tregojnë një normë të lartë konvertimi. Gjërat ndërlikohen shumë shpejt dhe e vetmja mënyrë e thjeshtë për të marrë të dhëna ku mund të mbështeteni është të shikoni veçmas vizitorët e rinj dhe ata që kthehen. Sidoqoftë, në këtë rast, do të duhet më shumë kohë për të marrë rezultate domethënëse. Dhe edhe nëse të dy nëngrupet tregojnë rezultate domethënëse, çka nëse njëri prej tyre gjeneron më shumë vizitorë që kthehen? Në përgjithësi, nuk keni nevojë ta bëni këtë dhe të ndryshoni shpërndarjen e trafikut gjatë testit.

B) Planifikimi

Duket e qartë, por mos i krahasoni të dhënat e mbledhura në të njëjtën kohë të ditës me të dhënat e mbledhura gjatë ditës ose në periudha të tjera të ditës. Nëse dëshironi të testoni për një kohë të caktuar të ditës, keni dy mundësi.

1. Trajtoni kërkesat e vizitorëve siç bëni gjithmonë gjatë ditës, por tregojuni atyre versionin origjinal të faqes në momente të ditës për të cilat nuk jeni të interesuar.

2. Krahasoni mollët me mollët - nëse po shikoni vetëm të dhënat e ndryshimit për gjysmën e parë të ditës, krahasoni ato me të dhënat origjinale për gjysmën e parë të ditës.

Shpresoj se disa nga sa më sipër janë të dobishme në optimizimin e shkallës tuaj të konvertimit. Nëse keni njohuritë tuaja, ju lutemi postoni ato në komente.

Rëndësia statistikore

Rezultatet e marra duke përdorur një procedurë të caktuar kërkimore quhen statistikisht të rëndësishme nëse probabiliteti i shfaqjes së tyre të rastësishme është shumë i vogël. Ky koncept mund të ilustrohet me shembullin e hedhjes së një monedhe. Supozoni se një monedhë është kthyer 30 herë; Doli 17 herë koka dhe 13 herë deri në bisht. E bën atë domethënëse A është ky një devijim nga rezultati i pritshëm (15 koka dhe 15 bishta), apo kjo është një rastësi? Për t'iu përgjigjur kësaj pyetjeje, për shembull, mund të hedhësh të njëjtën monedhë shumë herë 30 herë radhazi dhe në të njëjtën kohë të shënosh sa herë përsëritet raporti i kokave dhe bishtave, i barabartë me 17:13. Analiza statistikore na shpëton nga ky proces i lodhshëm. Me ndihmën e saj, pas 30 hedhjeve të para të monedhës, është e mundur të vlerësohet numri i mundshëm i dukurive të rastësishme prej 17 kokash dhe 13 bishtave. Një vlerësim i tillë quhet një deklaratë probabiliste.

Në literaturën shkencore mbi psikologjinë industriale-organizative, një deklaratë probabiliste në formë matematikore shënohet me shprehjen R(probabilitet)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (R< 0.01). Ky fakt është i rëndësishëm për të kuptuar literaturën, por nuk duhet kuptuar se është e kotë të bëhen vëzhgime që nuk i plotësojnë këto standarde. Të ashtuquajturat rezultate kërkimore jo të rëndësishme (vëzhgime që mund të merren rastësisht më shumë një ose pesë herë nga 100) mund të jetë shumë i dobishëm për identifikimin e tendencave dhe si një udhëzues për kërkimet e ardhshme.

Duhet të theksohet gjithashtu se jo të gjithë psikologët pajtohen me standardet dhe procedurat tradicionale (p.sh. Cohen, 1994; Sauley & Bedeian, 1989). Çështjet e matjes në vetvete janë një fokus kryesor i punës për shumë studiues që studiojnë saktësinë e metodave të matjes dhe supozimet që qëndrojnë në themel të metodave dhe standardeve ekzistuese, si dhe zhvillimin e ilaçeve dhe instrumenteve të reja. Ndoshta diku në të ardhmen, hulumtimi në këtë fuqi do të çojë në një ndryshim në standardet tradicionale për vlerësimin e rëndësisë statistikore dhe këto ndryshime do të fitojnë pranim universal. (Kapitulli i pestë i Shoqatës Amerikane të Psikologjisë bashkon psikologë të specializuar në studimin e vlerësimeve, matjeve dhe statistikave.)

Në raportet kërkimore, një deklaratë probabiliste si p.sh R< 0.05, për shkak të disa statistikat pra një numër që fitohet si rezultat i një grupi të caktuar procedurash llogaritëse matematikore. Konfirmimi probabilistik merret duke krahasuar këto statistika me të dhënat nga tabelat e veçanta që publikohen për këtë qëllim. Në kërkimet psikologjike industriale-organizative, statistikat si p.sh r, F, t, r>(lexo "chi Square") dhe R(lexo "shumë R"). Në secilin rast, statistikat (një numër) të marra nga analiza e një sërë vëzhgimesh mund të krahasohen me numrat nga tabela e publikuar. Pas kësaj, është e mundur të formulohet një deklaratë probabilistike në lidhje me probabilitetin e marrjes së rastësishme të këtij numri, domethënë të nxirret një përfundim në lidhje me rëndësinë e vëzhgimeve.

Për të kuptuar studimet e përshkruara në këtë libër, mjafton të keni një kuptim të qartë të konceptit të rëndësisë statistikore dhe jo domosdoshmërisht të dini se si llogariten statistikat e përmendura më sipër. Megjithatë, do të ishte e dobishme të diskutohej një supozim që qëndron në themel të të gjitha këtyre procedurave. Ky është supozimi se të gjitha variablat e vëzhguara shpërndahen afërsisht sipas ligjit normal. Përveç kësaj, gjatë leximit të raporteve mbi kërkimet psikologjike industriale-organizative, shpesh ka edhe tre koncepte të tjera që luajnë një rol të rëndësishëm - së pari, korrelacioni dhe korrelacioni, së dyti, ndryshorja përcaktuese / parashikuese dhe "ANOVA" (analiza e variancës), së treti. , një grup metodash statistikore me emrin e përgjithshëm "meta-analizë".

BESUESHMËRIA STATISTIKORE

- anglisht besueshmëria/vlefshmëria, statistikore; gjermanisht Validitat, statistikë. Konsistenca, objektiviteti dhe mungesa e paqartësisë në një test statistikor ose në C.L. grup matjesh. D. s. mund të testohet duke përsëritur të njëjtin test (ose pyetësor) në të njëjtën lëndë për të parë nëse janë marrë të njëjtat rezultate; ose duke krahasuar pjesë të ndryshme të testit që supozohet të matin të njëjtin objekt.

Antinazi. Enciklopedia e Sociologjisë, 2009

Shihni se çfarë është "BESUESHMËRIA STATISTIKORE" në fjalorë të tjerë:

BESUESHMËRIA STATISTIKORE- Anglisht. besueshmëria/vlefshmëria, statistikore; gjermanisht Validitat, statistikë. Konsistenca, objektiviteti dhe mungesa e paqartësisë në një test statistikor ose në një s. grup matjesh. D. s. mund të verifikohet duke përsëritur të njëjtin test (ose ... ... Fjalor shpjegues i sociologjisë

Në statistika, një vlerë quhet statistikisht e rëndësishme nëse probabiliteti i shfaqjes së tij rastësisht ose edhe vlera më ekstreme është i vogël. Këtu, ekstremi kuptohet si shkalla e devijimit të statistikave të testit nga hipoteza zero. Dallimi quhet ... ... Wikipedia

Fenomeni fizik i stabilitetit statistikor është se me një rritje në madhësinë e kampionit, frekuenca e një ngjarjeje të rastësishme ose vlera mesatare e një sasie fizike priret në një numër fiks. Fenomeni i statistikave ... ... Wikipedia

BESUESHMËRIA E NDRYSHIMIT (ngjashmëria)- procedura analitike dhe statistikore për përcaktimin e nivelit të rëndësisë së dallimeve ose ngjashmërive midis mostrave sipas treguesve (variablave) të studiuar ... Procesi modern arsimor: konceptet dhe termat bazë

RAPORTIM, STATISTIK Fjalor i madh i kontabilitetit

RAPORTIM, STATISTIK- një formë e vëzhgimit statistikor shtetëror, në të cilën autoritetet përkatëse marrin nga ndërmarrjet (organizatat dhe institucionet) informacionin që u nevojitet në formën e dokumenteve raportuese të përcaktuara me ligj (raportet statistikore) për ... Fjalori i madh ekonomik

Një shkencë që studion metodat e vëzhgimit sistematik të dukurive masive të jetës shoqërore të njeriut, përpilimin e përshkrimeve numerike të tyre dhe përpunimin shkencor të këtyre përshkrimeve. Kështu, statistikat teorike janë një shkencë ... ... Fjalor Enciklopedik F.A. Brockhaus dhe I.A. Efron

Koeficienti i korrelacionit- (Koeficienti i korrelacionit) Koeficienti i korrelacionit është një tregues statistikor i varësisë së dy variablave të rastësishëm Përkufizimi i koeficientit të korrelacionit, llojet e koeficientëve të korrelacionit, vetitë e koeficientit të korrelacionit, llogaritja dhe aplikimi ... ... Enciklopedia e investitorit

Statistikat- (Statistika) Statistika është një shkencë e përgjithshme teorike që studion ndryshimet sasiore në dukuritë dhe proceset. Statistikat shtetërore, shërbimet statistikore, Rosstat (Goskomstat), të dhënat statistikore, statistikat e kërkesave, statistikat e shitjeve, ... ... Enciklopedia e investitorit

Korrelacioni- (Korrelacioni) Korrelacioni është një marrëdhënie statistikore e dy ose më shumë variablave të rastit Koncepti i korrelacionit, llojet e korrelacionit, koeficienti i korrelacionit, analiza e korrelacionit, korrelacioni i çmimeve, korrelacioni i çifteve të monedhës në Përmbajtjen Forex ... ... Enciklopedia e investitorit

libra

Kërkimi në matematikë dhe matematikë në kërkime: Një koleksion metodologjik mbi aktivitetet kërkimore të studentëve, Borzenko V.I. Koleksioni paraqet zhvillimet metodologjike të zbatueshme në organizimin e aktiviteteve kërkimore të studentëve. Pjesa e parë e koleksionit i kushtohet aplikimit të qasjes kërkimore në…

Rëndësia statistikore e një rezultati (p-vlera) është një masë e vlerësuar e besimit në "të vërtetën" e tij (në kuptimin e "përfaqësueshmërisë së kampionit"). Më teknikisht, vlera p është një masë që ka një lidhje në rënie me besueshmërinë e rezultatit. Një vlerë p më e lartë korrespondon me një nivel më të ulët besimi në marrëdhënien midis variablave të gjetur në mostër. Domethënë, vlera p paraqet probabilitetin e gabimit të lidhur me shpërndarjen e rezultatit të vëzhguar në të gjithë popullatën. Për shembull, vlera p = 0.05 (d.m.th. 1/20) tregon se ekziston një shans 5% që lidhja midis variablave të gjetur në mostër të jetë vetëm një veçori e rastësishme e këtij kampioni. Me fjalë të tjera, nëse kjo marrëdhënie nuk ekziston në popullatë, dhe ju do të kryeni eksperimente të ngjashme shumë herë, atëherë në rreth një në njëzet përsëritje të eksperimentit, do të prisnit të njëjtën marrëdhënie ose më të fortë midis variablave.

Në shumë studime, një vlerë p prej 0.05 konsiderohet si një "kufi i pranueshëm" për nivelin e gabimit.

Nuk ka asnjë mënyrë për të shmangur arbitraritetin në vendosjen se cili nivel i rëndësisë duhet të konsiderohet vërtet "i rëndësishëm". Zgjedhja e një niveli të caktuar rëndësie mbi të cilin rezultatet refuzohen si të rreme është mjaft arbitrare. Në praktikë, vendimi përfundimtar zakonisht varet nga fakti nëse rezultati ishte parashikuar a priori (d.m.th., përpara se të kryhej eksperimenti) ose u zbulua a posteriori si rezultat i shumë analizave dhe krahasimeve të bëra me shumë të dhëna, si dhe nga traditë që ekziston në këtë fushë kërkimore. Në mënyrë tipike, në shumë fusha, rezultati i p 0.05 është një kufi i pranueshëm i rëndësisë statistikore, megjithatë, duhet të mbahet mend se ky nivel ende përfshin një probabilitet gabimi mjaft të madh (5%). Rezultatet e rëndësishme në p 0.01 konsiderohen përgjithësisht të rëndësishme statistikisht dhe rezultatet në p 0.005 ose p 0.001 si shumë domethënëse. Megjithatë, duhet kuptuar se ky klasifikim i niveleve të rëndësisë është mjaft arbitrar dhe është thjesht një marrëveshje joformale e miratuar në bazë të përvojës praktike në një fushë të caktuar studimi.

Siç është përmendur tashmë, madhësia e marrëdhënies dhe besueshmëria përfaqësojnë dy karakteristika të ndryshme të marrëdhënieve midis variablave. Megjithatë, nuk mund të thuhet se ata janë plotësisht të pavarur. Në terma të përgjithshëm, sa më e madhe të jetë madhësia e marrëdhënies (lidhja) ndërmjet variablave në një kampion me madhësi normale, aq më i besueshëm është.

Nëse supozojmë se nuk ka asnjë lidhje midis variablave përkatës në popullatë, atëherë ka shumë të ngjarë që në kampionin në studim të mos ketë asnjë lidhje midis këtyre variablave. Kështu, sa më e fortë të gjendet marrëdhënia në kampion, aq më pak ka gjasa që kjo lidhje të mos jetë në popullatën nga e cila është nxjerrë.

Madhësia e kampionit ndikon në rëndësinë e marrëdhënies. Nëse ka pak vëzhgime, atëherë ka përkatësisht pak kombinime të mundshme vlerash për këto variabla, dhe kështu probabiliteti për të gjetur aksidentalisht një kombinim vlerash që tregojnë një varësi të fortë është relativisht i lartë.

Si llogaritet niveli i rëndësisë statistikore. Supozoni se keni llogaritur tashmë një masë të marrëdhënies midis dy variablave (siç shpjegohet më lart). Pyetja tjetër para jush është: "sa e rëndësishme është kjo varësi?" Për shembull, a mjafton 40% e variancës së shpjeguar midis dy variablave që një marrëdhënie të jetë domethënëse? Përgjigje: "në varësi të rrethanave". Domethënë, rëndësia varet kryesisht nga madhësia e kampionit. Siç është shpjeguar tashmë, në mostrat shumë të mëdha, edhe marrëdhëniet shumë të dobëta midis variablave do të jenë domethënëse, ndërsa në mostrat e vogla, edhe marrëdhëniet shumë të forta nuk janë të besueshme. Kështu, për të përcaktuar nivelin e rëndësisë statistikore, ju nevojitet një funksion që përfaqëson marrëdhënien midis "madhësive" dhe "rëndësisë" së marrëdhënies midis variablave për çdo madhësi kampion. Ky funksion do t'ju tregojë saktësisht "sa ka gjasa që të merret një marrëdhënie e një vlere të caktuar (ose më shumë) në një kampion të një madhësie të caktuar, duke supozuar se nuk ka një lidhje të tillë në popullatë." Me fjalë të tjera, ky funksion do të jepte një nivel domethënieje (p-vlerë), dhe rrjedhimisht probabilitetin e refuzimit të rremë të supozimit se nuk ka një lidhje të caktuar në popullatë. Kjo hipotezë "alternative" (që nuk ka varësi në popullatë) zakonisht quhet hipoteza zero. Do të ishte ideale nëse funksioni që llogarit probabilitetin e gabimit do të ishte linear dhe do të kishte vetëm pjerrësi të ndryshme për madhësi të ndryshme të mostrës. Fatkeqësisht, ky funksion është shumë më kompleks dhe jo gjithmonë saktësisht i njëjtë. Megjithatë, në shumicën e rasteve forma e tij është e njohur dhe mund të përdoret për të përcaktuar nivelet e rëndësisë gjatë ekzaminimit të mostrave të një madhësie të caktuar. Shumica e këtyre funksioneve janë të lidhura me një klasë shumë të rëndësishme shpërndarjesh të quajtur normale.

Niveli i rëndësisë - është probabiliteti që ne i konsideruam dallimet të rëndësishme, por ato në fakt janë të rastësishme.

Kur tregojmë se dallimet janë të rëndësishme në nivelin e rëndësisë 5%, ose në R< 0,05 , atëherë nënkuptojmë që probabiliteti që ato të jenë ende jo të besueshme është 0.05.

Kur tregojmë se dallimet janë të rëndësishme në nivelin e rëndësisë 1%, ose në R< 0,01 , atëherë nënkuptojmë që probabiliteti që ato të jenë ende jo të besueshme është 0.01.

Nëse të gjitha këto i përkthejmë në një gjuhë më të formalizuar, atëherë niveli i rëndësisë është probabiliteti i refuzimit të hipotezës zero, ndërkohë që është e vërtetë.

Gabim,përbërë ngai duhuriatë që nerefuzuarasnje hipoteze,ndërsa është e vërtetë quhet gabim i tipit 1.(Shih tabelën 1)

Tab. 1. Hipotezat zero dhe alternative dhe gjendjet e mundshme testuese.

Probabiliteti i një gabimi të tillë zakonisht shënohet si α. Në fakt, do të duhej të vendosnim në kllapa jo p < 0.05 ose fq < 0.01 dhe α < 0,05 ose α < 0,01.

Nëse probabiliteti i gabimit është α , atëherë probabiliteti i një vendimi të saktë: 1-α. Sa më i vogël α, aq më i madh është probabiliteti për një zgjidhje të saktë.

Historikisht, në psikologji, është zakon të konsiderohet niveli 5% (p≤0.05) si niveli më i ulët i rëndësisë statistikore: niveli 1% është i mjaftueshëm (p≤0.01) dhe niveli më i lartë 0.1% (p≤0.001), prandaj, në tabelat e vlerave kritike, zakonisht jepen vlerat e kritereve, që korrespondojnë me nivelet e rëndësisë statistikore p≤0.05 dhe p≤0.01, ndonjëherë - p≤0.001. Për disa kritere, tabelat tregojnë nivelin e saktë të rëndësisë së vlerave të tyre të ndryshme empirike. Për shembull, për φ*=1,56 p=0,06.

Megjithatë, derisa niveli i rëndësisë statistikore të arrijë p=0.05, ne nuk kemi ende të drejtë të hedhim poshtë hipotezën zero. Ne do t'i përmbahemi rregullit të mëposhtëm të hedhjes poshtë të hipotezës së pa dallime (HO) dhe pranimit të hipotezës së rëndësisë statistikore të diferencave (H 1).

Rregulli i refuzimit Ho dhe i pranimit h1

Nëse vlera empirike e kriterit është e barabartë ose e kalon vlerën kritike që korrespondon me p≤0.05, atëherë H 0 refuzohet, por ne ende nuk mund ta pranojmë përfundimisht H 1 .

Nëse vlera empirike e kriterit është e barabartë ose e kalon vlerën kritike që korrespondon me p≤0.01, atëherë H 0 refuzohet dhe H 1 pranohet.

Përjashtimet : Testi i shenjës G, testi Wilcoxon T dhe testi Mann-Whitney U. Ato janë të lidhura në mënyrë të kundërt.

Oriz. 4. Një shembull i "boshtit të rëndësisë" për testin Rosenbaum Q.

Vlerat kritike të kriterit përcaktohen si Q o.o5 dhe Q 0.01, vlera empirike e kriterit si Q emp. Ajo është e mbyllur në një elips.

Në të djathtë të vlerës kritike Q 0.01 shtrihet "zona e rëndësisë" - vlerat empirike bien këtu që tejkalojnë Q 0.01 dhe, për rrjedhojë, janë sigurisht domethënëse.

Në të majtë të vlerës kritike të Q 0.05, shtrihet "zona e parëndësisë" - vlerat empirike të Q bien këtu, të cilat janë nën Q 0.05, dhe, për rrjedhojë, janë pa kushte të parëndësishme.

Ne e shohim atë P 0,05 =6; P 0,01 =9; P emp. =8;

Vlera empirike e kriterit bie brenda intervalit midis Q 0.05 dhe Q 0.01. Kjo është një zonë "pasigurie": ne tashmë mund të hedhim poshtë hipotezën për mosbesueshmërinë e dallimeve (H 0), por ende nuk mund të pranojmë hipotezat për besueshmërinë e tyre (H 1).

Megjithatë, në praktikë, studiuesi mund të konsiderojë tashmë të rëndësishme ato diferenca që nuk bien në zonën e parëndësisë, duke deklaruar se ato janë të rëndësishme në p. < 0.05, ose duke treguar nivelin e saktë të rëndësisë së vlerës së fituar empirike të kriterit, për shembull: p=0.02. Me ndihmën e tabelave standarde që gjenden në të gjitha tekstet e metodave matematikore, kjo mund të bëhet në lidhje me kriteret Kruskal-Wallis H, χ 2. r Friedman, L Page, φ* Fisher .

Niveli i rëndësisë statistikore ose vlerat kritike të kritereve përcaktohen ndryshe gjatë testimit të hipotezave statistikore të drejtuara dhe të padrejtuara.

Me një hipotezë statistikore të drejtuar, përdoret një test me një bisht, me një hipotezë të padrejtuar, një test me dy bisht. Testi me dy bisht është më i rreptë sepse teston për dallime në të dy drejtimet, dhe për këtë arsye vlerën empirike të testit që më parë korrespondonte me nivelin e rëndësisë p. < 0.05, tani korrespondon vetëm me nivelin p < 0,10.

Ne nuk duhet të vendosim vetë çdo herë nëse ai përdor një test me një apo me dy bisht. Tabelat e vlerave kritike të kritereve zgjidhen në atë mënyrë që hipotezat e drejtimit të korrespondojnë me një kriter të njëanshëm, dhe hipotezat jo-drejtuese korrespondojnë me një kriter të dyanshëm, dhe vlerat e dhëna plotësojnë kërkesat që vlejnë për secilën prej tyre. Studiuesi duhet vetëm të sigurojë që hipotezat e tij të përkojnë në kuptim dhe formë me hipotezat e propozuara në përshkrimin e secilit prej kritereve.

Artikulli i mëparshëm: Sa është shpejtësia e dritës Artikulli vijues: Karakteristikat e elementit të karbonit dhe vetitë kimike

Rëndësia statistikore e dallimeve. Termat dhe konceptet bazë të statistikave mjekësore