Otthon » 1 Leírás » Négyzetes eltérés. Geometriai egyszerű

Négyzetes eltérés. Geometriai egyszerű

Hipotézisek statisztikai tesztelésében, a valószínűségi változók közötti lineáris kapcsolat mérésénél.

Szórás:

Szórás(a Padló, a körülöttünk lévő falak és a mennyezet valószínűségi változó szórásának becslése, x a variancia elfogulatlan becslésén alapuló matematikai várakozásához képest):

hol van a diszperzió; - A padló, a körülöttünk lévő falak és a mennyezet, én a kiválasztás th eleme; - mintanagyság; - a minta számtani átlaga:

Meg kell jegyezni, hogy mindkét becslés elfogult. Általános esetben lehetetlen torzítatlan becslést készíteni. Az elfogulatlan varianciabecslésen alapuló becslés azonban konzisztens.

Három szigma szabály

Három szigma szabály() - egy normális eloszlású valószínűségi változó szinte minden értéke az intervallumban található. Szigorúbban - legalább 99,7% -os megbízhatósággal egy normális eloszlású valószínűségi változó értéke a megadott intervallumban található (feltéve, hogy az érték igaz, és nem a mintafeldolgozás eredményeként kapjuk meg).

Ha a valódi érték ismeretlen, akkor ne használjuk, hanem a Padlót, a körülöttünk lévő falakat és a mennyezetet, s. Így a három szigma szabálya átalakul három Padló, körülöttünk falak és a mennyezet szabályává, s .

A szórásérték értelmezése

A nagy szórásérték az értékek nagy eloszlását mutatja a bemutatott halmazban a halmaz átlagos értékével; ennek megfelelően egy kis érték azt mutatja, hogy a készletben lévő értékek az átlagérték köré csoportosulnak.

Például három számkészletünk van: (0, 0, 14, 14), (0, 6, 8, 14) és (6, 6, 8, 8). Mindhárom halmaz átlagértéke 7, a szórása pedig 7, 5 és 1. Az utolsó halmaznak kicsi a szórása, mivel a halmazban lévő értékek az átlagérték köré csoportosulnak; az első készlet rendelkezik a legnagyobb szórással - a készleten belüli értékek nagymértékben eltérnek az átlagos értéktől.

Általános értelemben a szórást a bizonytalanság mértékének tekinthetjük. Például a fizikában a szórással határozzák meg valamilyen mennyiség egymást követő méréseinek sorozatának hibáját. Ez az érték nagyon fontos a vizsgált jelenség valószínûségének meghatározásához az elmélet által megjósolt értékhez képest: ha a mérések átlagértéke nagymértékben eltér az elmélet által megjósolt értékektõl (nagy szórás), akkor a kapott értékeket vagy azok megszerzésének módját újra ellenőrizni kell.

Gyakorlati alkalmazás

A gyakorlatban a szórás lehetővé teszi annak meghatározását, hogy a készletben lévő értékek mennyiben térhetnek el az átlagos értéktől.

Éghajlat

Tegyük fel, hogy két város azonos átlagos napi maximumhőmérsékletű, de az egyik a tengerparton, a másik a szárazföldön található. Ismeretes, hogy a tengerparton található városokban sok különböző maximális nappali hőmérséklet van, amelyek alacsonyabbak, mint a szárazföldön található városok. Ezért a maximális napi hőmérséklet szórása egy tengerparti város esetében kisebb lesz, mint a második városé, annak ellenére, hogy ennek az értéknek az átlagértéke megegyezik, ami a gyakorlatban azt jelenti, hogy annak valószínűsége, hogy a maximális levegő hőmérséklet az év bármely adott napja magasabb lesz az átlagos értéktől, magasabb egy belterületen található város esetében.

Sport

Tételezzük fel, hogy több olyan futballcsapat is van, amelyet bizonyos paraméterek alapján minősítenek, például a szerzett és kapott gólok száma, a gólhelyzetek stb. nagyobb számú paraméteren. Minél kisebb a csapat szórása az egyes bemutatott paramétereknél, annál kiszámíthatóbb a csapat eredménye; Másrészt egy nagy szórással rendelkező csapatnak nehéz megjósolni az eredményt, ami viszont az egyensúlytalansággal magyarázható, például erős védekezés, de gyenge támadás.

A csapatparaméterek szórása lehetővé teszi, hogy bizonyos fokig előre jelezzük két csapat mérkőzésének eredményét, felmérve a csapatok erősségeit és gyengeségeit, így a választott harci módszereket.

Technikai elemzés

Lásd még

Irodalom

* Borovikov, V. STATISZTIKA. Az adatelemzés művészete számítógépen: Szakembereknek / V. Borovikov. - Szentpétervár. : Péter, 2003. - 688 p. - ISBN 5-272-00078-1.

X i - véletlen (aktuális) változók;

a minta valószínűségi változóinak átlagos értékét a következő képlet segítségével számítjuk ki:

Így, variancia az eltérések átlagos négyzete . Vagyis először az átlagértéket számítják ki, majd veszik az egyes eredeti és átlagos értékek közötti különbség négyzetre kerül , összeadódik, majd elosztja a sokaságban lévő értékek számával.

Az egyéni érték és az átlag közötti különbség az eltérés mértékét tükrözi. Négyzetes, hogy minden eltérés kizárólag pozitív szám legyen, és elkerüljük a pozitív és negatív eltérések kölcsönös megsemmisítését az összegzéskor. Ezután a négyzetes eltérések ismeretében egyszerűen kiszámítjuk a számtani átlagot.

A „diszperzió” varázsszóra a válasz csak ebben a három szóban rejlik: átlagos - négyzet - eltérések.

Szórás (MSD)

A variancia négyzetgyökét véve megkapjuk az ún. szórás". Vannak nevek "szórás" vagy "szigma" (a görög betű nevéből σ .). A szórás képlete a következő:

Így, a diszperzió szigma négyzet, vagy a szórás négyzete.

A szórás természetesen az adatok szórásának mértékét is jellemzi, de most már (a szórással ellentétben) összevethető az eredeti adatokkal, mivel azonos mértékegységekkel rendelkeznek (ez a számítási képletből kiderül). A változás tartománya a szélső értékek közötti különbség. A szórást, mint a bizonytalanság mértékét, számos statisztikai számításban is szerepet kapnak. Segítségével meghatározható a különböző becslések és előrejelzések pontosságának mértéke. Ha a szórás nagyon nagy, akkor a szórás is nagy lesz, ezért az előrejelzés pontatlan lesz, ami például nagyon széles konfidencia intervallumokban fog kifejeződni.

Ezért az ingatlanértékelések statisztikai adatfeldolgozási módszereiben a feladat megkívánt pontosságától függően a két vagy három szigma szabályt alkalmazzák.

A két szigma és a három szigma szabály összehasonlításához Laplace képletét használjuk:

F - F ,

ahol Ф(x) a Laplace-függvény;



Minimális érték

β = maximális érték

s = szigma érték (szórás)

a = átlagos

Ebben az esetben a Laplace-képlet egy bizonyos formáját használjuk, amikor az X valószínűségi változó értékeinek α és β határai egyenlő távolságra vannak az a = M(X) eloszlás középpontjától egy bizonyos d értékkel: a = a-d, b = a+d. Vagy (1) Az (1) képlet meghatározza egy X valószínűségi változó adott d eltérésének valószínűségét egy normális eloszlási törvény mellett az M(X) = a matematikai elvárásától.

Ha az (1) képletben egymás után felvesszük d = 2s és d = 3s, akkor megkapjuk: (2), (3).

Két szigma szabály

Illusztráljuk geometriailag a két szigma szabályt. ábrán. A 6. ábra egy Gauss-görbét mutat az a eloszlási központtal. A teljes görbe és az Ox tengely által határolt terület egyenlő 1-gyel (100%), és az a-2s és a+2s abszciszták közötti görbe trapéz területe a két szigma szabály szerint egyenlő 0,954-re (a teljes terület 95,4%-a). Az árnyékolt területek területe 1-0,954 = 0,046 (»a teljes terület 5%-a). Ezeket a területeket a valószínűségi változó kritikus tartományának nevezzük. Egy valószínűségi változó kritikus tartományba eső értékei nem valószínűek, és a gyakorlatban hagyományosan lehetetlennek tartják.

A feltételesen lehetetlen értékek valószínűségét egy valószínűségi változó szignifikanciaszintjének nevezzük. A szignifikancia szintje a megbízhatósági valószínűséghez kapcsolódik a következő képlettel:

ahol q a szignifikancia szint százalékban kifejezve.

Három szigma szabály

Nagyobb megbízhatóságot igénylő kérdések megoldásánál, ha a konfidenciavalószínűséget (Pd) 0,997-re (pontosabban 0,9973-ra) vesszük, a (3) képlet szerinti kétszigma szabály helyett a szabályt alkalmazzuk. három szigma



Szerint három szigma szabály 0,9973 megbízhatósági valószínűséggel a kritikus terület az attribútumértékek intervallumon kívüli területe lesz (a-3s, a+3s). A szignifikancia szintje 0,27%.

Más szóval annak a valószínűsége, hogy az eltérés abszolút értéke meghaladja a szórás háromszorosát, nagyon kicsi, mégpedig 0,0027 = 1-0,9973. Ez azt jelenti, hogy ez csak az esetek 0,27%-ában történik meg. Az ilyen események a valószínűtlen események lehetetlenségének elve alapján gyakorlatilag lehetetlennek tekinthetők. Azok. a mintavétel nagyon pontos.

Ez a három szigma szabály lényege:

Ha egy valószínűségi változó normális eloszlású, akkor a matematikai elvárástól való eltérésének abszolút értéke nem haladja meg a szórás (MSD) háromszorosát.

A gyakorlatban a három szigma szabályt a következőképpen alkalmazzák: ha a vizsgált valószínűségi változó eloszlása ​​ismeretlen, de a fenti szabályban meghatározott feltétel teljesül, akkor okkal feltételezhető, hogy a vizsgált változó normális eloszlású. ; egyébként nem oszlik el normálisan.

A szignifikancia szintet a kockázat megengedett mértékétől és az adott feladattól függően veszik fel. Az ingatlanértékeléshez általában kevésbé pontos mintát alkalmaznak, a két szigma szabályt követve.

Számítások nélkül elképzelhetetlen bármilyen statisztikai elemzés elvégzése. Ebben a cikkben megvizsgáljuk, hogyan lehet kiszámítani a szórást, a szórást, a variációs együtthatót és más statisztikai mutatókat az Excelben.

Maximális és minimális érték

Átlagos lineáris eltérés

Az átlagos lineáris eltérés az elemzett adatsortól való abszolút (modulo) eltérések átlaga. A matematikai képlet a következő:

a- átlagos lineáris eltérés,

X– elemzett mutató,

– a mutató átlagos értéke,

n

Az Excelben ezt a függvényt hívják SROTCL.

Az SROTCL függvény kiválasztása után megadjuk azt az adattartományt, amelyen belül a számításnak meg kell történnie. Kattintson az "OK" gombra.

Diszperzió

(111. modul)

Talán nem mindenki tudja, hogy mit, ezért elmagyarázom, ez egy olyan mérőszám, amely a matematikai elvárás körüli adatok terjedését jellemzi. Általában azonban csak egy minta áll rendelkezésre, ezért a következő varianciaképletet használjuk:

s 2– megfigyelési adatokból számított minta szórása,

X- egyéni értékek,

– a minta számtani átlaga,

n– az elemzett adatkészletben található értékek száma.

A megfelelő Excel függvény az DISP.G. Viszonylag kis minták (legfeljebb 30 megfigyelés) elemzéséhez használja a -t, amelyet a következő képlettel számítanak ki.

A különbség, mint látható, csak a nevezőben van. Az Excel rendelkezik egy funkcióval a minta elfogulatlan variancia kiszámítására DISP.B.

Válassza ki a kívánt opciót (általános vagy szelektív), jelölje meg a tartományt, és kattintson az „OK” gombra. A kapott érték az eltérések előzetes négyzetesítése miatt nagyon nagy lehet. A statisztikákban való diszperzió nagyon fontos mutató, de általában nem tiszta formájában, hanem további számításokhoz használják.

Szórás

A szórás (RMS) az eltérés gyökere. Ezt a mutatót szórásnak is nevezik, és a következő képlettel számítják ki:

általános lakosság szerint

minta alapján

Egyszerűen kiveheti az eltérés gyökerét, de az Excel kész függvényekkel rendelkezik a szóráshoz: STDEV.GÉs STDEV.V(az általános és a mintapopulációhoz).

A szórás és a szórás, ismétlem, szinonimák.

Ezután a szokásos módon jelölje ki a kívánt tartományt, és kattintson az „OK” gombra. A szórás ugyanazokkal a mértékegységekkel rendelkezik, mint a vizsgált mutató, ezért összehasonlítható az eredeti adatokkal. Erről bővebben alább.

Variációs együttható

Az összes fent tárgyalt mutató a forrásadatok skálájához kötődik, és nem teszi lehetővé, hogy figuratív képet kapjunk az elemzett populáció változásairól. Az adatok szórásának relatív mértékének meghatározásához használja a variációs együttható, amelyet osztással számítunk ki szórás-on számtani átlag. A variációs együttható képlete egyszerű:

Az Excelben nincs kész függvény a variációs együttható kiszámítására, ami nem nagy probléma. A számítás elvégezhető úgy, hogy a szórást egyszerűen elosztjuk az átlaggal. Ehhez írja be a képletsorba:

SZABVÁNYSZÓLÁS.G()/ÁTLAG()

Az adattartomány zárójelben van feltüntetve. Ha szükséges, használja a minta szórását (STDEV.B).

A variációs együtthatót általában százalékban fejezik ki, így egy cellát százalékos formátumban is bekeretezhet egy képlettel. A szükséges gomb a „Kezdőlap” fülön található szalagon található:

A formátumot úgy is módosíthatja, hogy a helyi menüből kiválasztja a kívánt cellát, majd kattintson a jobb gombbal.

A variációs együttható – az értékek szórásának más mutatóitól eltérően – az adatok variációjának független és nagyon informatív mutatójaként szolgál. A statisztikában általánosan elfogadott, hogy ha a variációs együttható kisebb, mint 33%, akkor az adatsor homogén, ha több, mint 33%, akkor heterogén. Ez az információ hasznos lehet az adatok előzetes jellemzéséhez és a további elemzési lehetőségek azonosításához. Ezenkívül a százalékban mért variációs együttható lehetővé teszi a különböző adatok szóródási fokának összehasonlítását, függetlenül azok léptékétől és mértékegységétől. Hasznos ingatlan.

Oszcillációs együttható

Az adatok szórásának másik mutatója ma az oszcillációs együttható. Ez a változási tartomány (a maximum és minimum érték különbsége) és az átlag aránya. Nincs kész Excel képlet, így három függvényt kell kombinálnia: MAX, MIN, ÁTLAG.

Az oszcillációs együttható az átlaghoz viszonyított szórás mértékét mutatja, amivel különböző adatsorokat is össze lehet hasonlítani.

Általában az Excel használatával sok statisztikai mutatót nagyon egyszerűen számítanak ki. Ha valami nem világos, mindig használhatja a függvénybeszúrás keresőmezőjét. Nos, a Google itt van, hogy segítsen.

A variáció legtökéletesebb jellemzője az átlagos négyzet eltérés, amelyet standardnak (vagy szórásnak) nevezünk. Szórás() egyenlő az attribútum egyedi értékeinek a számtani átlagtól való átlagos négyzetes eltérésének négyzetgyökével:

A szórás egyszerű:

A csoportosított adatokra súlyozott szórást alkalmazunk:

A négyzetgyökérték és az átlagos lineáris eltérések között normál eloszlási feltételek mellett a következő arány lép fel: ~ 1,25.

A szórást, mint a szórás fő abszolút mérőszámát a normál eloszlási görbe ordinátaértékeinek meghatározásában, a minta megfigyelésének megszervezésével és a minta jellemzőinek pontosságának megállapításával kapcsolatos számításokban, valamint a minta jellemzőinek értékelésében használják. egy jellemző variációs határai egy homogén populációban.

Diszperzió, típusai, szórása.

Valószínűségi változó varianciája— egy adott valószínűségi változó terjedésének mértéke, vagyis a matematikai elvárástól való eltérése. A statisztikákban gyakran használják a vagy jelölést. A variancia négyzetgyökét szórásnak, szórásnak vagy szórásnak nevezzük.

Teljes variancia (σ 2) egy tulajdonság változását a maga teljességében méri minden olyan tényező hatására, amely ezt a változást okozta. Ugyanakkor a csoportosítási módszernek köszönhetően azonosítható és mérhető a csoportosítási jellemzőből adódó, illetve az el nem számolt tényezők hatására fellépő eltérés.

Csoportközi variancia (σ 2 m.gr) jellemzi a szisztematikus variációt, vagyis a vizsgált jellemző értékének különbségeit, amelyek a jellemző - a csoport alapját képező tényező - hatása alatt keletkeznek.

Szórás(szinonimák: szórás, szórás, négyzet eltérés; kapcsolódó kifejezések: szórás, szórás) - a valószínűségelméletben és a statisztikában a leggyakoribb mutató a valószínűségi változó értékeinek szórására a matematikai elvárásokhoz képest. A mintaértékek korlátozott tömbjénél a matematikai elvárás helyett a minták halmazának számtani átlagát használják.

A szórást magának a valószínűségi változónak egységeiben mérjük, és a számtani átlag standard hibájának számításakor, konfidenciaintervallumok felépítésénél, hipotézisek statisztikai tesztelésekor, a valószínűségi változók közötti lineáris kapcsolat mérésénél használjuk. Egy valószínűségi változó varianciájának négyzetgyöke.


Szórás:

Szórás(egy valószínűségi változó szórásának becslése x a variancia elfogulatlan becslésén alapuló matematikai várakozásához képest):

hol van a diszperzió; — én a kiválasztás th eleme; — mintanagyság; — a minta számtani átlaga:

Meg kell jegyezni, hogy mindkét becslés elfogult. Általános esetben lehetetlen torzítatlan becslést készíteni. Az elfogulatlan varianciabecslésen alapuló becslés azonban konzisztens.

A mód és a medián lényege, terjedelme és eljárása.

A statisztikában a teljesítményátlagok mellett egy változó jellemző értékének és az eloszlási sorozatok belső szerkezetének relatív jellemzésére strukturális átlagokat használnak, amelyeket elsősorban a divat és medián.

Divat- Ez a sorozat leggyakoribb változata. A divatot például a vásárlók körében leginkább keresett ruhák és cipők méretének meghatározására használják. A diszkrét sorozatok üzemmódja a legmagasabb frekvenciájú. Az intervallumváltozat-sorozat módozatának kiszámításakor először meg kell határoznia a modális intervallumot (a maximális gyakoriság alapján), majd az attribútum modális értékének értékét a következő képlet segítségével:

- - divatérték

- — a modális intervallum alsó határa

- — intervallumérték

- — modális intervallum gyakorisága

- — a modált megelőző intervallum gyakorisága

- — a modált követő intervallum gyakorisága

Medián - ez az attribútum értéke, amely a rangsorolt ​​sorozat alapját képezi, és ezt a sorozatot két egyenlő részre osztja.

A medián meghatározásához egy diszkrét sorozatban frekvenciák jelenlétében először számítsuk ki a gyakoriságok fele összegét, majd határozzuk meg, hogy a változat melyik értéke esik rá. (Ha a rendezett sorozat páratlan számú jellemzőt tartalmaz, akkor a mediánszám kiszámítása a következő képlettel történik:

M e = (n (a jellemzők száma összesen) + 1)/2,

páros számú jellemző esetén a medián egyenlő lesz a sor közepén lévő két jellemző átlagával).

Számításkor mediánok intervallum-változat-sorozat esetén először határozza meg azt a medián intervallumot, amelyen belül a medián található, majd határozza meg a medián értékét a képlet segítségével:

- — a szükséges medián

- - a mediánt tartalmazó intervallum alsó határa

- — intervallumérték

- — a gyakoriságok összege vagy a sorozattagok száma

A mediánt megelőző intervallumok halmozott gyakoriságának összege

- — a medián intervallum gyakorisága

Példa. Keresse meg a módot és a mediánt.

Megoldás:
Ebben a példában a modális intervallum a 25-30 éves korcsoportba tartozik, mivel ez az intervallum a legmagasabb gyakorisággal (1054).

Számítsuk ki a módus nagyságát:

Ez azt jelenti, hogy a hallgatók modális életkora 27 év.

Számítsuk ki a mediánt. A medián intervallum a 25-30 éves korosztályba esik, hiszen ezen belül van egy lehetőség, amely két egyenlő részre osztja a népességet (Σf i /2 = 3462/2 = 1731). Ezután behelyettesítjük a szükséges numerikus adatokat a képletbe, és megkapjuk a medián értékét:

Ez azt jelenti, hogy a tanulók fele 27,4 év alatti, másik fele 27,4 év feletti.

A módus és medián mellett olyan mutatók is használhatók, mint a kvartilis, amelyek a rangsorolt ​​sorozatot 4 egyenlő részre osztják, decilis- 10 rész és százalékos - 100 részenként.

A szelektív megfigyelés fogalma és terjedelme.

Szelektív megfigyelés folyamatos megfigyelés alkalmazása esetén érvényes fizikailag lehetetlen nagy mennyiségű adat miatt ill gazdaságilag nem megvalósítható. Fizikai lehetetlenség fordul elő például az utasforgalom, a piaci árak és a családi költségvetések tanulmányozásakor. Gazdasági céltalanság fordul elő a megsemmisítésükhöz kapcsolódó áruk minőségének felmérésekor, például kóstolás, tégla szilárdsági vizsgálata stb.

A megfigyelésre kiválasztott statisztikai egységek alkotják a mintavételi keretet vagy mintát, teljes tömbjük pedig az általános sokaságot (GS). Ebben az esetben a mintában lévő egységek számát jelöli nés a teljes HS-ben - N. Hozzáállás n/N a minta relatív méretének vagy arányának nevezzük.

A mintamegfigyelés eredményeinek minősége a minta reprezentativitásának függvénye, vagyis attól, hogy mennyire reprezentatív a HS-ben. A minta reprezentativitásának biztosítása érdekében meg kell felelni az egységek véletlenszerű kiválasztásának elve, amely azt feltételezi, hogy egy HS-egység mintavételét a véletlenen kívül más tényező nem befolyásolhatja.

Létezik A véletlenszerű kiválasztás 4 módja mintát venni:

  1. Valójában véletlenszerűen a kiválasztás vagy a „lottó módszer”, amikor a statisztikai mennyiségekhez sorszámokat rendelnek, bizonyos tárgyakon (például hordókon) rögzítik, amelyeket aztán valamilyen tartályban (például zacskóban) összekevernek és véletlenszerűen kiválasztanak. A gyakorlatban ezt a módszert véletlenszám-generátorral vagy véletlenszámokat tartalmazó matematikai táblázatokkal hajtják végre.
  2. Mechanikai kiválasztás, amely szerint minden ( N/n)-edik értéke a teljes sokaságnak. Például, ha 100 000 értéket tartalmaz, és 1000-et kell kiválasztania, akkor minden 100 000 / 1000 = 100. érték szerepelni fog a mintában. Sőt, ha nem rangsorolják őket, akkor az első százból véletlenszerűen választják ki az elsőt, a többiek száma pedig százzal magasabb lesz. Például, ha az első egység a 19-es volt, akkor a következő a 119-es, majd a 219-es, majd a 319-es stb. Ha a népességegységeket rangsorolják, akkor először az 50., majd a 150., majd a 250. szám kerül kiválasztásra, és így tovább.
  3. Az értékek kiválasztása heterogén adattömbből történik rétegelt(rétegzett) módszer, amikor a populációt először homogén csoportokra osztják, amelyekre véletlenszerű vagy mechanikus szelekciót alkalmaznak.
  4. Különleges mintavételi módszer az sorozatszám szelekció, amelyben véletlenszerűen vagy mechanikusan nem egyedi értékeket választanak ki, hanem azok sorozatait (egyik számtól valamilyen számig sorokat), amelyeken belül folyamatos megfigyelést végeznek.

A mintamegfigyelések minősége attól is függ mintatípus: megismételt vagy megismételhetetlen.

at újraválasztás A mintában szereplő statisztikai értékek vagy azok sorozatai felhasználás után visszakerülnek a teljes sokaságba, esélyt kapva új mintába kerülni. Sőt, a sokaságban szereplő összes érték azonos valószínűséggel kerül be a mintába.

Ismétlődő kiválasztás azt jelenti, hogy a mintában szereplő statisztikai értékek vagy azok sorozatai nem térnek vissza a használat után az általános sokaságba, így az utóbbiak fennmaradó értékeire nő a következő mintába kerülés valószínűsége.

A nem ismétlődő mintavétel pontosabb eredményt ad, ezért gyakrabban használják. De vannak olyan helyzetek, amikor nem alkalmazható (utasforgalom, fogyasztói kereslet stb. vizsgálata), majd ismételt szelekcióra kerül sor.

Maximális megfigyelési mintavételi hiba, átlagos mintavételi hiba, számításuk eljárása.

Tekintsük részletesen a fent felsorolt ​​mintapopuláció kialakításának módszereit és az ennek során felmerülő hibákat. reprezentativitás .
Megfelelően véletlenszerűen A mintavétel a sokaságból véletlenszerűen, szisztematikus elemek nélkül történő egységek kiválasztásán alapul. Technikailag a tényleges véletlenszerű kiválasztás sorshúzással (például sorsoláson) vagy véletlenszám-táblázat használatával történik.

A megfelelő véletlenszerű szelekciót „tiszta formájában” ritkán alkalmazzák a szelektív megfigyelés gyakorlatában, de ez az eredeti a szelekció egyéb típusai között, megvalósítja a szelektív megfigyelés alapelveit. Nézzük meg a mintavételi módszer elméletének néhány kérdését és egy egyszerű véletlenszerű minta hibaképletét.

Mintavételi torzítás a paraméter általános sokaságban mért értéke és a mintamegfigyelés eredményeiből számított értéke közötti különbség. Egy átlagos mennyiségi jellemzőnél a mintavételi hibát a

A mutatót határmintavételi hibának nevezzük.
A minta átlaga egy valószínűségi változó, amely különböző értékeket vehet fel attól függően, hogy mely egységek szerepelnek a mintában. Ezért a mintavételi hibák is valószínűségi változók, és különböző értékeket vehetnek fel. Ezért meghatározzuk a lehetséges hibák átlagát - átlagos mintavételi hiba, ami a következőktől függ:

Mintanagyság: minél nagyobb a szám, annál kisebb az átlagos hiba;

A vizsgált jellemző változásának mértéke: minél kisebb a jellemző változása, és ennek következtében a szórása, annál kisebb az átlagos mintavételi hiba.

at véletlenszerű újraválasztás az átlagos hiba kiszámítása:
.
A gyakorlatban az általános szórást nem pontosan ismerjük, de benn valószínűségelmélet ez bebizonyosodott
.
Mivel a kellően nagy n értéke közel 1, feltételezhetjük, hogy . Ekkor kiszámítható az átlagos mintavételi hiba:
.
De kis minta esetén (n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

at véletlenszerű, nem ismétlődő mintavétel a megadott képleteket az érték korrigálja. Ekkor az átlagos nem ismétlődő mintavételi hiba:
És .
Mert mindig kisebb, akkor a () szorzó mindig kisebb, mint 1. Ez azt jelenti, hogy az átlagos hiba a nem ismétlődő kiválasztásnál mindig kisebb, mint az ismételt kiválasztásnál.
Mechanikus mintavétel akkor használatos, ha az általános lakosság valamilyen módon el van rendezve (például betűrendes szavazói listák, telefonszámok, házszámok, lakásszámok). Az egységek kiválasztása bizonyos időközönként történik, amely megegyezik a mintavételi százalék inverzével. Tehát 2%-os mintánál minden 50 egység = 1/0,02, 5%-os minta esetén minden 1/0,05 = 20 egység kerül kiválasztásra az általános sokaságból.

A referenciapont kiválasztása többféleképpen történik: véletlenszerűen, az intervallum közepétől, a referenciapont változásával. A lényeg az, hogy elkerüljük a szisztematikus hibákat. Például 5%-os mintánál, ha az első egység a 13., akkor a következőek a 33, 53, 73 stb.

A pontosság szempontjából a mechanikai kiválasztás közel áll a tényleges véletlenszerű mintavételhez. Ezért a mechanikai mintavétel átlagos hibájának meghatározásához megfelelő véletlen kiválasztási képleteket használnak.

at tipikus kiválasztás a vizsgált populáció előzetesen homogén, hasonló csoportokra oszlik. Például a vállalkozások felmérésekor ezek lehetnek iparágak, alágazatok a lakosság vizsgálatakor, ezek lehetnek régiók, társadalmi vagy korcsoportok; Ezután minden csoportból mechanikusan vagy tisztán véletlenszerűen választanak ki egy függetlent.

A tipikus mintavétel pontosabb eredményeket ad, mint más módszerek. Az általános sokaság tipizálása biztosítja, hogy minden tipológiai csoport képviselve legyen a mintában, ami lehetővé teszi a csoportközi variancia átlagos mintavételi hibára gyakorolt ​​hatásának kiküszöbölését. Következésképpen, amikor egy tipikus minta hibáját a varianciaösszeadás szabálya szerint () találjuk meg, akkor csak a csoportvarianciák átlagát kell figyelembe venni. Ekkor az átlagos mintavételi hiba:
újraválasztáskor
,
nem ismétlődő kiválasztással
,
Ahol - a minta csoporton belüli eltéréseinek átlaga.

Sorozat (vagy fészek) kiválasztása akkor használatos, ha a sokaságot sorozatokra vagy csoportokra osztják a mintavételes felmérés megkezdése előtt. Ezek a sorozatok lehetnek késztermékek csomagolása, diákcsoportok, csapatok. A vizsgálati sorozatokat mechanikusan vagy tisztán véletlenszerűen választják ki, és a sorozaton belül az egységek folyamatos vizsgálatát végzik. Ezért az átlagos mintavételi hiba csak a csoportok közötti (sorok közötti) variancia függvénye, amelyet a következő képlettel számítanak ki:

ahol r a kiválasztott sorozatok száma;
- az i-edik sorozat átlaga.

Az átlagos soros mintavételi hiba kiszámítása:

újraválasztáskor:
,
nem ismétlődő kiválasztással:
,
ahol R az epizódok teljes száma.

Kombinált kiválasztás a figyelembe vett kiválasztási módszerek kombinációja.

Bármely mintavételi módszer átlagos mintavételi hibája főként a minta abszolút méretétől, és kisebb mértékben a minta százalékától függ. Tegyük fel, hogy az első esetben 225 megfigyelést végeznek 4500 egységből, a másodikban pedig 225000 egységből. Az eltérések mindkét esetben 25-tel egyenlőek. Ekkor az első esetben, 5%-os kiválasztással, a mintavételi hiba a következő lesz:

A második esetben 0,1%-os kiválasztással egyenlő lesz:


Így, a mintavételi százalék 50-szeres csökkenésével a mintavételi hiba kismértékben nőtt, mivel a minta mérete nem változott.
Tegyük fel, hogy a minta mérete 625 megfigyelésre nő. Ebben az esetben a mintavételi hiba a következő:

A minta 2,8-szoros növelése azonos populációméret mellett több mint 1,6-szorosára csökkenti a mintavételi hiba méretét.

A mintapopuláció kialakításának módszerei és módszerei.

A statisztikában különféle módszereket alkalmaznak a mintapopulációk kialakítására, amelyet a vizsgálat céljai határoznak meg, és a vizsgálat tárgyának sajátosságaitól függenek.

A mintavételes felmérés lebonyolításának fő feltétele, hogy az esélyegyenlőség elvének megsértéséből fakadó szisztematikus hibák ne forduljanak elő a mintába kerülő alapsokaság minden egyes egységére vonatkozóan. A szisztematikus hibák megelőzése tudományosan megalapozott mintapopuláció képzési módszerekkel valósul meg.

A következő módszerek állnak rendelkezésre az egységek kiválasztására a sokaságból:

1) egyéni kiválasztás - egyedi egységek kerülnek kiválasztásra a mintához;

2) csoportkiválasztás – a minta minőségileg homogén csoportokat vagy vizsgált egységsorozatokat tartalmaz;

3) a kombinált szelekció egyéni és csoportos szelekció kombinációja.
A kiválasztási módszereket a mintapopuláció kialakításának szabályai határozzák meg.

A minta lehet:

  • valójában véletlenszerű abban áll, hogy a mintapopuláció az általános sokaságból egyedi egységek véletlenszerű (nem szándékos) kiválasztásának eredményeként jön létre. Ebben az esetben a minta sokaságában kiválasztott egységek számát általában az elfogadott mintaarány alapján határozzák meg. A mintaarány az n minta sokaságban lévő egységszám és az N általános sokaság egységeinek aránya, azaz.
  • mechanikai abban áll, hogy a minta sokaságában az egységek kiválasztása az általános sokaságból történik, egyenlő intervallumokra (csoportokra) felosztva. Ebben az esetben az intervallum nagysága a sokaságban megegyezik a minta arányának fordítottjával. Tehát 2%-os mintánál minden 50. egység kerül kiválasztásra (1:0,02), 5%-os mintánál minden 20. egység (1:0,05) stb. Így az általános populáció a szelekció elfogadott arányának megfelelően mechanikusan egyenlő nagyságú csoportokra oszlik. Minden csoportból csak egy egység kerül kiválasztásra a mintába.
  • tipikus - amelyben az általános populációt először homogén tipikus csoportokra osztják. Ezután minden tipikus csoportból egy tisztán véletlenszerű vagy mechanikus mintát használnak az egységek egyenkénti kiválasztására a mintapopulációba. A tipikus minta fontos jellemzője, hogy pontosabb eredményt ad a mintapopuláció más egységeinek kiválasztásának módszereihez képest;
  • sorozatszám- amelyben az általános sokaság egyenlő nagyságú csoportokra oszlik - sorozatok. A sorozatok a mintapopulációba kerülnek kiválasztásra. A sorozaton belül a sorozatba tartozó egységek folyamatos megfigyelése történik;
  • kombinált- a mintavétel lehet kétlépcsős. Ebben az esetben a lakosságot először csoportokra osztják. Ezután kiválasztásra kerülnek a csoportok, ez utóbbiakon belül pedig az egyes egységek.

A statisztikában a következő módszereket különböztetik meg a mintapopuláció egységeinek kiválasztásához::

  • egyetlen szakasz mintavétel - minden kiválasztott egységet azonnal vizsgálatnak vetnek alá egy adott kritérium szerint (megfelelő véletlenszerű és sorozatos mintavétel);
  • többlépcsős mintavétel - az egyes csoportok általános sokaságából válogatunk, és a csoportokból egyedi egységeket választunk ki (tipikus mintavétel az egységek mintapopulációba való mechanikus kiválasztásának módszerével).

Ezen kívül vannak még:

  • újraválasztás- a visszavitt labda séma szerint. Ebben az esetben minden, a mintában szereplő egység vagy sorozat visszakerül az általános sokaságba, és ezért van esélye arra, hogy ismét bekerüljön a mintába;
  • ismételje meg a kiválasztást- a vissza nem adott labda séma szerint. Pontosabb eredményeket ad ugyanazzal a mintamérettel.

A szükséges mintanagyság meghatározása (Student-féle t-tábla segítségével).

A mintavételi elmélet egyik tudományos alapelve annak biztosítása, hogy elegendő számú egységet kell kiválasztani. Elméletileg ennek az elvnek a betartásának szükségességét a valószínűségszámítási határtételek bizonyításai mutatják be, amelyek lehetővé teszik annak megállapítását, hogy a sokaságból milyen térfogatú egységeket kell kiválasztani, hogy az elegendő legyen és biztosítsa a minta reprezentativitását.

A standard mintavételi hiba csökkenése, és ezáltal a becslés pontosságának növekedése mindig a minta méretének növekedésével jár, ezért már a minta megfigyelés megszervezésének szakaszában el kell dönteni, hogy mekkora a a mintapopulációnak olyannak kell lennie, hogy biztosítsa a megfigyelési eredmények megkívánt pontosságát. A szükséges mintanagyság kiszámítása a maximális mintavételi hibák (A) képleteiből származtatott képletekkel történik, amelyek megfelelnek egy adott típusnak és kiválasztási módszernek. Tehát egy véletlenszerű ismételt mintamérethez (n) a következőt kapjuk:

Ennek a képletnek az a lényege, hogy a szükséges szám véletlenszerű ismételt kiválasztásával a minta mérete egyenesen arányos a konfidencia együttható négyzetével. (t2)és a variációs karakterisztika varianciája (?2), és fordítottan arányos a maximális mintavételi hiba négyzetével (?2). Különösen, ha a maximális hiba kétszeresére nő, a szükséges mintanagyság négyszeresére csökkenthető. A három paraméter közül kettőt (t és?) állít be a kutató.

Ugyanakkor a kutató az alapján A mintavételezés céljaiból és célkitűzéseiből meg kell oldani a kérdést: milyen mennyiségi kombinációban célszerűbb ezeket a paramétereket bevonni az optimális választás érdekében? Az egyik esetben elégedettebb lehet a kapott eredmények megbízhatóságával (t), mint a pontosság mértékével (?), máskor - fordítva. Nehezebb megoldani a maximális mintavételi hiba értékét, mivel a kutató a mintamegfigyelés tervezésének szakaszában nem rendelkezik ezzel a mutatóval, ezért a gyakorlatban a maximális mintavételi hiba értékét szokás beállítani, általában az attribútum várható átlagos szintjének 10%-án belül. A becsült átlag megállapítása többféleképpen közelíthető meg: hasonló, korábban lefolytatott felmérések adataiból, vagy a mintavételi keretből származó adatok felhasználásával és kis mintavétellel.

A mintamegfigyelés tervezésekor a legnehezebb megállapítani az (5.2) képlet harmadik paraméterét - a minta sokaságának szórását. Ebben az esetben minden, a kutató rendelkezésére álló, korábban lefolytatott hasonló és kísérleti felmérések során szerzett információt fel kell használni.

Kérdés a meghatározással kapcsolatban a szükséges mintanagyság bonyolultabbá válik, ha a mintavételes felmérés a mintavételi egységek több jellemzőjének vizsgálatát is magában foglalja. Ebben az esetben az egyes jellemzők átlagos szintje és azok variációja általában eltérő, ezért annak eldöntése, hogy a jellemzők közül melyik variációt részesítsük előnyben, csak a jellemzők céljának és célkitűzéseinek figyelembevételével lehetséges. felmérés.

A mintamegfigyelés tervezésekor a megengedett mintavételi hiba előre meghatározott értékét feltételezzük az adott vizsgálat céljainak és a megfigyelési eredmények alapján levonható következtetések valószínűségének megfelelően.

Általában a mintaátlag maximális hibájának képlete lehetővé teszi, hogy meghatározzuk:

Az általános sokasági mutatók lehetséges eltéréseinek nagysága a minta sokasági mutatóitól;

A szükséges mintanagyság, amely biztosítja a kívánt pontosságot, amelynél a lehetséges hibahatárok nem lépnek túl egy meghatározott értéket;

Annak a valószínűsége, hogy a mintában lévő hibának meghatározott határértéke lesz.

Diákosztás a valószínűségelméletben abszolút folytonos eloszlások egyparaméteres családja.

Dinamikus sorozat (intervallum, pillanat), dinamikus sorozat záró.

Dinamika sorozat- ezek a statisztikai mutatók értékei, amelyeket egy bizonyos időrendi sorrendben mutatnak be.

Minden idősor két összetevőből áll:

1) időszakok mutatói (évek, negyedévek, hónapok, napok vagy dátumok);

2) a vizsgált objektumot időszakokra vagy megfelelő időpontokra jellemző mutatók, amelyeket sorozatszinteknek nevezünk.

A sorozat szintjei kifejezve vannak abszolút és átlagos vagy relatív értékeket egyaránt. A mutatók természetétől függően abszolút, relatív és átlagos értékek idősorai készülnek. A relatív és átlagos értékekből származó dinamikus sorozatok abszolút értékek származtatott sorozatai alapján készülnek. Vannak intervallum- és momentumsorozatok a dinamikának.

Dinamikus intervallum sorozat indikátorértékeket tartalmaz bizonyos időszakokra. Egy intervallum sorozatban a szinteket összegezve megkaphatjuk a jelenség hosszabb időszakra vonatkozó volumenét, vagy az úgynevezett kumulált összegeket.

Dinamikus pillanatsorozat tükrözi a mutatók értékeit egy bizonyos időpontban (időpont). A pillanatsorokban a kutatót csak az a jelenségkülönbség érdekelheti, amely a sorozatok bizonyos időpontok közötti szintjének változását tükrözi, hiszen a szintek összegének itt nincs valós tartalma. Az összesített összegek itt nem kerülnek kiszámításra.

Az idősorok helyes felépítésének legfontosabb feltétele a különböző időszakokhoz tartozó sorozatok szintjeinek összehasonlíthatósága. A szinteket homogén mennyiségben kell bemutatni, és a jelenség különböző részeit azonos teljességgel kell lefedni.

Annak érdekében, hogy A valós dinamika torzulásának elkerülése érdekében egy statisztikai vizsgálatban előzetes számításokat végeznek (a dinamikasorokat lezárva), amelyek megelőzik az idősorok statisztikai elemzését. A dinamikus sorozatok lezárása alatt két vagy több sorozat egyetlen sorozatává való kombinációját értjük, amelyek szintjei eltérő módszertannal vannak kiszámítva, vagy nem felelnek meg a területi határoknak, stb. A dinamikus sorozat lezárása azt is jelentheti, hogy a dinamikai sorozatok abszolút szintjeit közös alapra kell hozni, ami semlegesíti a dinamikus sorozatok szintjei összehasonlíthatatlanságát.

Dinamikai sorozatok, együtthatók, növekedés és növekedési ütemek összehasonlíthatóságának fogalma.

Dinamika sorozat- ezek a természeti és társadalmi jelenségek időbeli alakulását jellemző statisztikai mutatók sorozata. Az Oroszországi Állami Statisztikai Bizottság által kiadott statisztikai gyűjtemények nagyszámú dinamikus sorozatot tartalmaznak táblázatos formában. A dinamikus sorozatok lehetővé teszik a vizsgált jelenségek fejlődési mintáinak azonosítását.

A dinamikus sorozatok kétféle mutatót tartalmaznak. Időjelzők(évek, negyedévek, hónapok stb.) vagy időpontokban (év elején, minden hónap elején stb.). Sorszint-jelzők. A dinamikus sorozatok szintjének mutatói kifejezhetők abszolút értékben (terméktermelés tonnában vagy rubelben), relatív értékekkel (a városi lakosság részesedése százalékban) és átlagértékekkel (az ipari munkások éves átlagbére) stb.). Táblázatos formában egy idősor két oszlopot vagy két sort tartalmaz.

Az idősorok helyes felépítéséhez számos követelmény teljesülése szükséges:

  1. a dinamikasorozat minden mutatójának tudományosan megalapozottnak és megbízhatónak kell lennie;
  2. a dinamikasorozat mutatóinak időben összehasonlíthatónak kell lenniük, pl. azonos időszakokra vagy ugyanazokra a dátumokra kell számítani;
  3. számos dinamika mutatójának összehasonlíthatónak kell lennie az egész területen;
  4. a dinamikasorozat mutatóinak tartalmilag összehasonlíthatónak kell lenniük, pl. egységes módszertan szerint számítva, azonos módon;
  5. számos dinamika mutatójának összehasonlíthatónak kell lennie a figyelembe vett gazdaságok körében. A dinamikasorozat összes mutatóját ugyanabban a mértékegységben kell megadni.

Statisztikai mutatók jellemezheti akár a vizsgált folyamat eredményeit egy adott időszak alatt, akár a vizsgált jelenség állapotát egy adott időpontban, pl. indikátorok lehetnek intervallumok (periodikusok) és pillanatnyiak. Ennek megfelelően kezdetben a dinamika sorozat lehet intervallum vagy momentum. A pillanatdinamikai sorozatok pedig lehetnek egyenlő vagy egyenlőtlen időintervallumúak.

Az eredeti dinamika sorozat átalakítható átlagértékek sorozatává és relatív értékek sorozatává (lánc és alap). Az ilyen idősorokat származtatott idősoroknak nevezzük.

A dinamikai sorozat átlagszintjének kiszámításának módszertana a dinamikai sorozat típusától függően eltérő. Példák segítségével megvizsgáljuk a dinamikai sorozatok típusait és az átlagos szint kiszámításának képleteit.

Abszolút növekedés (Δy) azt mutatják meg, hogy a sorozat következő szintje hány egységgel változott az előzőhöz képest (gr. 3. - lánc abszolút növekedések) vagy a kezdeti szinthez képest (gr. 4. - alapvető abszolút növekedések). A számítási képletek a következőképpen írhatók fel:

Amikor a sorozat abszolút értékei csökkennek, akkor „csökkenés” vagy „csökkenés” lesz.

Az abszolút növekedés mutatói azt mutatják, hogy például 1998-ban az „A” termék gyártása 1997-hez képest 4 ezer tonnával, 1994-hez képest 34 ezer tonnával nőtt; a többi évre vonatkozóan lásd a táblázatot. 11,5 gr. 3. és 4.

Növekedési ütem megmutatja, hogy a sorozat szintje hányszor változott az előzőhöz képest (gr. 5 - növekedési vagy csökkenési lánc együtthatók), vagy a kezdeti szinthez képest (gr. 6 - alapvető növekedési vagy csökkenési együtthatók). A számítási képletek a következőképpen írhatók fel:

Növekedési ütem mutassa meg, hogy a sorozat következő szintje hány százalékos az előzőhöz képest (gr. 7 - láncnövekedési ráták) vagy a kezdeti szinthez képest (gr. 8 - alap növekedési ütemek). A számítási képletek a következőképpen írhatók fel:

Így például 1997-ben az „A” termék gyártási volumene 1996-hoz képest 105,5% volt (

Növekedési ütem mutassa meg, hogy a beszámolási időszak szintje hány százalékkal nőtt az előzőhöz (9. oszlop - láncnövekedési ütemek) vagy a kezdeti szinthez (10. oszlop - alap növekedési ütemek) képest. A számítási képletek a következőképpen írhatók fel:

T pr = T r - 100% vagy T pr = abszolút növekedés / előző időszak szintje * 100%

Így például 1996-ban 1995-höz képest az „A” terméket 3,8%-kal (103,8% - 100%) vagy (8:210)x100%-kal többel, 1994-hez képest pedig 9%-kal (109% 100%).

Ha a sorozat abszolút szintjei csökkennek, akkor az arány 100% alatt lesz, és ennek megfelelően lesz csökkenés mértéke (a növekedés mértéke mínusz előjellel).

1%-os növekedés abszolút értéke(11. oszlop) azt mutatja, hogy egy adott időszakban hány darabot kell előállítani ahhoz, hogy az előző időszak szintje 1%-kal emelkedjen. Példánkban 1995-ben 2,0 ezer tonnát, 1998-ban pedig 2,3 ezer tonnát kellett előállítani, i.e. sokkal több.

Az 1%-os növekedés abszolút értéke kétféleképpen határozható meg:

Az előző időszak szintjét elosztjuk 100-zal;

A lánc abszolút növekedését elosztjuk a megfelelő láncnövekedési rátákkal.

1%-os növekedés abszolút értéke =

A dinamikában, különösen hosszú távon, fontos a növekedési ütem együttes elemzése az egyes százalékos növekedések vagy csökkenések tartalmával.

Megjegyzendő, hogy az idősorok elemzésére alkalmazott módszertan alkalmazható mind azokra az idősorokra, amelyek szintjei abszolút értékben vannak kifejezve (t, ezer rubel, alkalmazottak száma stb.), mind azokra az idősorokra, amelyek szintjei relatív mutatókban (hibák %-a, szén hamutartalma %-ban stb.) vagy átlagértékekben (átlagtermés c/ha-ban, átlagbér stb.) vannak kifejezve.

A dinamikus sorozatok elemzésekor a figyelembe vett, minden évre az előző vagy kezdeti szinthez képest számított analitikai mutatókkal együtt az időszak átlagos analitikai mutatóit is ki kell számítani: a sorozat átlagos szintje, az átlagos éves abszolút növekedés. (csökkenés) és az átlagos éves növekedési ütem és növekedési ütem.

A fentiekben tárgyaltuk a dinamikasorozat átlagos szintjének kiszámításának módszereit. Az általunk vizsgált intervallumdinamikai sorozatban a sorozat átlagos szintjét az egyszerű aritmetikai átlag képlettel számítjuk ki:

A termék átlagos éves gyártási mennyisége 1994-1998 között. 218,4 ezer tonnát tett ki.

Az átlagos éves abszolút növekedést is az egyszerű számtani átlagképlet segítségével számítjuk ki:

Az éves abszolút növekedés az évek során 4 és 12 ezer tonna között változott (lásd a 3. oszlopot), és az átlagos éves termelésnövekedés az 1995 és 1998 közötti időszakban. 8,5 ezer tonnát tett ki.

Az átlagos növekedési ütem és az átlagos növekedési ütem kiszámításának módszerei részletesebb átgondolást igényelnek. Tekintsük ezeket a táblázatban szereplő éves sorozatszintű mutatók példáján.

A dinamikus sorozat átlagos szintje.

Dinamikus sorozat (vagy idősor)- ezek egy bizonyos statisztikai mutató számértékei egymást követő pillanatokban vagy időszakokban (azaz időrendi sorrendben).

A dinamikai sorozatot alkotó egyik vagy másik statisztikai mutató számértékeit nevezzük sorozatszintekés általában a betűvel jelöljük y. A sorozat első szakasza y 1 kezdeti ill alapszint, és az utolsó y n - végső. Azokat a pillanatokat vagy időszakokat, amelyekre a szintek vonatkoznak, a t.

A dinamikus sorozatokat általában táblázat vagy grafikon formájában mutatják be, és az abszcissza tengely mentén egy időskálát szerkesztenek. t, az ordináta tengely mentén pedig a sorozatszintek skálája y.

A dinamikus sorozat átlagos mutatói

A dinamikák minden sorozata egy bizonyos halmaznak tekinthető n időben változó mutatók, amelyek átlagként összegezhetők. Az ilyen általánosított (átlagos) mutatók különösen akkor szükségesek, ha egy adott mutató változásait hasonlítjuk össze különböző időszakokban, különböző országokban stb.

A dinamika sorozat általánosított jellemzője elsősorban a középső sor szintje. Az átlagos szint kiszámításának módja attól függ, hogy a sorozat pillanatnyi vagy intervallumos (periodikus).

Amennyiben intervallum egy sorozat átlagos szintjét a sorozat szintjeinek egyszerű számtani átlagának képlete határozza meg, azaz.

=
Ha elérhető pillanat tartalmazó sor n szintek ( y1, y2, …, yn) egyenlő időközökkel a dátumok (időpontok) között, akkor egy ilyen sorozat könnyen átalakítható átlagértékek sorozatává. Ebben az esetben az egyes időszakok eleji mutató (szint) egyben az előző időszak végi mutató is. Ekkor az egyes időszakokra vonatkozó mutató átlagértéke (a dátumok közötti intervallum) az értékek összegének feleként számítható ki. at az időszak elején és végén, i.e. Hogyan . Az ilyen átlagok száma . Mint korábban említettük, az átlagértékek sorozatainál az átlagszintet a számtani átlag segítségével számítjuk ki.

Ezért írhatjuk:
.
A számláló átalakítása után a következőt kapjuk:
,

Ahol Y1És Yn— a sor első és utolsó szintje; Yi— középszintű.

Ezt az átlagot a statisztika ún átlagos időrendi pillanatok sorozatára. Nevét a „cronos” (idő, latin) szóból kapta, mivel az idővel változó mutatók alapján számítják ki.

Egyenlőtlenség esetén dátumok közötti intervallumok esetén egy pillanatsorozat kronológiai átlaga kiszámítható az egyes pillanatpárokra vonatkozó szintek átlagértékeinek számtani átlagaként, súlyozva a dátumok közötti távolságokkal (időintervallumokkal), pl.
.
Ebben az esetben Feltételezzük, hogy a dátumok közötti intervallumokban a szintek különböző értékeket vettek fel, és mi vagyunk az egyik a két ismert ( yiÉs yi+1) meghatározzuk az átlagokat, amelyekből azután kiszámítjuk a teljes vizsgált időszak összesített átlagát.
Ha feltételezzük, hogy minden érték yi változatlan marad a következőig (i+ 1)- pillanat, azaz. Ha ismert a szintek változásának pontos dátuma, akkor a számítás a súlyozott aritmetikai átlag képlettel végezhető el:
,

hol van az az idő, ameddig a szint nem változott.

A dinamikus sorozatok átlagos szintjén kívül más átlagos mutatókat is számítanak - a sorozat szintjének átlagos változását (alap- és láncmódszerek), az átlagos változási sebességet.

Az alapérték abszolút változást jelent az utolsó mögöttes abszolút változás hányadosa osztva a változások számával. Azaz

A lánc abszolút változást jelent A sorozat szintjei a lánc összes abszolút változásának összegét osztva a változások számával, azaz

Az átlagos abszolút változások előjele egy jelenség változásának átlagos jellegének megítélésére is szolgál: növekedés, hanyatlás vagy stabilitás.

Az alap- és lánc abszolút változások szabályozásának szabályából az következik, hogy az alap- és a láncátlagos változásoknak egyenlőnek kell lenniük.

Az átlagos abszolút változás mellett a relatív átlagot is számítjuk alap- és láncmódszerrel.

Kiindulási átlagos relatív változás képlet határozza meg:

Lánc átlagos relatív változása képlet határozza meg:

Természetesen az alap- és a láncátlagos relatív változásnak meg kell egyeznie, és az 1-es kritériumértékkel összehasonlítva következtetést vonunk le a jelenség változásának átlagos jellegéről: növekedés, csökkenés vagy stabilitás.
Az alap- vagy láncátlagos relatív változásból 1-et levonva a megfelelő átlagos változási sebesség, melynek előjelével meg lehet ítélni a vizsgált jelenség változásának természetét is, amit ez a dinamikasorozat tükröz.

Szezonális ingadozások és szezonalitási indexek.

A szezonális ingadozások stabil, éven belüli ingadozások.

A maximális hatás elérése érdekében történő gazdálkodás alapelve a bevétel maximalizálása és a költségek minimalizálása. A szezonális ingadozások tanulmányozásával az év minden szintjén megoldódik a maximum egyenlet problémája.

A szezonális ingadozások tanulmányozása során két egymással összefüggő probléma oldódik meg:

1. A jelenség fejlődési sajátosságainak azonosítása az éven belüli dinamikában;

2. Szezonális ingadozások mérése szezonális hullámmodell felépítésével;

A szezonális ingadozás mérésére általában a szezonális pulykák számítanak. Általában a dinamikai sorozatok eredeti egyenleteinek az elméleti egyenletekhez viszonyított aránya határozza meg, amelyek összehasonlítási alapként szolgálnak.

Mivel a véletlen eltérések a szezonális ingadozásokra vannak ráépítve, a szezonalitási indexeket átlagolják ezek kiküszöbölésére.

Ebben az esetben az éves ciklus minden időszakára általánosított mutatókat határoznak meg átlagos szezonális indexek formájában:

Az átlagos szezonális ingadozási indexek mentesek a fő fejlődési trend véletlenszerű eltéréseinek befolyásától.

A trend jellegétől függően az átlagos szezonalitási index képlete a következő formákat öltheti:

1.Az éven belüli dinamikák sorozataihoz, amelyek egyértelműen kifejezett fő fejlődési irányzattal rendelkeznek:

2. Azon éven belüli dinamikák sorozataira, amelyekben nincs növekvő vagy csökkenő tendencia, vagy nem jelentős:

Hol van az általános átlag;

A fő trend elemzésének módszerei.

A jelenségek időbeli alakulását különböző természetű és hatáserősségű tényezők befolyásolják. Némelyikük véletlenszerű jellegű, mások szinte állandó hatást fejtenek ki, és bizonyos fejlődési trendet alkotnak a dinamikában.

A statisztika fontos feladata a trenddinamikák soronkénti azonosítása, különböző véletlenszerű tényezők hatása alól. Ebből a célból az idősorok feldolgozása intervallumnagyítás, mozgóátlag és analitikus szintezés stb. módszereivel történik.

Intervallum nagyítási módszer időperiódusok bővítésén alapul, amelyek egy sor dinamika szintjeit tartalmazzák, pl. a kis időszakokra vonatkozó adatok felváltása nagyobb időszakokra vonatkozó adatokkal. Különösen akkor hatékony, ha a sorozat kezdeti szintjei rövid időszakokra vonatkoznak. Például a napi eseményekhez kapcsolódó mutatósorozatokat felváltják a heti, havi stb. Ez világosabban fog megmutatkozni „a jelenség fejlődési tengelye”. A kinagyított intervallumokra számított átlag lehetővé teszi a fő fejlődési trend irányának és természetének (növekedés gyorsulása vagy lassulása) azonosítását.

Mozgóátlag módszer hasonló az előzőhöz, de ebben az esetben a tényleges szinteket felváltják a szekvenciálisan mozgó (csúszott) megnagyobbított intervallumokra számolt átlagos szintek. m sorozatszintek.

Például, ha elfogadjuk m=3, akkor először a sorozat első három szintjének átlagát számítjuk ki, majd - ugyanannyi szintből, de a másodiktól kezdve, majd - a harmadiktól kezdve stb. Így az átlag „csúszik” végig a dinamikai sorozaton, egy taggal mozogva. -től számítva m tagok, a mozgóátlagok az egyes intervallumok közepére (középére) vonatkoznak.

Ez a módszer csak a véletlenszerű ingadozásokat szünteti meg. Ha a sorozatnak szezonális hulláma van, akkor ez a mozgóátlag módszerrel végzett simítás után is megmarad.

Analitikai igazítás. A véletlenszerű ingadozások kiküszöbölése és a trend azonosítása érdekében a sorozatszintek kiegyenlítése analitikai képletekkel (vagy analitikai szintezés) történik. Lényege, hogy az empirikus (tényleges) szinteket elméleti szintekkel helyettesítsék, amelyeket egy bizonyos matematikai trendmodellként elfogadott egyenlet segítségével számítanak ki, ahol az elméleti szinteket az idő függvényének tekintjük: . Ebben az esetben minden tényleges szintet két komponens összegének tekintünk: , ahol egy szisztematikus komponens, amelyet egy bizonyos egyenlet fejez ki, és egy valószínűségi változó, amely a trend körüli ingadozásokat okozza.

Az analitikai igazítás feladata a következő:

1. A tényleges adatok alapján annak a hipotetikus függvénynek a meghatározása, amely a legmegfelelőbben tükrözi a vizsgált mutató fejlődési tendenciáját.

2. A megadott függvény (egyenlet) paramétereinek megtalálása empirikus adatokból

3. Számítás az elméleti (igazított) szintek talált egyenletével.

Egy adott funkció kiválasztása általában az empirikus adatok grafikus ábrázolása alapján történik.

A modellek regressziós egyenletek, amelyek paramétereit a legkisebb négyzetek módszerével számítjuk ki

Az alábbiakban az idősorok összehangolására leggyakrabban használt regressziós egyenleteket mutatjuk be, jelezve, hogy mely fejlődési trendek tükrözésére a legalkalmasabbak.

A fenti egyenletek paramétereinek megtalálásához speciális algoritmusok és számítógépes programok állnak rendelkezésre. Egy egyenes egyenlet paramétereinek megtalálásához a következő algoritmus használható:

Ha a periódusokat vagy az időpillanatokat úgy számozzuk meg, hogy St = 0, akkor a fenti algoritmusok jelentősen leegyszerűsödnek és

A diagramon az igazított szintek egy egyenes vonalon helyezkednek el, amely a legközelebbi távolságban halad el a dinamikus sorozat tényleges szintjeitől. A négyzetes eltérések összege véletlenszerű tényezők hatását tükrözi.

Ennek segítségével kiszámítjuk az egyenlet átlagos (standard) hibáját:

Itt n a megfigyelések száma, m pedig az egyenletben szereplő paraméterek száma (kettő van belőle - b 1 és b 0).

A fő tendencia (trend) azt mutatja meg, hogy a szisztematikus tényezők hogyan befolyásolják a dinamikasorozat szintjeit, a szintek trend körüli ingadozása () pedig a reziduális tényezők hatásának mérőszáma.

Az alkalmazott idősor-modell minőségének felmérésére szintén ezt használják Fisher-féle F-teszt. Ez két variancia hányadosa, nevezetesen a regresszió okozta variancia aránya, azaz. a vizsgált tényező, a véletlenszerű okok okozta szóráshoz, pl. maradék diszperzió:

Kibővített formában ennek a kritériumnak a képlete a következőképpen mutatható be:

ahol n a megfigyelések száma, azaz. sorszintek száma,

m a paraméterek száma az egyenletben, y a sorozat tényleges szintje,

Igazított sorszint – középső sorszint.

A többinél sikeresebb modell nem mindig elég kielégítő. Csak abban az esetben ismerhető fel ilyennek, ha F kritériuma átlépi az ismert kritikus határt. Ezt a határt F-eloszlási táblák segítségével állapítják meg.

Az indexek lényege és osztályozása.

A statisztikában az index alatt olyan relatív mutatót értünk, amely egy jelenség nagyságrendjének változását jellemzi időben, térben vagy bármely szabványhoz képest.

Az indexreláció fő eleme az indexált érték. Indexált érték alatt egy statisztikai sokaság jellemzőjének értéke értendő, amelynek változása a vizsgálat tárgya.

Az indexek segítségével három fő feladatot oldanak meg:

1) komplex jelenség változásainak értékelése;

2) az egyes tényezők hatásának meghatározása egy összetett jelenség változásaira;

3) egy jelenség nagyságának összehasonlítása az elmúlt időszak nagyságával, egy másik terület nagyságával, valamint szabványokkal, tervekkel és előrejelzésekkel.

Az indexeket 3 kritérium szerint osztályozzák:

2) a népesség elemeinek lefedettsége szerint;

3) az általános indexek számítási módszerei szerint.

Tartalom szerint indexált mennyiségek esetén az indexek mennyiségi (volumen) és minőségi mutatók mutatóira oszlanak. A mennyiségi mutatók mutatói - az ipari termékek fizikai mennyiségének mutatói, az értékesítés fizikai volumenének, a létszámnak stb. A minőségi mutatók mutatói - az árak, költségek, munkatermelékenység, átlagbérek stb.

A népességi egységek lefedettségének mértéke szerint az indexek két osztályba sorolhatók: egyéni és általános. Jellemzésükre a következő konvenciókat vezetjük be az index módszer használatának gyakorlatában:

q- bármely termék mennyisége (térfogata) fizikai értelemben ; r- egységár; z- egységnyi előállítási költség; t— egységnyi termék előállítására fordított idő (munkaintenzitás) ; w- termékek előállítása időegységenkénti értékben; v- termelési kibocsátás időegységenkénti fizikai értelemben; T— teljes eltöltött idő vagy alkalmazottak száma.

Annak érdekében, hogy meg lehessen különböztetni, hogy az indexelt értékek melyik időszakhoz vagy objektumhoz tartoznak, szokásos alsó indexeket helyezni a megfelelő szimbólum jobb alsó sarkába. Így például a dinamikai indexeknél az 1-es alsó indexet általában az összehasonlított időszakokra (aktuális, jelentési) és azokra az időszakokra használják, amelyekkel az összehasonlítás történik,

Egyedi indexek egy összetett jelenség egyes elemeiben bekövetkezett változások jellemzésére szolgálnak (például egy terméktípus kibocsátásának volumenében bekövetkezett változás). A dinamika relatív értékeit, a kötelezettségek teljesítését, az indexált értékek összehasonlítását reprezentálják.

Meghatározzák a termékek fizikai mennyiségének egyedi indexét

Az adott egyedi dinamikai indexek elemzési szempontból növekedési együtthatókhoz (rátákhoz) hasonlítanak, és az indexált érték tárgyidőszaki változását jellemzik a bázisidőszakhoz képest, azaz azt mutatják meg, hogy az hányszorosára nőtt (csökkent) vagy hány százalék a növekedés (csökkenés). Az indexértékek együtthatóban vagy százalékban vannak kifejezve.

Általános (összetett) index egy komplex jelenség minden elemében bekövetkező változásokat tükrözi.

Összesített index az index alapformája. Aggregátumnak nevezik, mert a számlálója és a nevezője „aggregátumok” halmaza.

Átlagindexek, definíciójuk.

A statisztikában az aggregált indexeken kívül egy másik formát is alkalmaznak - a súlyozott átlagindexeket. Számításukat akkor veszik igénybe, ha a rendelkezésre álló információk nem teszik lehetővé az általános aggregált index kiszámítását. Így ha az árakról nincs adat, de van információ a termékek tárgyidőszaki bekerülési értékéről, és az egyes termékekre egyedi árindexek ismertek, akkor az általános árindex nem határozható meg aggregáltként, de lehetséges hogy az egyesek átlagaként számítsuk ki. Ugyanígy, ha nem ismertek az egyes típusú termékek gyártott mennyiségei, de ismertek az egyedi indexek és a bázisidőszak előállítási költsége, akkor a termelés fizikai mennyiségének általános mutatója súlyozott átlagként meghatározható. érték.

Átlagos index - Ez az egyes indexek átlagaként számított index. Az összesített index az általános index alapformája, ezért az átlagos indexnek meg kell egyeznie az összesített indexszel. Az átlagindexek kiszámításakor az átlagok két formáját használjuk: aritmetikai és harmonikus.

A számtani átlagindex megegyezik az aggregált indexszel, ha az egyes indexek súlyai ​​az aggregált index nevezőjének a tagjai. Csak ebben az esetben a számtani átlag képlettel számított index értéke lesz egyenlő az aggregált indexszel.

Érdemes megjegyezni, hogy ennek a varianciaszámításnak van egy hátránya - kiderül, hogy elfogult, pl. matematikai elvárása nem egyenlő a variancia valódi értékével. Olvasson erről bővebben. Ugyanakkor nem minden olyan rossz. A minta méretének növekedésével továbbra is megközelíti elméleti analógját, azaz. aszimptotikusan elfogulatlan. Ezért, ha nagy mintamérettel dolgozik, használhatja a fenti képletet.

Hasznos a jelek nyelvét a szavak nyelvére fordítani. Kiderül, hogy a szórás az eltérések átlagos négyzete. Ez azt jelenti, hogy először az átlagértéket számítják ki, majd az egyes eredeti és átlagos értékek közötti különbséget veszik, négyzetbe vonják, összeadják, majd elosztják a sokaságban lévő értékek számával. Az egyéni érték és az átlag közötti különbség az eltérés mértékét tükrözi. Négyzetes, hogy minden eltérés kizárólag pozitív szám legyen, és elkerüljük a pozitív és negatív eltérések kölcsönös megsemmisítését az összegzéskor. Ezután a négyzetes eltérések ismeretében egyszerűen kiszámítjuk a számtani átlagot. Átlagos - négyzetes - eltérések. Az eltéréseket négyzetre emeljük, és kiszámítjuk az átlagot. A megoldás mindössze három szóban rejlik.

Tiszta formájában azonban, például a számtani átlagban vagy indexben, a diszperziót nem használják. Inkább egy segéd- és közbenső mutató, amely más típusú statisztikai elemzésekhez szükséges. Még normál mértékegysége sincs. A képletből ítélve ez az eredeti adatok mértékegységének négyzete. Palack nélkül, ahogy mondják, nem lehet kitalálni.

(111. modul)

Ahhoz, hogy a variancia visszakerüljön a valóságba, vagyis hogy hétköznapibb célokra is felhasználhassuk, kivonjuk belőle a négyzetgyököt. Kiderül az ún szórás (RMS). Vannak „szórás” vagy „szigma” nevek (a görög betű nevéből). A szórás képlete a következő:

A minta mutatójának megszerzéséhez használja a következő képletet:

Akárcsak a variancia esetében, itt is van egy kissé eltérő számítási lehetőség. De ahogy nő a minta, a különbség eltűnik.

A szórás természetesen az adatok szórásának mértékét is jellemzi, de most már (a szórással ellentétben) összevethető az eredeti adatokkal, mivel azonos mértékegységekkel rendelkeznek (ez a számítási képletből kiderül). De ez a mutató tiszta formájában nem túl informatív, mivel túl sok köztes számítást tartalmaz, amelyek zavaróak (eltérés, négyzet, összeg, átlag, gyök). A szórással azonban már közvetlenül is lehet dolgozni, mert ennek a mutatónak a tulajdonságai jól tanulmányozottak és ismertek. Például van ilyen három szigma szabály, amely szerint az adatok 1000-ből 997 értéket tartalmaznak a számtani átlag ±3 szigmáján belül. A szórást, mint a bizonytalanság mértékét, számos statisztikai számításban is szerepet kapnak. Segítségével meghatározható a különböző becslések és előrejelzések pontosságának mértéke. Ha a szórás nagyon nagy, akkor a szórás is nagy lesz, ezért az előrejelzés pontatlan lesz, ami például nagyon széles konfidencia intervallumokban fog kifejeződni.

Variációs együttható

A szórás abszolút becslést ad a diszperzió mértékére. Ezért ahhoz, hogy megértsük, mekkora a szórás magukhoz az értékekhez képest (azaz függetlenül azok mértékétől), relatív mutatóra van szükség. Ezt a mutatót hívják variációs együtthatóés a következő képlettel számítják ki:

A variációs együtthatót százalékban mérjük (ha megszorozzuk 100%-kal). Ezzel a mutatóval sokféle jelenséget hasonlíthat össze, függetlenül azok mértékétől és mértékegységétől. Ez a tény teszi olyan népszerűvé a variációs együtthatót.

A statisztikában elfogadott, hogy ha a variációs együttható értéke kisebb, mint 33%, akkor a sokaságot homogénnek tekintjük, ha nagyobb, mint 33%, akkor heterogénnek. Nehéz itt bármit is kommentálni. Nem tudom, ki határozta meg ezt és miért, de axiómának számít.

Úgy érzem, elragad a száraz elmélet, és valami vizuálist és figuratívat kell hoznom. Másrészt az összes variációs mutató megközelítőleg ugyanazt írja le, csak máshogy számítják ki őket. Ezért nehéz különféle példákat bemutatni. Csak a mutatók értékei különbözhetnek, de a lényegük nem. Hasonlítsuk össze tehát, miben térnek el a különböző variációs mutatók értékei ugyanazon adathalmaz esetén. Vegyük például az átlagos lineáris eltérés kiszámítását ( -tól). Íme a forrás adatok:

És egy menetrend, amely emlékezteti Önt.

Ezen adatok felhasználásával különféle variációs mutatókat számítunk ki.

Az átlagérték a szokásos számtani átlag.

Az eltérés tartománya a maximum és a minimum közötti különbség:

Az átlagos lineáris eltérést a következő képlet segítségével számítjuk ki:

Szórás:

Foglaljuk össze táblázatban a számítást.

Mint látható, a lineáris átlag és a szórás hasonló értékeket ad az adatok eltérésének mértékére. A szórás szigma négyzet, tehát mindig viszonylag nagy szám lesz, ami valójában nem jelent semmit. A variáció tartománya az extrém értékek közötti különbség, és sokat beszél.

Összefoglalunk néhány eredményt.

Egy indikátor változása egy folyamat vagy jelenség változékonyságát tükrözi. Mértéke többféle mutató segítségével mérhető.

1. Változási tartomány - a maximum és minimum közötti különbség. A lehetséges értékek tartományát tükrözi.
2. Átlagos lineáris eltérés – az elemzett sokaság összes értékének az átlagos értéktől való abszolút (modulo) eltérésének átlagát tükrözi.
3. Diszperzió - az eltérések átlagos négyzete.
4. A szórás a szórás gyöke (az eltérések átlagos négyzete).
5. A variációs együttható a leguniverzálisabb mutató, amely az értékek szórásának mértékét tükrözi, függetlenül azok skálájától és mértékegységétől. A variációs együtthatót százalékban mérjük, és a különböző folyamatok és jelenségek variációinak összehasonlítására használható.

A statisztikai elemzésben tehát létezik egy olyan mutatórendszer, amely a jelenségek homogenitását és a folyamatok stabilitását tükrözi. A variációs mutatók gyakran nem rendelkeznek önálló jelentéssel, és további adatelemzésre (konfidenciaintervallumok kiszámítására) használják őket



Előző cikk: Következő cikk:

© 2015 .
Az oldalról | Kapcsolatok
| Webhelytérkép