Pearsonovo kritérium na testovanie hypotézy o tvare distribučného zákona náhodnej premennej. Kolmogorovovo kritérium

Do konca 19. storočia sa normálne rozdelenie považovalo za univerzálny zákon variácie údajov. K. Pearson však poznamenal, že empirické frekvencie sa môžu značne líšiť od normálneho rozdelenia. Vyvstala otázka, ako to dokázať. Nevyžadovalo sa len grafické porovnanie, ktoré je subjektívne, ale aj prísne kvantitatívne zdôvodnenie.

Takto bolo vymyslené kritérium χ 2(chi kvadrát), ktorý testuje významnosť nesúladu medzi empirickými (pozorovanými) a teoretickými (očakávanými) frekvenciami. Stalo sa to už v roku 1900, ale toto kritérium sa používa dodnes. Navyše bol prispôsobený na riešenie širokého spektra problémov. V prvom rade ide o rozbor kategorických údajov, t.j. tie, ktoré sú vyjadrené nie kvantitou, ale príslušnosťou k nejakej kategórii. Napríklad trieda auta, pohlavie účastníka experimentu, druh rastliny atď. Na takéto údaje nie je možné použiť matematické operácie ako sčítanie a násobenie, možno pre ne vypočítať iba frekvencie.

Pozorované frekvencie označujeme O (pozorované), očakávané – E (očakávané). Ako príklad si vezmime výsledok hodenia kockou 60-krát. Ak je symetrický a jednotný, pravdepodobnosť získania ktorejkoľvek strany je 1/6, a preto očakávaný počet získania každej strany je 10 (1/6∙60). Pozorované a očakávané frekvencie zapíšeme do tabuľky a nakreslíme histogram.

Nulová hypotéza je, že frekvencie sú konzistentné, to znamená, že skutočné údaje nie sú v rozpore s očakávanými údajmi. Alternatívnou hypotézou je, že odchýlky vo frekvenciách presahujú náhodné výkyvy, odchýlky sú štatisticky významné. Na vyvodenie rigorózneho záveru potrebujeme.

  1. Súhrnná miera nesúladu medzi pozorovanými a očakávanými frekvenciami.
  2. Rozdelenie tejto miery, ak je pravdivá hypotéza, že neexistujú žiadne rozdiely.

Začnime vzdialenosťou medzi frekvenciami. Ak len vezmete rozdiel O - E, potom bude takéto meranie závisieť od rozsahu údajov (frekvencií). Napríklad 20 - 5 = 15 a 1020 - 1005 = 15. V oboch prípadoch je rozdiel 15. Ale v prvom prípade sú očakávané frekvencie 3-krát menšie ako pozorované a v druhom prípade - iba 1,5 %. Potrebujeme relatívnu mieru, ktorá nezávisí od rozsahu.

Venujme pozornosť nasledujúcim skutočnostiam. Vo všeobecnosti môže byť počet kategórií, do ktorých sa merajú frekvencie, oveľa väčší, takže pravdepodobnosť, že jedno pozorovanie bude spadať do tej či onej kategórie, je dosť malá. Ak áno, potom sa rozdelenie takejto náhodnej premennej bude riadiť zákonom o vzácnych udalostiach, tzv Poissonov zákon. V Poissonovom zákone, ako je známe, sa hodnota matematického očakávania a rozptylu zhodujú (parameter λ ). To znamená, že očakávaná frekvencia pre niektorú kategóriu nominálnej premennej E i bude simultánny a jeho rozptyl. Ďalej, Poissonov zákon má tendenciu byť normálny pri veľkom počte pozorovaní. Kombináciou týchto dvoch faktov dostaneme, že ak je hypotéza o zhode medzi pozorovanými a očakávanými frekvenciami správna, potom s veľkým počtom pozorovaní, výraz

Je dôležité mať na pamäti, že normálnosť sa objaví iba pri dostatočne vysokých frekvenciách. V štatistike sa všeobecne uznáva, že celkový počet pozorovaní (súčet frekvencií) musí byť aspoň 50 a očakávaná frekvencia v každej gradácii musí byť aspoň 5. Iba v tomto prípade má vyššie uvedená hodnota štandardné normálne rozdelenie . Predpokladajme, že táto podmienka je splnená.

Štandardné normálne rozdelenie má takmer všetky hodnoty v rozmedzí ±3 (pravidlo troch sigma). Takto sme získali relatívny rozdiel vo frekvenciách pre jednu gradáciu. Potrebujeme zovšeobecniteľné opatrenie. Nemôžete len spočítať všetky odchýlky - dostaneme 0 (hádajte prečo). Pearson navrhol sčítať štvorce týchto odchýlok.

Toto je znamenie Chí-kvadrát test Pearson. Ak frekvencie skutočne zodpovedajú očakávaným, potom bude hodnota kritéria relatívne malá (keďže väčšina odchýlok je okolo nuly). Ak sa však ukáže, že kritérium je veľké, znamená to významné rozdiely medzi frekvenciami.

Pearsonovo kritérium sa stáva „veľkým“, keď sa výskyt takejto alebo ešte väčšej hodnoty stane nepravdepodobným. A na výpočet takejto pravdepodobnosti je potrebné poznať rozdelenie kritéria pri mnohonásobnom opakovaní experimentu, kedy je hypotéza frekvenčnej zhody správna.

Ako je ľahké vidieť, hodnota chí-kvadrát závisí aj od počtu výrazov. Čím viac ich je, tým väčšiu hodnotu by kritérium malo mať, pretože každý výraz prispeje k celkovému výsledku. Preto pre každé množstvo nezávislý podmienok bude vlastná distribúcia. Ukazuje sa, že χ 2 je celá rodina distribúcií.

A tu sa dostávame k jednej chúlostivej chvíli. Čo je to číslo nezávislý podmienky? Zdá sa, že každý termín (t. j. odchýlka) je nezávislý. Myslel si to aj K. Pearson, no ukázalo sa, že sa mýlil. V skutočnosti bude počet nezávislých členov o jeden menší ako počet gradácií nominálnej premennej n. prečo? Pretože ak máme vzorku, pre ktorú je už vypočítaný súčet frekvencií, tak jedna z frekvencií môže byť vždy určená ako rozdiel medzi celkovým počtom a súčtom všetkých ostatných. Preto bude variácia o niečo menšia. Ronald Fisher si túto skutočnosť všimol 20 rokov po tom, čo Pearson vyvinul svoje kritérium. Dokonca aj stoly museli byť prerobené.

Pri tejto príležitosti Fisher zaviedol do štatistiky nový pojem - stupeň voľnosti(stupne voľnosti), čo predstavuje počet nezávislých členov v súčte. Pojem stupňov voľnosti má matematické vysvetlenie a objavuje sa len v distribúciách spojených s normálom (Student's, Fisher-Snedecor a samotná chí-kvadrát).

Aby sme lepšie pochopili význam stupňov voľnosti, obráťme sa na fyzikálny analóg. Predstavme si bod, ktorý sa voľne pohybuje v priestore. Má 3 stupne voľnosti, pretože sa môže pohybovať v ľubovoľnom smere v trojrozmernom priestore. Ak sa bod pohybuje pozdĺž akéhokoľvek povrchu, potom už má dva stupne voľnosti (tam a späť, vľavo a vpravo), hoci sa naďalej nachádza v trojrozmernom priestore. Bod pohybujúci sa pozdĺž pružiny je opäť v trojrozmernom priestore, ale má len jeden stupeň voľnosti, pretože sa môže pohybovať dopredu alebo dozadu. Ako vidíte, priestor, kde sa objekt nachádza, nie vždy zodpovedá skutočnej slobode pohybu.

Približne rovnakým spôsobom môže rozdelenie štatistického kritéria závisieť od menšieho počtu prvkov, ako sú výrazy potrebné na jeho výpočet. Vo všeobecnosti je počet stupňov voľnosti menší ako počet pozorovaní o počet existujúcich závislostí.

Takže rozdelenie chi kvadrát ( χ 2) je rodina rozdelení, z ktorých každé závisí od parametra stupňov voľnosti. A formálna definícia chí-kvadrát testu je nasledovná. Distribúcia χ 2(chí-kvadrát) s k stupňa voľnosti je rozdelenie súčtu štvorcov k nezávislé štandardné normálne náhodné premenné.

Ďalej by sme mohli prejsť k samotnému vzorcu, podľa ktorého sa počíta funkcia rozdelenia chí-kvadrát, ale našťastie je už dávno všetko vypočítané za nás. Na získanie pravdepodobnosti záujmu môžete použiť buď príslušnú štatistickú tabuľku alebo hotovú funkciu v Exceli.

Je zaujímavé sledovať, ako sa mení tvar rozdelenia chí-kvadrát v závislosti od počtu stupňov voľnosti.

S rastúcimi stupňami voľnosti je rozdelenie chí-kvadrát normálne. Vysvetľuje sa to pôsobením centrálnej limitnej vety, podľa ktorej má súčet veľkého počtu nezávislých náhodných premenných normálne rozdelenie. Nehovorí nič o štvorcoch)).

Testovanie hypotézy pomocou Pearsonovho chí-kvadrát testu

Teraz sa dostávame k testovaniu hypotéz pomocou metódy chí-kvadrát. Vo všeobecnosti zostáva technológia. Nulová hypotéza je, že pozorované frekvencie zodpovedajú očakávaným (t. j. nie je medzi nimi rozdiel, pretože sú prevzaté z rovnakej populácie). Ak je to tak, potom bude rozptyl relatívne malý v medziach náhodných výkyvov. Miera disperzie sa stanoví pomocou chí-kvadrát testu. Ďalej sa buď porovnáva samotné kritérium s kritickou hodnotou (pre zodpovedajúcu hladinu významnosti a stupňa voľnosti), alebo, čo je správnejšie, vypočíta sa pozorovaná p-hodnota, t.j. pravdepodobnosť získania rovnakej alebo dokonca vyššej hodnoty kritéria, ak je pravdivá nulová hypotéza.

Pretože nás zaujíma zhoda frekvencií, potom bude hypotéza zamietnutá, keď je kritérium väčšie ako kritická úroveň. Tie. kritérium je jednostranné. Niekedy (niekedy) je však potrebné otestovať hypotézu ľavej ruky. Napríklad, keď sú empirické údaje veľmi podobné teoretickým údajom. Potom môže kritérium spadať do nepravdepodobnej oblasti, ale vľavo. Faktom je, že v prirodzených podmienkach je nepravdepodobné, že by sa získali frekvencie, ktoré by sa prakticky zhodovali s teoretickými. Vždy existuje nejaká náhoda, ktorá spôsobuje chybu. Ak však takáto chyba neexistuje, možno boli údaje sfalšované. Ale napriek tomu sa zvyčajne testuje pravostranná hypotéza.

Vráťme sa k problému s kockami. Vypočítajme hodnotu chí-kvadrát testu pomocou dostupných údajov.

Teraz nájdime kritickú hodnotu pri 5 stupňoch voľnosti ( k) a hladina významnosti 0,05 ( α ) podľa tabuľky kritických hodnôt rozdelenia chí-kvadrát.

To znamená, že kvantil 0,05 je rozdelenie chí-kvadrát (pravý koniec) s 5 stupňami voľnosti x2 0,05; 5 = 11,1.

Porovnajme skutočné a tabuľkové hodnoty. 3,4 ( χ 2) < 11,1 (x2 0,05; 5). Vypočítané kritérium sa ukázalo byť menšie, čo znamená, že hypotéza rovnosti (zhody) frekvencií nie je zamietnutá. Na obrázku vyzerá situácia takto.

Ak by vypočítaná hodnota spadala do kritickej oblasti, nulová hypotéza by bola zamietnutá.

Správnejšie by bolo vypočítať aj p-hodnotu. Aby ste to dosiahli, musíte v tabuľke nájsť najbližšiu hodnotu pre daný počet stupňov voľnosti a pozrieť sa na zodpovedajúcu hladinu významnosti. Ale toto je minulé storočie. Budeme používať počítač, najmä MS Excel. Excel má niekoľko funkcií súvisiacich s chí-kvadrátom.

Nižšie je ich stručný popis.

CH2.OBR– kritická hodnota kritéria pri danej pravdepodobnosti vľavo (ako v štatistických tabuľkách)

CH2.OBR.PH– kritická hodnota kritéria pre danú pravdepodobnosť vpravo. Funkcia v podstate duplikuje predchádzajúcu. Ale tu môžete okamžite uviesť úroveň α , namiesto odčítania od 1. Je to pohodlnejšie, pretože vo väčšine prípadov je potrebný pravý koniec distribúcie.

CH2.DIST– p-hodnota vľavo (hustota sa dá vypočítať).

CH2.DIST.PH– p-hodnota vpravo.

CHI2.TEST– okamžite vykoná chí-kvadrát test pre dva frekvenčné rozsahy. Počet stupňov voľnosti sa považuje za jeden menší ako počet frekvencií v stĺpci (ako by mal byť), čím sa vráti p-hodnota.

Vypočítajme pre náš experiment kritickú (tabuľkovú) hodnotu pre 5 stupňov voľnosti a alfa 0,05. Vzorec programu Excel bude vyzerať takto:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Výsledok bude rovnaký – 11,0705. Toto je hodnota, ktorú vidíme v tabuľke (zaokrúhlená na 1 desatinné miesto).

Vypočítajme nakoniec p-hodnotu pre kritérium 5 stupňov voľnosti χ 2= 3,4. Potrebujeme pravdepodobnosť napravo, takže vezmeme funkciu s pridaním HH (pravý chvost)

CH2.DIST.PH(3,4;5) = 0,63857

To znamená, že pri 5 stupňoch voľnosti je pravdepodobnosť získania hodnoty kritéria χ 2= 3,4 a viac sa rovná takmer 64 %. Prirodzene, hypotéza nie je zamietnutá (p-hodnota je väčšia ako 5%), frekvencie sú vo veľmi dobrej zhode.

Teraz si overme hypotézu o zhode frekvencií pomocou chí-kvadrát testu a Excel funkcie CHI2.TEST.

Žiadne tabuľky, žiadne ťažkopádne výpočty. Zadaním stĺpcov s pozorovanými a očakávanými frekvenciami ako argumentov funkcie okamžite získame p-hodnotu. Krása.

Teraz si predstavte, že hráte kocky s podozrivým chlapíkom. Rozdelenie bodov od 1 do 5 zostáva rovnaké, ale hodí 26 šestiek (celkový počet hodov je 78).

P-hodnota sa v tomto prípade ukáže ako 0,003, čo je oveľa menej ako 0,05. Existujú dobré dôvody pochybovať o platnosti kocky. Tu je návod, ako táto pravdepodobnosť vyzerá na grafe rozdelenia chí-kvadrát.

Samotné kritérium chí-kvadrát sa tu ukazuje ako 17,8, čo je prirodzene väčšie ako tabuľkové (11,1).

Dúfam, že sa mi podarilo vysvetliť, čo je kritériom dohody χ 2(Pearson chi-square) a ako sa dá použiť na testovanie štatistických hypotéz.

Na záver ešte raz o dôležitej podmienke! Chí-kvadrát test funguje správne iba vtedy, keď počet všetkých frekvencií presiahne 50 a minimálna očakávaná hodnota pre každú gradáciu nie je menšia ako 5. Ak je v niektorej kategórii očakávaná frekvencia menšia ako 5, ale súčet všetkých frekvencií presahuje 50, potom sa taká kategória skombinuje s najbližšou tak, aby ich celková frekvencia prekročila 5. Ak to nie je možné, alebo súčet frekvencií je menší ako 50, treba použiť presnejšie metódy testovania hypotéz. O nich si povieme inokedy.

Nižšie je video o tom, ako testovať hypotézu v Exceli pomocou testu chí-kvadrát.

Kvantitatívne štúdium biologických javov si nevyhnutne vyžaduje vytvorenie hypotéz, pomocou ktorých sa tieto javy vysvetlia. Na overenie konkrétnej hypotézy sa vykoná séria špeciálnych experimentov a skutočné získané údaje sa porovnajú s údajmi teoreticky očakávanými podľa tejto hypotézy. Ak existuje zhoda okolností, môže to byť dostatočný dôvod na prijatie hypotézy. Ak sa experimentálne údaje nezhodujú s teoreticky očakávanými údajmi, vzniká veľká pochybnosť o správnosti navrhovanej hypotézy.

Miera, do akej skutočné údaje zodpovedajú očakávaným (hypotetickým), sa meria testom chí-kvadrát:

- skutočná pozorovaná hodnota charakteristiky v ja-že; teoreticky očakávaný počet alebo znak (indikátor) pre danú skupinu, k-počet skupín údajov.

Kritérium navrhol K. Pearson v roku 1900 a niekedy sa nazýva aj Pearsonovo kritérium.

Úloha. Medzi 164 deťmi, ktoré zdedili faktor od jedného rodiča a faktor od druhého, bolo 46 detí s faktorom, 50 s faktorom, 68 s oboma. Vypočítajte očakávané frekvencie pre pomer 1:2:1 medzi skupinami a určte stupeň zhody empirických údajov pomocou Pearsonovho testu.

Riešenie: Pomer pozorovaných frekvencií je 46:68:50, teoreticky predpokladaný 41:82:41.

Nastavme hladinu významnosti na 0,05. Tabuľková hodnota Pearsonovho kritéria pre túto hladinu významnosti pri rovnakom počte stupňov voľnosti vyšla na 5,99. Preto je možné prijať hypotézu o zhode experimentálnych údajov s teoretickými údajmi, pretože .

Všimnite si, že pri výpočte chí-kvadrát testu už nekladieme podmienky pre nevyhnutnú normalitu rozdelenia. Chí-kvadrát test možno použiť pre akékoľvek distribúcie, ktoré si môžeme slobodne zvoliť v našich predpokladoch. Toto kritérium má určitú univerzálnosť.

Ďalšou aplikáciou Pearsonovho testu je porovnanie empirického rozdelenia s Gaussovým normálnym rozdelením. Okrem toho ho možno klasifikovať ako skupinu kritérií na kontrolu normality rozdelenia. Jediným obmedzením je skutočnosť, že celkový počet hodnôt (možností) pri použití tohto kritéria musí byť dostatočne veľký (aspoň 40) a počet hodnôt v jednotlivých triedach (intervaloch) musí byť aspoň 5. V opačnom prípade by sa susedné intervaly mali kombinovať. Počet stupňov voľnosti pri kontrole normality rozdelenia by sa mal vypočítať ako:.

    1. Fisherovo kritérium.

Tento parametrický test sa používa na testovanie nulovej hypotézy, že rozptyly normálne rozdelených populácií sú rovnaké.

Alebo.

Pri malých veľkostiach vzoriek môže byť použitie Študentovho testu správne iba vtedy, ak sú odchýlky rovnaké. Preto pred testovaním rovnosti priemerov vzorky je potrebné zabezpečiť validitu použitia Studentovho t testu.

Kde N 1 , N 2 veľkosti vzoriek, 1 , 2 počet stupňov voľnosti pre tieto vzorky.

Pri používaní tabuliek by ste mali venovať pozornosť tomu, že počet stupňov voľnosti pre vzorku s väčšou disperziou je zvolený ako číslo stĺpca tabuľky a pre menšiu disperziu ako číslo riadku tabuľky.

Pre hladinu významnosti  nájdeme tabuľkovú hodnotu z tabuliek matematickej štatistiky. Ak, potom sa hypotéza o rovnosti rozptylov pre zvolenú hladinu významnosti zamietne.

Príklad.Študoval sa vplyv kobaltu na telesnú hmotnosť králikov. Experiment sa uskutočnil na dvoch skupinách zvierat: experimentálnej a kontrolnej. Pokusné osoby dostávali doplnok stravy vo forme vodného roztoku chloridu kobaltnatého. Počas experimentu bol prírastok hmotnosti v gramoch:

Kontrola

Pearsonov test dobrej zhody:

Otestujte hypotézu normálneho rozdelenia pomocou Pearsonovho testu. Hladina významnosti α=0,05. Rozdeľte údaje do 6 intervalov.

Riešenie nájsť pomocou kalkulačky. Šírka intervalu bude:

Xmax je maximálna hodnota zoskupovacej charakteristiky v súhrne.
Xmin je minimálna hodnota charakteristiky zoskupenia.
Definujme hranice skupiny.

Číslo skupinySpodná čiaraHorná hranica
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Rovnaká hodnota atribútu slúži ako horná a dolná hranica dvoch susedných (predchádzajúce a nasledujúce) skupiny.
Pre každú hodnotu radu počítame, koľkokrát spadá do určitého intervalu. Aby sme to dosiahli, zoradíme série vzostupne.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6
Výsledky zoskupenia uvedieme vo forme tabuľky:
skupinyZbierka č.Frekvencia fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6
skupinyx iMnožstvo, f ix i * f iAkumulovaná frekvencia, S|x - x av |*f(x - x priemer) 2 *fFrekvencia, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Na vyhodnotenie distribučných radov nájdeme tieto ukazovatele:
.
Vážený priemer


Móda
Režim je najbežnejšia hodnota charakteristiky medzi jednotkami danej populácie.

kde x 0 je začiatok modálneho intervalu; h – intervalová hodnota; f 2 – frekvencia zodpovedajúca modálnemu intervalu; f 1 – premodálna frekvencia; f 3 – postmodálna frekvencia.
Ako začiatok intervalu zvolíme 51,49, pretože práve tento interval predstavuje najväčšie číslo.

Najbežnejšia hodnota série je 52,8
Medián
Medián rozdeľuje vzorku na dve časti: polovica je menšia ako medián, polovica je viac.
V sérii intervalového rozdelenia môžete okamžite určiť iba interval, v ktorom sa bude nachádzať režim alebo medián. Medián zodpovedá opcii v strede hodnotenej série. Medián je interval 51,49 - 54,32, pretože v tomto intervale je akumulovaná frekvencia S väčšia ako stredné číslo (medián je prvý interval, ktorého akumulovaná frekvencia S presahuje polovicu celkového súčtu frekvencií).


Teda 50 % jednotiek v populácii bude mať menšiu magnitúdu ako 53,06
Variačné ukazovatele.
Absolútne ukazovatele variácie.

R = X max - X min
R = 60 - 43 = 17
Priemerná lineárna odchýlka – vypočítaná s cieľom zohľadniť rozdiely všetkých jednotiek skúmanej populácie.


Každá hodnota série sa od druhej líši najviac o 2,3
Disperzia - charakterizuje mieru disperzie okolo jej priemernej hodnoty (miera disperzie, t.j. odchýlka od priemeru).


Nestranný odhad rozptylu je konzistentný odhad rozptylu.


Smerodajná odchýlka.

Každá hodnota série sa líši od priemernej hodnoty 53,3 najviac o 3,21
Odhad štandardnej odchýlky.

Miery relatívnych variácií.
Relatívne ukazovatele variácie zahŕňajú: koeficient oscilácie, lineárny koeficient variácie, relatívna lineárna odchýlka.
Variačný koeficient je mierou relatívneho rozptylu hodnôt populácie: ukazuje, aký podiel priemernej hodnoty tejto hodnoty tvorí jej priemerné rozpätie.

Keďže v ≤ 30 %, populácia je homogénna a variácie sú slabé. Získaným výsledkom sa dá dôverovať.
Lineárny variačný koeficient alebo Relatívna lineárna odchýlka - charakterizuje podiel priemernej hodnoty znamienka absolútnych odchýlok od priemernej hodnoty.

.
1. Overme si hypotézu, že X je normálne rozdelené pomocou Pearsonovho testu dobrej zhody.

kde p i je pravdepodobnosť pádu do i-tého intervalu náhodnej premennej rozloženej podľa hypotetického zákona
Na výpočet pravdepodobností p i použijeme vzorec a tabuľku Laplaceovej funkcie

kde s = 3,21, x av = 53,3
Teoretická (očakávaná) frekvencia je n i = np i , kde n = 36

Zoskupovacie intervalyPozorovaná frekvencia n ixi = (xi-x)/sx2 = (xi+1-x)/sF(x 1)F(x 2)Pravdepodobnosť vstupu do i-tého intervalu, p i = Ф(x 2) - Ф(x 1)Očakávaná frekvencia, 36p iPearsonove štatistické termíny, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84



Jeho hranica K kp = χ 2 (k-r-1;α) sa zistí z distribučných tabuliek χ 2 a dané hodnoty s, k (počet intervalov), r=2 (parametre x cp a s sú odhadnuté z vzorka).
Kkp = 7,81473; Knabl = 9,84
Pozorovaná hodnota Pearsonovej štatistiky spadá do kritickej oblasti: Knable > nie podla normalneho zakona.


Príklad č.2. Pomocou Pearsonovho testu na hladine významnosti 0,05 skontrolujte, či je hypotéza o normálnom rozdelení populácie X v súlade s empirickým rozdelením veľkosti vzorky n = 200.

Riešenie nájsť pomocou kalkulačky.
Tabuľka na výpočet ukazovateľov.

x iMnožstvo, f ix i f iAkumulovaná frekvencia, S(x-x) f(x-x) 2 f(x-x) 3 fFrekvencia, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1
Indikátory distribučného centra.
Vážený priemer


Variačné ukazovatele.
.
Rozsah variácie je rozdiel medzi maximálnymi a minimálnymi hodnotami primárnej sériovej charakteristiky.
R = X max - X min
R = 21 - 5 = 16
Disperzia- charakterizuje mieru rozptylu okolo svojej priemernej hodnoty (miera rozptylu, t.j. odchýlka od priemeru).


Nestranný odhad rozptylu- konzistentný odhad rozptylu.


Smerodajná odchýlka.

Každá hodnota série sa líši od priemernej hodnoty 12,63 najviac o 4,7
Odhad štandardnej odchýlky.

Testovanie hypotéz o type distribúcie.
1. Overme si hypotézu, že X je rozložené cez normálny zákon pomocou Pearsonovho testu dobrej zhody.

kde n* i sú teoretické frekvencie:

Vypočítajme teoretické frekvencie, berúc do úvahy, že:
n = 200, h = 2 (šírka intervalu), σ = 4,7, x av = 12,63
ix iu iφ in*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Porovnajme empirické a teoretické frekvencie. Vytvorme si výpočtovú tabuľku, z ktorej zistíme pozorovanú hodnotu kritéria:
Χ 2 =
in in*in i -n* i(n i - n* i) 2(nj-n*i)2/n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86
Určme hranicu kritickej oblasti. Keďže Pearsonova štatistika meria rozdiel medzi empirickým a teoretickým rozdelením, čím väčšia je jej pozorovaná hodnota K obs, tým silnejší je argument proti hlavnej hypotéze.
Preto je kritická oblasť pre tieto štatistiky vždy pravák :)

Podobné články