Pearson-kritérium egy valószínűségi változó eloszlási törvényének formájára vonatkozó hipotézis tesztelésére. Kolmogorov-kritérium

A 19. század végéig a normál eloszlást tekintették az adatok univerzális variációs törvényének. K. Pearson azonban megjegyezte, hogy az empirikus frekvenciák nagymértékben eltérhetnek a normál eloszlástól. Felmerült a kérdés, hogyan lehet ezt bizonyítani. Nemcsak grafikus összehasonlításra volt szükség, ami szubjektív, hanem szigorú mennyiségi indoklásra is.

Így találták ki a kritériumot χ 2(chi-négyzet), amely az empirikus (megfigyelt) és az elméleti (várható) gyakoriságok közötti eltérés jelentőségét teszteli. Ez még 1900-ban történt, de a kritérium ma is használatos. Ezenkívül számos probléma megoldására lett adaptálva. Először is ez a kategorikus adatok elemzése, azaz. azokat, amelyeket nem a mennyiség, hanem a valamilyen kategóriába való tartozás fejez ki. Például az autó osztálya, a kísérletben résztvevő neme, a növény típusa stb. Matematikai műveletek, mint az összeadás és a szorzás, nem alkalmazhatók ilyen adatokra, ezekre csak a gyakoriság számítható.

Jelöljük a megfigyelt frekvenciákat Névjegy (megfigyelt), várt - E (várható). Példaként vegyük a kocka 60-szoros dobásának eredményét. Ha szimmetrikus és egyenletes, akkor annak a valószínűsége, hogy bármelyik oldalt megkapjuk, 1/6, ezért az egyes oldalak megszerzésének várható száma 10 (1/6∙60). A megfigyelt és a várt gyakoriságokat táblázatba írjuk és hisztogramot rajzolunk.

A nullhipotézis az, hogy a gyakoriságok konzisztensek, vagyis a tényleges adatok nem mondanak ellent a várt adatoknak. Alternatív hipotézis, hogy a gyakorisági eltérések túlmutatnak a véletlenszerű ingadozásokon, az eltérések statisztikailag szignifikánsak. Ahhoz, hogy szigorú következtetést vonjunk le, szükségünk van.

  1. A megfigyelt és a várt gyakoriságok közötti eltérés összefoglaló mértéke.
  2. Ennek a mértéknek az eloszlása, ha igaz az a hipotézis, hogy nincsenek különbségek.

Kezdjük a frekvenciák közötti távolsággal. Ha csak veszed a különbséget O-E, akkor egy ilyen mérték az adatok skálájától (gyakoriságától) függ. Például 20 - 5 = 15 és 1020 - 1005 = 15. A különbség mindkét esetben 15. De az első esetben a várható gyakoriságok 3-szor kisebbek, mint a megfigyeltek, a második esetben pedig csak 1,5 %. Szükségünk van egy relatív mértékre, amely nem függ a léptéktől.

Figyeljünk a következő tényekre. Általánosságban elmondható, hogy azoknak a kategóriáknak a száma, amelyekbe a frekvenciákat mérik, sokkal nagyobb lehet, így meglehetősen kicsi annak a valószínűsége, hogy egyetlen megfigyelés valamelyik kategóriába kerüljön. Ha igen, akkor egy ilyen valószínűségi változó eloszlása ​​megfelel a ritka események törvényének, az úgynevezett Poisson törvénye. A Poisson-törvényben, mint ismeretes, a matematikai elvárás és a variancia értéke egybeesik (paraméter λ ). Ez azt jelenti, hogy a várható gyakoriság a névleges változó valamely kategóriájára vonatkozóan E i egyidejű lesz és annak szóródása. Ezen túlmenően a Poisson-törvény általában normális, sok megfigyelés esetén. E két tényt kombinálva azt kapjuk, hogy ha a megfigyelt és a várt gyakoriságok közötti egyezésre vonatkozó hipotézis helyes, akkor nagyszámú megfigyeléssel, kifejezés

Fontos megjegyezni, hogy a normalitás csak kellően magas frekvencián jelenik meg. A statisztikában általánosan elfogadott, hogy a megfigyelések teljes számának (a gyakoriságok összegének) legalább 50-nek kell lennie, és a várható gyakoriságnak minden fokozatban legalább 5-nek kell lennie. Csak ebben az esetben a fent látható érték szabványos normális eloszlású. . Tegyük fel, hogy ez a feltétel teljesül.

A normál normál eloszlásnak szinte minden értéke ±3-on belül van (a három szigma szabály). Így megkaptuk a gyakoriságok relatív különbségét egy gradációra. Egy általánosítható mértékre van szükségünk. Nem lehet csak összeadni az összes eltérést – 0-t kapunk (találd ki, miért). Pearson javasolta ezen eltérések négyzeteinek összeadását.

Ez a jel Khi-négyzet teszt Pearson. Ha a gyakoriságok valóban megfelelnek a vártnak, akkor a kritérium értéke viszonylag kicsi lesz (mivel a legtöbb eltérés nulla körül van). De ha a kritérium nagynak bizonyul, akkor ez jelentős különbségeket jelez a frekvenciák között.

A Pearson-kritérium akkor válik „nagy”-vá, ha ilyen vagy még nagyobb érték előfordulása valószínűtlenné válik. És egy ilyen valószínűség kiszámításához ismerni kell a kritérium eloszlását, amikor a kísérletet sokszor megismétlik, amikor a gyakorisági egyezés hipotézise helyes.

Amint az könnyen belátható, a khi-négyzet értéke a tagok számától is függ. Minél többen vannak, annál nagyobb értékkel kell rendelkeznie a feltételnek, mert minden tag hozzá fog járulni az összeghez. Ezért minden mennyiségre független feltételekkel, lesz saját terjesztése. Kiderült, hogy χ 2 disztribúciók egész családja.

És elérkeztünk egy kényes pillanathoz. Mi az a szám független feltételek? Úgy tűnik, hogy minden kifejezés (azaz eltérés) független. K. Pearson is így gondolta, de kiderült, hogy tévedett. Valójában a független tagok száma eggyel kevesebb lesz, mint a nominális változó gradációinak száma n. Miért? Mert ha van egy mintánk, amelyre a gyakoriságok összegét már kiszámoltuk, akkor az egyik gyakoriság mindig meghatározható a teljes szám és az összes többi összege közötti különbségként. Így a szórás valamivel kisebb lesz. Ronald Fisher 20 évvel azután vette észre ezt a tényt, hogy Pearson kidolgozta a kritériumát. Még az asztalokat is újra kellett készíteni.

Ebből az alkalomból Fisher egy új fogalmat vezetett be a statisztikába - a szabadság foka(szabadságfok), amely a független tagok számát jelenti az összegben. A szabadságfok fogalmának matematikai magyarázata van, és csak a normálhoz kapcsolódó eloszlásokban jelenik meg (Student, Fisher-Snedecor és maga a khi-négyzet).

Hogy jobban megértsük a szabadsági fokok jelentését, forduljunk egy fizikai analóghoz. Képzeljünk el egy pontot, amely szabadon mozog a térben. 3 szabadságfoka van, mert a háromdimenziós térben bármilyen irányba mozoghat. Ha egy pont bármely felület mentén mozog, akkor már két szabadságfoka van (oda-hátra, balra és jobbra), bár továbbra is háromdimenziós térben van. Egy rugó mentén mozgó pont ismét háromdimenziós térben van, de csak egy szabadságfokkal rendelkezik, mert előre vagy hátra mozoghat. Mint látható, az a tér, ahol az objektum található, nem mindig felel meg a valódi mozgásszabadságnak.

Körülbelül ugyanígy előfordulhat, hogy egy statisztikai ismérv megoszlása ​​kisebb számú elemtől is függ, mint amennyi a kiszámításához szükséges tagok száma. Általában a szabadsági fokok száma kevesebb, mint a megfigyelések száma a meglévő függőségek számával.

Így a chi-négyzet eloszlás ( χ 2) eloszlások családja, amelyek mindegyike a szabadsági fok paramétereitől függ. A khi-négyzet próba formális definíciója pedig a következő. terjesztés χ 2(khi-négyzet) s k szabadsági fok a négyzetösszeg eloszlása k független standard normál valószínűségi változók.

Ezután áttérhetnénk magára a képletre, amellyel a khi-négyzet eloszlásfüggvényt számítjuk, de szerencsére már régen mindent kiszámoltak nekünk. Az érdeklődés valószínűségének meghatározásához használhatja a megfelelő statisztikai táblázatot vagy egy kész függvényt az Excelben.

Érdekes látni, hogyan változik a khi-négyzet eloszlás alakja a szabadságfokok számától függően.

A szabadságfok növekedésével a khi-négyzet eloszlás általában normális. Ezt magyarázza a centrális határeloszlás tétele, amely szerint nagyszámú független valószínűségi változó összege normális eloszlású. Nem mond semmit a négyzetekről)).

A hipotézis tesztelése Pearson khi-négyzet próbával

Most elérkezünk a hipotézisek khi-négyzet módszerrel történő teszteléséhez. Általában a technológia marad. A nullhipotézis az, hogy a megfigyelt gyakoriságok megfelelnek a várt gyakoriságoknak (azaz nincs különbség köztük, mert ugyanabból a sokaságból származnak). Ha ez így van, akkor a szórás viszonylag kicsi lesz, a véletlenszerű ingadozások határain belül. A diszperzió mértékét a khi-négyzet teszt segítségével határozzuk meg. Ezután vagy magát a kritériumot hasonlítjuk össze a kritikus értékkel (a megfelelő szignifikanciaszintre és szabadsági fokra), vagy ami még helyesebb, kiszámítjuk a megfigyelt p-értéket, pl. annak a valószínűsége, hogy azonos vagy még nagyobb kritériumértéket kapunk, ha igaz a nullhipotézis.

Mert a frekvenciák egyezése érdekel, akkor a hipotézist elvetjük, ha a kritérium nagyobb, mint a kritikus szint. Azok. a kritérium egyoldalú. Néha (néha) azonban szükséges a bal oldali hipotézis tesztelése. Például amikor az empirikus adatok nagyon hasonlítanak az elméleti adatokhoz. Ekkor a kritérium egy valószínűtlen tartományba eshet, de a bal oldalon. Az a tény, hogy természetes körülmények között valószínűtlen, hogy olyan frekvenciákat kapjunk, amelyek gyakorlatilag egybeesnek az elméletivel. Mindig van valami véletlenszerűség, ami hibát okoz. De ha nincs ilyen hiba, akkor talán meghamisították az adatokat. De ennek ellenére a jobb oldali hipotézist általában tesztelik.

Térjünk vissza a kockaproblémához. Számítsuk ki a rendelkezésre álló adatok felhasználásával a khi-négyzet próba értékét.

Most keressük meg a kritikus értéket 5 szabadságfoknál ( k) és szignifikancia szint 0,05 ( α ) a chi-négyzet eloszlás kritikus értékeinek táblázata szerint.

Vagyis a 0,05-ös kvantilis egy chi négyzetes eloszlás (jobb farok), 5 szabadságfokkal χ 2 0,05; 5 = 11,1.

Hasonlítsuk össze a tényleges és a táblázatos értékeket. 3,4 ( χ 2) < 11,1 (χ 2 0,05; 5). A számított kritérium kisebbnek bizonyult, ami azt jelenti, hogy a gyakoriságok egyenlőségének (egyezésének) hipotézisét nem utasítják el. Az ábrán a helyzet így néz ki.

Ha a számított érték a kritikus tartományba esne, a nullhipotézist elvetjük.

Helyesebb lenne a p-értéket is kiszámítani. Ehhez meg kell találni a táblázatban a legközelebbi értéket adott számú szabadsági fokhoz, és meg kell nézni a megfelelő szignifikancia szintet. De ez a múlt század. Számítógépet fogunk használni, különösen MS Excelt. Az Excelnek számos, a chi-négyzethez kapcsolódó függvénye van.

Az alábbiakban rövid leírásuk olvasható.

CH2.OBR– a kritérium kritikus értéke adott valószínűség mellett a bal oldalon (mint a statisztikai táblázatokban)

CH2.OBR.PH– a kritérium kritikus értéke adott valószínűséghez a jobb oldalon. A függvény lényegében megduplázza az előzőt. De itt azonnal jelezheti a szintet α , ahelyett, hogy kivonnánk 1-ből. Ez kényelmesebb, mert a legtöbb esetben a disztribúció jobb oldalára van szükség.

CH2.DIST– p-érték a bal oldalon (sűrűség számítható).

CH2.DIST.PH– p-érték a jobb oldalon.

CHI2.TESZT– azonnal elvégzi a khi-négyzet tesztet két frekvenciatartományra. A szabadsági fokok számát eggyel kisebbnek vesszük, mint az oszlopban lévő frekvenciák számát (ahogyan lennie kell), így p-értéket adunk vissza.

Számítsuk ki kísérletünkhöz a kritikus (táblázatos) értéket 5 szabadságfokra és alfa 0,05-re. Az Excel képlet így fog kinézni:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Az eredmény ugyanaz lesz - 11.0705. Ez az az érték, amelyet a táblázatban látunk (1 tizedesjegyre kerekítve).

Végezetül számítsuk ki az 5 szabadságfok kritérium p-értékét χ 2= 3.4. Szükségünk van a jobb oldali valószínűségre, ezért a függvényt HH (jobb farok) hozzáadásával vesszük fel.

CH2.DIST.PH(3,4;5) = 0,63857

Ez azt jelenti, hogy 5 szabadságfok mellett a kritériumérték megszerzésének valószínűsége az χ 2= 3,4 és több, majdnem 64%. Természetesen a hipotézist nem utasítják el (p-érték nagyobb, mint 5%), a gyakoriságok nagyon jó egyezést mutatnak.

Most nézzük meg a gyakoriságok egyezéséről szóló hipotézist a khi-négyzet teszt és a CHI2.TESZT Excel függvény segítségével.

Nincsenek táblázatok, nincsenek nehézkes számítások. Ha a megfigyelt és várt gyakoriságú oszlopokat függvényargumentumként adjuk meg, azonnal megkapjuk a p-értéket. Szépség.

Most képzeld el, hogy egy gyanús sráccal kockajátékot játszol. A pontok eloszlása ​​1-től 5-ig változatlan, de 26 hatost dob ​​(a dobások száma összesen 78 lesz).

A p-érték ebben az esetben 0,003-nak bizonyul, ami sokkal kisebb, mint 0,05. Jó okunk van kételkedni a kocka érvényességében. Így néz ki ez a valószínűség egy khi-négyzet eloszlási diagramon.

Maga a khi-négyzet kritérium itt 17,8-nak bizonyul, ami természetesen nagyobb, mint a táblázatban szereplő (11,1).

Remélem sikerült elmagyaráznom, mi az egyetértés kritériuma χ 2(Pearson khi-négyzet), és hogyan használható statisztikai hipotézisek tesztelésére.

Végül még egyszer egy fontos feltételről! A khi-négyzet teszt csak akkor működik megfelelően, ha az összes frekvencia száma meghaladja az 50-et, és az egyes fokozatok minimális várható értéke nem kevesebb, mint 5. Ha bármely kategóriában a várható gyakoriság kisebb, mint 5, de az összes frekvencia összege meghaladja az 5-öt. 50, akkor az ilyen kategóriát a legközelebbivel kombináljuk úgy, hogy összgyakorisága meghaladja az 5-öt. Ha ez nem lehetséges, vagy a gyakoriságok összege kisebb, mint 50, akkor pontosabb hipotézisvizsgálati módszereket kell alkalmazni. Majd máskor beszélünk róluk.

Az alábbiakban egy videót láthat arról, hogyan tesztelhet egy hipotézist Excelben a khi-négyzet teszt segítségével.

A biológiai jelenségek kvantitatív vizsgálata szükségszerűen megköveteli olyan hipotézisek felállítását, amelyekkel ezeket a jelenségeket megmagyarázzuk. Egy adott hipotézis teszteléséhez speciális kísérletek sorozatát hajtják végre, és a kapott tényleges adatokat összehasonlítják az e hipotézis szerint elméletileg várt adatokkal. Ha van egybeesés, ez elegendő ok lehet a hipotézis elfogadására. Ha a kísérleti adatok nem egyeznek jól az elméletileg várt adatokkal, nagy kétség merül fel a felállított hipotézis helyességével kapcsolatban.

Azt, hogy a tényleges adatok mennyire felelnek meg a vártnak (hipotetikusnak), a khi-négyzet teszttel mérjük:

- a jellemző tényleges megfigyelt értéke in én- hogy; egy adott csoportra elméletileg várható szám vagy jel (mutató), k-adatcsoportok száma.

A kritériumot K. Pearson javasolta 1900-ban, és néha Pearson-kritériumnak is nevezik.

Feladat. Az egyik szülőtől faktort, a másiktól faktort örökölt 164 gyermek között 46 faktoros, 50 faktoros, 68 mindkettőben szenvedő gyermek volt. Számítsa ki a várható gyakoriságokat a csoportok közötti 1:2:1 arányhoz, és határozza meg az empirikus adatok egyezési fokát a Pearson-próba segítségével.

Megoldás: A megfigyelt gyakoriságok aránya 46:68:50, elméletileg 41:82:41.

Állítsuk a szignifikanciaszintet 0,05-re. A Pearson-kritérium táblázatértéke erre a szignifikanciaszintre egyenlő szabadságfokszámmal 5,99 lett. Ezért a kísérleti adatok elméleti adatoknak való megfelelésére vonatkozó hipotézis elfogadható, mivel, .

Vegyük észre, hogy a khi-négyzet próba kiszámításakor már nem szabjuk meg az eloszlás nélkülözhetetlen normalitásának feltételeit. A khi-négyzet tesztet bármilyen eloszlásra használhatjuk, amelyet szabadon választhatunk a feltételezéseinkben. Ennek a kritériumnak van némi univerzalitása.

A Pearson-teszt másik alkalmazása az empirikus eloszlás összehasonlítása a Gauss-féle normális eloszlással. Sőt, az eloszlás normalitásának ellenőrzésére szolgáló kritériumok csoportjába sorolható. Az egyetlen korlátozás az a tény, hogy ennek a kritériumnak a használatakor az értékek (opciók) teljes számának elég nagynak kell lennie (legalább 40), és az értékek számának az egyes osztályokban (intervallumokban) legalább 5-nek kell lennie. Ellenkező esetben a szomszédos intervallumokat kombinálni kell. Az eloszlás normalitásának ellenőrzésekor a szabadságfokok számát a következőképpen kell kiszámítani:.

    1. Fisher-kritérium.

Ez a paraméteres teszt annak a nullhipotézisnek a tesztelésére szolgál, amely szerint a normál eloszlású populációk szórása egyenlő.

Vagy.

Kis mintaméretek esetén a Student-féle teszt használata csak akkor lehet helyes, ha az eltérések egyenlőek. Ezért a mintaátlagok egyenlőségének tesztelése előtt meg kell győződni a Student t teszt használatának érvényességéről.

Ahol N 1 , N 2 mintaméretek, 1 , 2 e minták szabadságfokainak száma.

Táblázatok használatakor ügyelni kell arra, hogy a nagyobb szórású mintánál a szabadságfok száma legyen a táblázat oszlopszáma, kisebb szórásnál pedig a táblázat sorszáma.

A  szignifikanciaszinthez a matematikai statisztika táblázataiból találjuk meg a táblázat értékét. Ha, akkor a varianciaegyenlőség hipotézisét a kiválasztott szignifikanciaszintre elvetjük.

Példa. Vizsgálták a kobalt hatását a nyulak testtömegére. A kísérletet két állatcsoporton végezték: kísérleti és kontrollállatokon. A kísérleti alanyok étrend-kiegészítőt kaptak kobalt-klorid vizes oldata formájában. A kísérlet során a súlygyarapodás grammban volt:

Ellenőrzés

Pearson alkalmassági teszt:

Tesztelje a normál eloszlás hipotézisét a Pearson-teszt segítségével. Szignifikancia szint α=0,05. Osszuk fel az adatokat 6 intervallumra.

Megoldás számológép segítségével találja meg. Az intervallum szélessége a következő lesz:

Xmax a csoportosítási jellemző maximális értéke az aggregátumban.
Xmin a csoportosítási jellemző minimális értéke.
Határozzuk meg a csoport határait.

CsoportszámA lényegFelső határ
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Ugyanaz az attribútumérték szolgál két szomszédos (előző és következő) csoport felső és alsó határaként.
A sorozat minden értékénél megszámoljuk, hogy hányszor esik egy adott intervallumba. Ehhez a sorozatokat növekvő sorrendbe rendezzük.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6
A csoportosítási eredményeket táblázat formájában mutatjuk be:
CsoportokGyűjtemény sz.Frekvencia fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6
Csoportokx iMennyiség, f ix i * f iAkkumulált frekvencia, S|x - x av |*f(x - x átlag) 2 *fFrekvencia, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Az eloszlási sorozat értékeléséhez a következő mutatókat találjuk:
.
Súlyozott átlag


Divat
A módusz a jellemző leggyakoribb értéke egy adott sokaság egységei között.

ahol x 0 a modális intervallum kezdete; h – intervallumérték; f 2 – a modális intervallumnak megfelelő frekvencia; f 1 – premodális frekvencia; f 3 – posztmodális gyakoriság.
Az intervallum kezdetének 51,49-et választunk, mivel ez az intervallum adja a legnagyobb számot.

A sorozat leggyakoribb értéke 52,8
Középső
A medián két részre osztja a mintát: a fele kisebb, mint a medián, a fele több.
Egy intervallum eloszlás sorozatban azonnal csak azt az intervallumot adhatja meg, amelyben a mód vagy a medián elhelyezkedik. A medián a rangsorolt ​​sorozat közepén lévő opciónak felel meg. A medián az 51,49 - 54,32 intervallum, mert ebben az intervallumban az S halmozott frekvencia nagyobb, mint a medián szám (a medián az az első intervallum, amelynek S halmozott frekvenciája meghaladja a frekvenciák teljes összegének felét).


Így a populáció egységeinek 50%-a kisebb lesz, mint 53,06
Változási mutatók.
A változás abszolút mutatói.

R = X max - X min
R = 60-43 = 17
Átlagos lineáris eltérés - a vizsgált sokaság összes egysége közötti különbségek figyelembevétele érdekében számítva.


A sorozatok mindegyik értéke legfeljebb 2,3-mal tér el a másiktól
Diszperzió - a diszperzió mértékét az átlagos értéke körül jellemzi (a diszperzió mértéke, azaz az átlagtól való eltérés).


A torzítatlan varianciabecslő egy konzisztens varianciabecslő.


Szórás.

A sorozat minden értéke legfeljebb 3,21-el tér el az 53,3-as átlagtól
A szórás becslése.

Relatív variációs mértékek.
A változás relatív mutatói a következők: oszcillációs együttható, lineáris variációs együttható, relatív lineáris eltérés.
A variációs együttható a populációs értékek relatív szórásának mérőszáma: megmutatja, hogy ennek az értéknek az átlagértékéhez képest mekkora hányadát teszi ki az átlagos szórása.

Mivel v ≤ 30%, a populáció homogén és a variáció gyenge. Az elért eredményekben megbízhatunk.
Lineáris variációs együttható vagy Relatív lineáris eltérés - az átlagos értéktől való abszolút eltérés előjelének átlagértékének arányát jellemzi.

.
1. Ellenőrizzük azt a hipotézist, hogy X normális eloszlású a Pearson-féle illeszkedési teszt segítségével.

ahol p i annak a valószínűsége, hogy egy hipotetikus törvény szerint eloszló valószínűségi változó i-edik intervallumába esik
A p i valószínűségek kiszámításához a Laplace-függvény képletét és táblázatát alkalmazzuk

ahol s = 3,21, x av = 53,3
Az elméleti (várható) frekvencia n i = np i , ahol n = 36

Időközök csoportosításaMegfigyelt frekvencia n ix 1 = (x i -x )/sx 2 = (x i+1 -x )/sF(x 1)F(x 2)Az i-edik intervallumba való bejutás valószínűsége, p i = Ф(x 2) - Ф(x 1)Várható frekvencia, 36p iPearson statisztikai kifejezések, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84



Határát K kp = χ 2 (k-r-1;α) a χ 2 eloszlástáblázatokból találjuk meg és a megadott s, k (intervallumok száma), r=2 (x cp és s paraméterek) értékeket a minta).
Kkp = 7,81473; Knabl = 9,84
A Pearson-statisztika megfigyelt értéke a kritikus tartományba esik: Knable > nem a normál törvények szerint.


2. példa. A Pearson-teszt segítségével 0,05-ös szignifikanciaszinten ellenőrizze, hogy az X sokaság normális eloszlására vonatkozó hipotézis összhangban van-e az n = 200 mintanagyság empirikus eloszlásával.

Megoldás számológép segítségével találja meg.
Táblázat a mutatók kiszámításához.

x iMennyiség, f ix i f iAkkumulált frekvencia, S(x-x ) f(x-x) 2 f(x-x) 3 fFrekvencia, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1
Elosztóközpont jelzői.
Súlyozott átlag


Változási mutatók.
.
A változási tartomány az elsődleges sorozatjellemző maximális és minimális értéke közötti különbség.
R = X max - X min
R = 21-5 = 16
Diszperzió- átlagértéke körül jellemzi a szóródás mértékét (a szóródás mértékét, azaz az átlagtól való eltérést).


Elfogulatlan varianciabecslő- konzisztens varianciabecslés.


Szórás.

A sorozat minden értéke legfeljebb 4,7-el tér el a 12,63-as átlagtól
A szórás becslése.

Az eloszlás típusára vonatkozó hipotézisek tesztelése.
1. Ellenőrizzük azt a hipotézist, hogy X eloszlik normális törvény a Pearson-féle illeszkedési teszt segítségével.

ahol n*i az elméleti frekvenciák:

Számítsuk ki az elméleti frekvenciákat, figyelembe véve, hogy:
n = 200, h = 2 (intervallum szélessége), σ = 4,7, x av = 12,63
énx iu iφin*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Hasonlítsuk össze az empirikus és elméleti gyakoriságokat. Készítsünk egy számítási táblázatot, amelyből megtaláljuk a kritérium megfigyelt értékét:
Χ 2 =
énn in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86
Határozzuk meg a kritikus tartomány határát. Mivel a Pearson-statisztika az empirikus és az elméleti eloszlás közötti különbséget méri, minél nagyobb a megfigyelt K obs értéke, annál erősebb az érv a fő hipotézis ellen.
Ezért ezeknek a statisztikáknak a kritikus tartománya mindig a jobbkezes :)

Hasonló cikkek