Kriteri Pearson për testimin e hipotezës për formën e ligjit të shpërndarjes së një ndryshoreje të rastësishme. Kriteri Kolmogorov

Deri në fund të shekullit të 19-të, shpërndarja normale konsiderohej ligji universal i ndryshimit të të dhënave. Megjithatë, K. Pearson vuri në dukje se frekuencat empirike mund të ndryshojnë shumë nga shpërndarja normale. U ngrit pyetja se si të vërtetohet kjo. Kërkohej jo vetëm një krahasim grafik, i cili është subjektiv, por edhe një justifikim i rreptë sasior.

Kështu u shpik kriteri χ 2(katrori chi), i cili teston rëndësinë e mospërputhjes midis frekuencave empirike (të vëzhguara) dhe teorike (të pritshme). Kjo ndodhi në vitin 1900, por kriteri është ende në përdorim sot. Për më tepër, ai është përshtatur për të zgjidhur një gamë të gjerë problemesh. Para së gjithash, kjo është analiza e të dhënave kategorike, d.m.th. ato që shprehen jo nga sasia, por nga përkatësia në ndonjë kategori. Për shembull, klasa e makinës, gjinia e pjesëmarrësit në eksperiment, lloji i bimës, etj. Veprimet matematikore të tilla si mbledhja dhe shumëzimi nuk mund të aplikohen në frekuenca të tilla vetëm për to.

Ne shënojmë frekuencat e vëzhguara Rreth (vëzhguar), e pritshme - E (E pritshme). Si shembull, le të marrim rezultatin e rrotullimit të një 60 herë. Nëse është simetrike dhe uniforme, probabiliteti për të marrë ndonjë anë është 1/6 dhe për këtë arsye numri i pritshëm i marrjes së secilës anë është 10 (1/6∙60). Frekuencat e vëzhguara dhe të pritura i shkruajmë në një tabelë dhe vizatojmë një histogram.

Hipoteza zero është se frekuencat janë të qëndrueshme, domethënë, të dhënat aktuale nuk kundërshtojnë të dhënat e pritura. Një hipotezë alternative është se devijimet në frekuenca shkojnë përtej luhatjeve të rastësishme, mospërputhjet janë statistikisht të rëndësishme. Për të nxjerrë një përfundim rigoroz, na duhet.

  1. Një masë përmbledhëse e mospërputhjes midis frekuencave të vëzhguara dhe të pritura.
  2. Shpërndarja e kësaj mase nëse hipoteza se nuk ka dallime është e vërtetë.

Le të fillojmë me distancën midis frekuencave. Nëse merrni vetëm ndryshimin O - E, atëherë një masë e tillë do të varet nga shkalla e të dhënave (frekuencave). Për shembull, 20 - 5 = 15 dhe 1020 - 1005 = 15. Në të dyja rastet, ndryshimi është 15. Por në rastin e parë, frekuencat e pritura janë 3 herë më pak se ato të vëzhguara, dhe në rastin e dytë - vetëm 1.5 %. Ne kemi nevojë për një masë relative që nuk varet nga shkalla.

Le t'i kushtojmë vëmendje fakteve të mëposhtme. NË rast i përgjithshëm numri i kategorive në të cilat maten frekuencat mund të jetë shumë më i madh, kështu që gjasat që një vëzhgim i vetëm të bjerë në një kategori ose në një tjetër është mjaft i vogël. Nëse po, atëherë shpërndarja është si kjo ndryshore e rastësishme do t'i bindet ligjit të ngjarjeve të rralla, i njohur si Ligji i Poisson-it. Në ligjin e Poisson-it, siç dihet, vlera pritje matematikore dhe variancat përkojnë (parametri λ ). Kjo do të thotë se frekuenca e pritur për disa kategori të ndryshores nominale E i do të jetë i njëkohshëm dhe shpërndarja e tij. Më tej, ligji i Poisson-it priret në normalitet me një numër të madh vëzhgimesh. Duke kombinuar këto dy fakte, marrim se nëse hipoteza për marrëveshjen midis frekuencave të vëzhguara dhe të pritura është e saktë, atëherë, me një numër të madh vëzhgimesh, shprehje

Është e rëndësishme të mbani mend se normaliteti do të shfaqet vetëm në frekuenca mjaft të larta. Në statistika, përgjithësisht pranohet që numri i përgjithshëm i vëzhgimeve (shuma e frekuencave) duhet të jetë së paku 50 dhe frekuenca e pritur në çdo gradim duhet të jetë së paku 5. Vetëm në këtë rast, vlera e treguar më sipër ka një shpërndarje normale standarde . Le të supozojmë se plotësohet ky kusht.

Shpërndarja normale standarde ka pothuajse të gjitha vlerat brenda ±3 (rregulli tre-sigma). Kështu, ne morëm ndryshimin relativ në frekuenca për një gradim. Ne kemi nevojë për një masë të përgjithësueshme. Ju nuk mund të shtoni vetëm të gjitha devijimet - ne marrim 0 (mendoni pse). Pearson propozoi mbledhjen e katrorëve të këtyre devijimeve.

Kjo është shenja Testi Chi-square Pearson. Nëse frekuencat vërtet korrespondojnë me ato të pritura, atëherë vlera e kriterit do të jetë relativisht e vogël (pasi shumica e devijimeve janë rreth zeros). Por nëse kriteri rezulton i madh, atëherë kjo tregon dallime të rëndësishme midis frekuencave.

Kriteri Pearson bëhet "i madh" kur shfaqja e një vlere të tillë apo edhe më të madhe bëhet e pamundur. Dhe për të llogaritur një probabilitet të tillë, është e nevojshme të dihet shpërndarja e kriterit kur eksperimenti përsëritet shumë herë, kur hipoteza e marrëveshjes së frekuencës është e vërtetë.

Siç mund të shihet lehtë, vlera chi-katror varet gjithashtu nga numri i termave. Sa më shumë të ketë, aq më e madhe është vlera që duhet të ketë kriteri, sepse çdo term do të kontribuojë në total. Prandaj, për çdo sasi të pavarur kushtet, do të ketë shpërndarjen e vet. Rezulton se χ 2është një familje e tërë shpërndarjesh.

Dhe këtu kemi ardhur në një moment delikat. Çfarë është një numër të pavarur kushtet? Duket sikur çdo term (d.m.th. devijim) është i pavarur. Kështu mendoi edhe K. Pearson, por ai doli të ishte gabim. Në fakt, numri i termave të pavarur do të jetë një më pak se numri i gradimeve të ndryshores nominale n. Pse? Sepse nëse kemi një mostër për të cilën shuma e frekuencave tashmë është llogaritur, atëherë njëra nga frekuencat mund të përcaktohet gjithmonë si diferencë midis numrit total dhe shumës së të gjitha të tjerave. Prandaj ndryshimi do të jetë disi më i vogël. Ronald Fisher e vuri re këtë fakt 20 vjet pasi Pearson zhvilloi kriterin e tij. Edhe tavolinat duhej të ribëheshin.

Me këtë rast, Fisher prezantoi një koncept të ri në statistika - shkalla e lirisë(gradat e lirisë), që paraqet numrin e termave të pavarur në shumë. Koncepti i shkallëve të lirisë ka një shpjegim matematikor dhe shfaqet vetëm në shpërndarjet që lidhen me normalen (Student's, Fisher-Snedecor dhe vetë chi-square).

Për të kuptuar më mirë kuptimin e shkallëve të lirisë, le t'i drejtohemi një analoge fizike. Le të imagjinojmë një pikë që lëviz lirshëm në hapësirë. Ka 3 shkallë lirie, sepse mund të lëvizë në çdo drejtim në hapësirën tredimensionale. Nëse një pikë lëviz përgjatë çdo sipërfaqeje, atëherë ajo tashmë ka dy shkallë lirie (para dhe mbrapa, majtas dhe djathtas), megjithëse vazhdon të jetë në hapësirën tre-dimensionale. Një pikë që lëviz përgjatë një burimi është përsëri në hapësirën tre-dimensionale, por ka vetëm një shkallë lirie, sepse mund të lëvizë përpara ose prapa. Siç mund ta shihni, hapësira ku ndodhet objekti nuk korrespondon gjithmonë me lirinë reale të lëvizjes.

Përafërsisht në të njëjtën mënyrë, shpërndarja e një kriteri statistikor mund të varet nga një numër më i vogël elementësh sesa termat e nevojshëm për llogaritjen e tij. Në përgjithësi, numri i shkallëve të lirisë është më i vogël se numri i vëzhgimeve nga numri i varësive ekzistuese.

Kështu, shpërndarja e katrorit chi ( χ 2) është një familje shpërndarjesh, secila prej të cilave varet nga parametri i shkallës së lirisë. Dhe përkufizimi zyrtar i testit chi-square është si më poshtë. Shpërndarja χ 2(chi-katror) s k shkallët e lirisë është shpërndarja e shumës së katrorëve k variablat e pavarur standarde normale të rastit.

Më tej, ne mund të kalojmë në vetë formulën me të cilën llogaritet funksioni i shpërndarjes chi-square, por, për fat të mirë, gjithçka është llogaritur prej kohësh për ne. Për të marrë probabilitetin e interesit, mund të përdorni ose tabelën e duhur statistikore ose një funksion të gatshëm në Excel.

Është interesante të shihet se si ndryshon forma e shpërndarjes chi-katrore në varësi të numrit të shkallëve të lirisë.

Me rritjen e shkallës së lirisë, shpërndarja e katrorit chi priret të jetë normale. Kjo shpjegohet me veprimin e teoremës së kufirit qendror, sipas së cilës shuma e një numri të madh të ndryshoreve të rastësishme të pavarura ka një shpërndarje normale. Nuk thotë asgjë për katrorët)).

Testimi i hipotezës duke përdorur testin chi-square Pearson

Tani kemi ardhur në testimin e hipotezave duke përdorur metodën chi-square. Në përgjithësi, teknologjia mbetet. Hipoteza zero parashtrohet se frekuencat e vëzhguara korrespondojnë me ato të pritura (d.m.th. nuk ka asnjë ndryshim midis tyre, pasi ato janë marrë nga e njëjta popullatë). Nëse është kështu, atëherë shpërndarja do të jetë relativisht e vogël, brenda kufijve të luhatjeve të rastësishme. Masa e dispersionit përcaktohet duke përdorur testin chi-square. Më pas, ose krahasohet vetë kriteri me vlerën kritike (për nivelin përkatës të rëndësisë dhe shkallët e lirisë), ose, çfarë është më e sakta, llogaritet vlera p-vëzhguar, d.m.th. probabiliteti i përftimit të vlerës së njëjtë ose edhe më të madhe të kriterit nëse hipoteza zero është e vërtetë.

Sepse ne jemi të interesuar për pajtimin e frekuencave, atëherë hipoteza do të hidhet poshtë kur kriteri është më i madh se niveli kritik. Ato. kriteri është i njëanshëm. Megjithatë, ndonjëherë (ndonjëherë) është e nevojshme të testohet hipoteza e dorës së majtë. Për shembull, kur të dhënat empirike janë shumë të ngjashme me të dhënat teorike. Atëherë kriteri mund të bjerë në një rajon të pamundur, por në të majtë. Çështja është se në kushtet natyrore, nuk ka gjasa të përftohen frekuenca që praktikisht përkojnë me ato teorike. Gjithmonë ka ndonjë rastësi që jep një gabim. Por nëse nuk ka një gabim të tillë, atëherë ndoshta të dhënat janë falsifikuar. Por megjithatë, hipoteza e anës së djathtë zakonisht testohet.

Le të kthehemi te problemi i zareve. Le të llogarisim vlerën e testit chi-square duke përdorur të dhënat e disponueshme.

Tani le të gjejmë vlerën kritike në 5 gradë lirie ( k) dhe niveli i rëndësisë 0.05 ( α ) sipas tabelës së vlerave kritike të shpërndarjes së katrorit chi.

Kjo do të thotë, kuantili 0.05 është një shpërndarje chi në katror (bishti i djathtë) me 5 gradë lirie χ 2 0,05; 5 = 11,1.

Le të krahasojmë vlerat aktuale dhe të tabeluara. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Kriteri i llogaritur doli të jetë më i vogël, që do të thotë se hipoteza e barazisë (marrëveshjes) e frekuencave nuk hidhet poshtë. Në figurë, situata duket kështu.

Nëse vlera e llogaritur bie brenda rajonit kritik, hipoteza zero do të refuzohej.

Do të ishte më e saktë të llogaritet edhe vlera p. Për ta bërë këtë, duhet të gjeni vlerën më të afërt në tabelë për një numër të caktuar të shkallëve të lirisë dhe të shikoni nivelin përkatës të rëndësisë. Por ky është shekulli i fundit. Ne do të përdorim një kompjuter, në veçanti MS Excel. Excel ka disa funksione që lidhen me chi-square.

Më poshtë është një përshkrim i shkurtër i tyre.

CH2.OBR- vlera kritike e kriterit me një probabilitet të caktuar në të majtë (si në tabelat statistikore)

CH2.OBR.PH– vlera kritike e kriterit për një probabilitet të caktuar në të djathtë. Funksioni në thelb kopjon atë të mëparshëm. Por këtu mund të tregoni menjëherë nivelin α , në vend që ta zbresim atë nga 1. Kjo është më e përshtatshme, sepse në shumicën e rasteve, është bishti i djathtë i shpërndarjes që nevojitet.

CH2.DIST– P-vlera në të majtë (dendësia mund të llogaritet).

CH2.DIST.PH– P-vlera në të djathtë.

CHI2.TESTI– kryen menjëherë një test chi-square për dy diapazon frekuencash. Numri i shkallëve të lirisë merret si një më pak se numri i frekuencave në kolonë (siç duhet të jetë), duke kthyer një vlerë p.

Le të llogarisim për eksperimentin tonë vlerën kritike (tabelore) për 5 shkallë lirie dhe alfa 0,05. Formula Excel do të duket si kjo:

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

Rezultati do të jetë i njëjtë - 11.0705. Kjo është vlera që shohim në tabelë (e rrumbullakosur me 1 dhjetor).

Le të llogarisim në fund vlerën p për kriterin 5 gradë lirie χ 2= 3.4. Ne kemi nevojë për një probabilitet në të djathtë, kështu që marrim një funksion me shtimin e HH (bishti i djathtë)

CH2.DIST.PH(3.4;5) = 0.63857

Kjo do të thotë se me 5 gradë lirie probabiliteti për të marrë vlerën e kriterit është χ 2= 3.4 dhe më shumë është pothuajse 64%. Natyrisht, hipoteza nuk hidhet poshtë (p-vlera është më e madhe se 5%), frekuencat janë në përputhje shumë të mirë.

Tani le të kontrollojmë hipotezën rreth marrëveshjes së frekuencës duke përdorur testin chi katror dhe funksionet e Excel CHI2.TESTI.

Pa tabela, pa llogaritje të rënda. Duke specifikuar kolonat me frekuenca të vëzhguara dhe të pritshme si argumente funksioni, marrim menjëherë vlerën p. Bukuria.

Tani imagjinoni se po luani zare me një djalë të dyshimtë. Shpërndarja e pikëve nga 1 në 5 mbetet e njëjtë, por ai rrotullon 26 gjashtëshe (numri i përgjithshëm i gjuajtjeve bëhet 78).

Vlera p në këtë rast rezulton të jetë 0,003, që është shumë më pak se 0,05. Ka arsye të mira për të dyshuar në vlefshmërinë e zareve. Ja se si duket kjo probabilitet në një grafik të shpërndarjes chi-square.

Vetë kriteri chi-square këtu rezulton të jetë 17.8, i cili, natyrisht, është më i madh se tabela (11.1).

Shpresoj se kam qenë në gjendje të shpjegoj se cili është kriteri i marrëveshjes χ 2(Pearson chi-square) dhe si mund të përdoret për të testuar hipotezat statistikore.

Më në fund, edhe një herë për një kusht të rëndësishëm! Testi chi-square funksionon si duhet vetëm kur numri i të gjitha frekuencave kalon 50, dhe vlera minimale e pritur për çdo gradim nuk është më e vogël se 5. Nëse në ndonjë kategori frekuenca e pritur është më e vogël se 5, por shuma e të gjitha frekuencave tejkalon 50, atëherë kategoria e tillë kombinohet me atë më të afërt në mënyrë që frekuenca e tyre totale të kalojë 5. Nëse kjo nuk është e mundur, ose shuma e frekuencave është më e vogël se 50, atëherë duhet të përdoren metoda më të sakta të testimit të hipotezave. Do të flasim për ta një herë tjetër.

Më poshtë është një video se si të testoni një hipotezë në Excel duke përdorur testin chi-square.

Studimi sasior i dukurive biologjike kërkon domosdoshmërisht krijimin e hipotezave me të cilat mund të shpjegohen këto dukuri. Për të testuar një hipotezë të veçantë, kryhen një sërë eksperimentesh të veçanta dhe të dhënat aktuale të marra krahasohen me ato që priten teorikisht sipas kësaj hipoteze. Nëse ka një rastësi, kjo mund të jetë arsye e mjaftueshme për të pranuar hipotezën. Nëse të dhënat eksperimentale nuk përputhen mirë me ato të pritura teorikisht, lind dyshim i madh për korrektësinë e hipotezës së propozuar.

Shkalla në të cilën të dhënat aktuale korrespondojnë me atë të pritur (hipotetike) matet me testin chi-square:

- vlera aktuale e vëzhguar e karakteristikës në i- se numri i pritur teorikisht ose shenja (treguesi) për një grup të caktuar, k-numri i grupeve të të dhënave.

Kriteri u propozua nga K. Pearson në vitin 1900 dhe nganjëherë quhet kriteri Pearson.

Detyrë. Ndër 164 fëmijë që trashëguan një faktor nga njëri prind dhe një faktor nga tjetri, 46 fëmijë me faktor, 50 me faktor, 68 me të dy. Llogaritni frekuencat e pritura për një raport 1:2:1 midis grupeve dhe përcaktoni shkallën e pajtimit të të dhënave empirike duke përdorur testin Pearson.

Zgjidhja: Raporti i frekuencave të vëzhguara është 46:68:50, teorikisht i pritshëm 41:82:41.

Le të vendosim nivelin e rëndësisë në 0.05. Vlera e tabelës së kriterit Pearson për këtë nivel të rëndësisë me numër të barabartë të shkallëve të lirisë rezultoi të jetë 5.99. Prandaj, hipoteza për korrespondencën e të dhënave eksperimentale me të dhënat teorike mund të pranohet, pasi, .

Vini re se gjatë llogaritjes së testit chi-square, ne nuk vendosim më kushtet për normalitetin e domosdoshëm të shpërndarjes. Testi chi-square mund të përdoret për çdo shpërndarje që ne jemi të lirë të zgjedhim në supozimet tona. Ekziston njëfarë universaliteti i këtij kriteri.

Një aplikim tjetër i testit Pearson është krahasimi i shpërndarjes empirike me shpërndarjen normale Gaussian. Për më tepër, ai mund të klasifikohet si një grup kriteresh për kontrollimin e normalitetit të shpërndarjes. Kufizimi i vetëm është fakti që numri i përgjithshëm i vlerave (opsioneve) kur përdoret ky kriter duhet të jetë mjaft i madh (të paktën 40), dhe numri i vlerave në klasa individuale (intervale) duhet të jetë së paku 5. Përndryshe, intervalet ngjitur duhet të kombinohen. Numri i shkallëve të lirisë gjatë kontrollit të normalitetit të shpërndarjes duhet të llogaritet si:.

    1. Kriteri Fisher.

Ky test parametrik përdoret për të testuar hipotezën zero se variancat e popullatave të shpërndara normalisht janë të barabarta.

Ose.

Me madhësi të vogla të mostrës, përdorimi i testit të Studentit mund të jetë i saktë vetëm nëse variancat janë të barabarta. Prandaj, përpara se të testohet barazia e mesatareve të mostrës, është e nevojshme të sigurohet vlefshmëria e përdorimit të testit Student t.

Ku N 1 , N 2 madhësitë e mostrave, 1 , 2 numri i shkallëve të lirisë për këto mostra.

Kur përdorni tabela, duhet t'i kushtoni vëmendje që numri i shkallëve të lirisë për një mostër me një shpërndarje më të madhe zgjidhet si numër i kolonës së tabelës, dhe për një shpërndarje më të vogël si numër i rreshtit të tabelës.

Për nivelin e rëndësisë , vlerën e tabelës e gjejmë nga tabelat e statistikave matematikore. Nëse, atëherë hipoteza e barazisë së variancave refuzohet për nivelin e zgjedhur të rëndësisë.

Shembull.Është studiuar efekti i kobaltit në peshën trupore të lepujve. Eksperimenti u krye në dy grupe kafshësh: eksperimentale dhe kontrolluese. Subjektet eksperimentale morën një shtesë diete në formën e një solucioni ujor të klorurit të kobaltit. Gjatë eksperimentit, shtimi në peshë ishte në gram:

Kontrolli

Testi i përshtatshmërisë së Pearson:

Testoni hipotezën e shpërndarjes normale duke përdorur testin Pearson. Niveli i rëndësisë α=0.05. Ndani të dhënat në 6 intervale.

Zgjidhje gjeni duke përdorur një kalkulator. Gjerësia e intervalit do të jetë:

Xmax është vlera maksimale e karakteristikës së grupimit në agregat.
Xmin është vlera minimale e karakteristikës së grupimit.
Le të përcaktojmë kufijtë e grupit.

Numri i grupitFundiKufiri i sipërm
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

E njëjta vlerë e atributit shërben si kufijtë e sipërm dhe të poshtëm të dy grupeve ngjitur (të mëparshëm dhe të mëvonshëm).
Për secilën vlerë të serisë, ne numërojmë sa herë ajo bie në një interval të caktuar. Për ta bërë këtë, ne rendisim seritë në rend rritës.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6
Rezultatet e grupimit do t'i paraqesim në formën e një tabele:
GrupetKoleksioni nr.Frekuenca fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6
Grupetx iSasia, f ix i * f iFrekuenca kumulative, S|x - x mesatar |*f(x - x mesatar) 2 *fFrekuenca, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Për të vlerësuar serinë e shpërndarjes, gjejmë treguesit e mëposhtëm:
.
Mesatarja e ponderuar


Moda
Modaliteti është vlera më e zakonshme e një karakteristike midis njësive të një popullsie të caktuar.

ku x 0 është fillimi i intervalit modal; h – vlera e intervalit; f 2 – frekuenca që korrespondon me intervalin modal; f 1 – frekuenca premodale; f 3 – frekuenca postmodale.
Ne zgjedhim 51.49 si fillim të intervalit, pasi ky interval përbën numrin më të madh.

Vlera më e zakonshme e serisë është 52.8
mesatare
Mediana e ndan kampionin në dy pjesë: gjysma e opsionit është më e vogël se mesatarja, gjysma është më shumë.
Në një seri shpërndarjeje intervali, mund të specifikoni menjëherë vetëm intervalin në të cilin do të vendoset modaliteti ose mesatarja. Mesatarja korrespondon me opsionin në mes të serisë së renditur. Mesatarja është intervali 51.49 - 54.32, sepse në këtë interval, frekuenca e akumuluar S është më e madhe se numri median (mediana është intervali i parë, frekuenca e akumuluar S e të cilit tejkalon gjysmën e shumës totale të frekuencave).


Kështu, 50% e njësive në popullsi do të jenë më pak në magnitudë se 53.06
Treguesit e variacionit.
Treguesit absolut të variacionit.

R = X max - X min
R = 60 - 43 = 17
Devijimi mesatar linear - llogaritet në mënyrë që të merren parasysh diferencat e të gjitha njësive të popullsisë në studim.


Çdo vlerë e serisë ndryshon nga tjetra jo më shumë se 2.3
Dispersion - karakterizon masën e shpërndarjes rreth vlerës së saj mesatare (një masë e shpërndarjes, d.m.th. devijimi nga mesatarja).


Një vlerësues i paanshëm i variancës është një vlerësues konsistent i variancës.


Mesatare devijimi standard.

Çdo vlerë e serisë ndryshon nga vlera mesatare prej 53.3 me jo më shumë se 3.21
Vlerësimi i devijimit standard.

Masat e variacionit relativ.
Treguesit relativë të variacionit përfshijnë: koeficientin e lëkundjes, koeficienti linear variacionet, devijimi linear relativ.
Koeficienti i variacionit është një masë e shpërndarjes relative të vlerave të popullsisë: tregon se çfarë përqindje e vlerës mesatare të kësaj vlere është shpërndarja mesatare e saj.

Meqenëse v ≤ 30%, popullsia është homogjene dhe variacioni është i dobët. Rezultatet e marra mund të besohen.
Koeficienti linear i variacionit ose Devijimi linear relativ - karakterizon proporcionin e vlerës mesatare të një shenje të devijimeve absolute nga vlera mesatare.

.
1. Le të kontrollojmë hipotezën se X është shpërndarë ligj normal duke përdorur testin e mirësisë së Pearson-it.

ku p i është probabiliteti i goditjes intervali i i-të ndryshore e rastësishme e shpërndarë sipas një ligji hipotetik
Për të llogaritur probabilitetet p i, zbatojmë formulën dhe tabelën e funksionit Laplace

ku s = 3,21, x av = 53,3
Frekuenca teorike (e pritshme) është n i = np i , ku n = 36

Intervalet e grupimitFrekuenca e vëzhguar n ix 1 = (x i -x)/sx 2 = (x i+1 -x)/sF(x 1)F(x 2)Probabiliteti për të hyrë në intervalin i-të, p i = Ф(x 2) - Ф(x 1)Frekuenca e pritur, 36p iTermat e statistikave të Pearson, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84



Kufiri i tij K kp = χ 2 (k-r-1;α) gjendet nga tabelat e shpërndarjes χ 2 dhe vlerat e dhëna s, k (numri i intervaleve), r=2 (parametrat x cp dhe s janë vlerësuar nga mostër).
Kkp = 7,81473; Knabl = 9,84
Vlera e vëzhguar e statistikës së Pearson bie në rajonin kritik: Knable > jo sipas ligjit normal.


Shembulli nr. 2. Duke përdorur testin Pearson, në një nivel të rëndësisë prej 0.05, kontrolloni nëse hipoteza për shpërndarjen normale të popullsisë X është në përputhje me shpërndarja empirike madhësia e mostrës n = 200.

Zgjidhje gjeni duke përdorur një kalkulator.
Tabela për llogaritjen e treguesve.

x iSasia, f ix i f iFrekuenca kumulative, S(x-x) f(x-x) 2 f(x-x) 3 fFrekuenca, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1
Treguesit e qendrës së shpërndarjes.
Mesatarja e ponderuar


Treguesit e variacionit.
.
Gama e variacionit është diferenca midis vlerave maksimale dhe minimale të karakteristikës së serisë primare.
R = X max - X min
R = 21 - 5 = 16
Dispersion- karakterizon masën e shpërndarjes rreth vlerës mesatare të saj (një masë e shpërndarjes, d.m.th. devijimi nga mesatarja).


Vlerësues i paanshëm i variancës- vlerësim konsistent i variancës.


Devijimi standard.

Çdo vlerë e serisë ndryshon nga vlera mesatare prej 12.63 me jo më shumë se 4.7
Vlerësimi i devijimit standard.

Testimi i hipotezave për llojin e shpërndarjes.
1. Le të kontrollojmë hipotezën se X është shpërndarë ligj normal duke përdorur testin e mirësisë së Pearson-it.

ku n* i janë frekuencat teorike:

Le të llogarisim frekuencat teorike, duke marrë parasysh se:
n = 200, h=2 (gjerësia e intervalit), σ = 4,7, x av = 12,63
ix iu iφin*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Le të krahasojmë frekuencat empirike dhe teorike. Le të krijojmë një tabelë llogaritëse nga e cila gjejmë vlerën e vëzhguar të kriterit:
Χ 2 =
in in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86
Le të përcaktojmë kufirin e rajonit kritik. Meqenëse statistika e Pearson mat ndryshimin midis shpërndarjeve empirike dhe teorike, sa më e madhe të jetë vlera e saj e vëzhguar K obs, aq më i fortë është argumenti kundër hipotezës kryesore.
Prandaj, rajoni kritik për këto statistika është gjithmonë krahu i djathtë :)

Artikuj të ngjashëm