Критерий на Пиърсън за проверка на хипотезата за формата на закона за разпределение на случайна променлива. Критерий на Колмогоров

До края на 19-ти век нормалното разпределение се смяташе за универсален закон за изменението на данните. К. Пиърсън обаче отбеляза, че емпиричните честоти могат да се различават значително от нормалното разпределение. Възникна въпросът как да се докаже това. Изисква се не само графично сравнение, което е субективно, но и стриктна количествена обосновка.

Така е измислен критерият χ 2(хи квадрат), който тества значимостта на несъответствието между емпирични (наблюдавани) и теоретични (очаквани) честоти. Това се случи още през 1900 г., но критерият се използва и днес. Освен това, той е адаптиран за решаване на широк кръг от проблеми. На първо място, това е анализ на категорични данни, т.е. такива, които се изразяват не чрез количество, а чрез принадлежност към някаква категория. Например класа на автомобила, пола на участника в експеримента, вида на растението и др. Математически операции като събиране и умножение не могат да бъдат приложени към такива данни; честотите могат да бъдат изчислени само за тях.

Означаваме наблюдаваните честоти Относно (Наблюдавано), очакван - E (Очаква се). Като пример, нека вземем резултата от хвърляне на зар 60 пъти. Ако е симетрична и еднаква, вероятността да се получи която и да е страна е 1/6 и следователно очакваният брой да се получи всяка страна е 10 (1/6∙60). Записваме наблюдаваните и очакваните честоти в таблица и чертаем хистограма.

Нулевата хипотеза е, че честотите са последователни, тоест действителните данни не противоречат на очакваните данни. Алтернативна хипотеза е, че отклоненията в честотите надхвърлят случайните флуктуации, несъответствията са статистически значими. За да направим строго заключение, имаме нужда.

  1. Обобщена мярка за несъответствието между наблюдаваните и очакваните честоти.
  2. Разпределението на тази мярка, ако хипотезата, че няма разлики е вярна.

Да започнем с разстоянието между честотите. Ако просто вземете разликата О - Е, тогава такава мярка ще зависи от мащаба на данните (честотите). Например 20 - 5 = 15 и 1020 - 1005 = 15. И в двата случая разликата е 15. Но в първия случай очакваните честоти са 3 пъти по-малки от наблюдаваните, а във втория случай - само 1,5 %. Нуждаем се от относителна мярка, която не зависи от мащаба.

Нека обърнем внимание на следните факти. IN общ случайброят на категориите, в които се измерват честотите, може да бъде много по-голям, така че вероятността едно наблюдение да попадне в една или друга категория е доста малка. Ако е така, тогава разпределението е такова случайна величинаще се подчинява на закона за редките събития, известен като Закон на Поасон. В закона на Поасон, както е известно, стойността математическо очакванеи дисперсиите съвпадат (параметър λ ). Това означава, че очакваната честота за някоя категория на номиналната променлива E iще бъде едновременно и неговата дисперсия. Освен това законът на Поасон клони към нормален при голям брой наблюдения. Комбинирайки тези два факта, получаваме, че ако хипотезата за съответствието между наблюдаваните и очакваните честоти е вярна, тогава, с голям брой наблюдения, израз

Важно е да запомните, че нормалното ще се появи само при достатъчно високи честоти. В статистиката е общоприето, че общият брой наблюдения (сума от честоти) трябва да бъде най-малко 50 и очакваната честота във всяка градация трябва да бъде най-малко 5. Само в този случай стойността, показана по-горе, има стандартно нормално разпределение . Да приемем, че това условие е изпълнено.

Стандартното нормално разпределение има почти всички стойности в рамките на ±3 (правилото на трите сигми). Така получихме относителната разлика в честотите за една градация. Имаме нужда от обобщаваща мярка. Не можете просто да съберете всички отклонения - получаваме 0 (познайте защо). Пиърсън предложи сумирането на квадратите на тези отклонения.

Това е знакът Хи-квадрат тест Пиърсън. Ако честотите наистина отговарят на очакваните, тогава стойността на критерия ще бъде относително малка (тъй като повечето отклонения са около нулата). Но ако критерият се окаже голям, тогава това показва значителни разлики между честотите.

Критерият на Pearson става „голям“, когато появата на такава или дори по-голяма стойност стане малко вероятна. И за да се изчисли такава вероятност, е необходимо да се знае разпределението на критерия, когато експериментът се повтаря многократно, когато хипотезата за съответствие на честотата е вярна.

Както е лесно да се види, стойността на хи-квадрат също зависи от броя на членовете. Колкото повече са, толкова по-голяма стойност трябва да има критерият, тъй като всеки член ще допринесе за общата сума. Следователно за всяко количество независимаусловия, ще има собствено разпространение. Оказва се, че χ 2е цяло семейство от дистрибуции.

И тук стигаме до един деликатен момент. Какво е число независимаусловия? Изглежда, че всеки термин (т.е. отклонение) е независим. Така смяташе и К. Пиърсън, но се оказа, че греши. Всъщност броят на независимите членове ще бъде с един по-малък от броя на градациите на номиналната променлива н. Защо? Защото, ако имаме извадка, за която сумата от честотите вече е изчислена, тогава една от честотите винаги може да бъде определена като разлика между общия брой и сумата от всички останали. Следователно вариацията ще бъде малко по-малка. Роналд Фишър забеляза този факт 20 години след като Пиърсън разработи своя критерий. Дори масите трябваше да бъдат преправени.

По този повод Фишър въвежда нова концепция в статистиката - степен на свобода(степени на свобода), което представлява броя на независимите членове в сумата. Концепцията за степените на свобода има математическо обяснение и се появява само в разпределения, свързани с нормалното (на Стюдънт, на Фишер-Снедекор и самото хи-квадрат).

За да разберем по-добре значението на степените на свобода, нека се обърнем към един физически аналог. Нека си представим точка, която се движи свободно в пространството. Има 3 степени на свобода, т.к може да се движи във всяка посока в триизмерното пространство. Ако една точка се движи по която и да е повърхност, тогава тя вече има две степени на свобода (напред и назад, наляво и надясно), въпреки че продължава да бъде в триизмерното пространство. Точка, движеща се по пружина, отново е в триизмерно пространство, но има само една степен на свобода, т.к може да се движи напред или назад. Както можете да видите, пространството, където се намира обектът, не винаги отговаря на реалната свобода на движение.

Приблизително по същия начин разпределението на статистически критерий може да зависи от по-малък брой елементи от условията, необходими за изчисляването му. Като цяло, броят на степените на свобода е по-малък от броя на наблюденията с броя на съществуващите зависимости.

По този начин разпределението хи квадрат ( χ 2) е семейство от разпределения, всяко от които зависи от параметъра за степени на свобода. А формалната дефиниция на теста хи-квадрат е следната. Разпределение χ 2(хи-квадрат) s кстепени на свобода е разпределението на сумата от квадрати кнезависими стандартни нормални случайни променливи.

След това бихме могли да преминем към самата формула, чрез която се изчислява функцията на разпределение хи-квадрат, но за щастие всичко отдавна е изчислено за нас. За да получите вероятността от интерес, можете да използвате или подходящата статистическа таблица, или готова функция в Excel.

Интересно е да се види как формата на разпределението хи-квадрат се променя в зависимост от броя на степените на свобода.

С увеличаване на степените на свобода разпределението хи-квадрат има тенденция да бъде нормално. Това се обяснява с действието на централната гранична теорема, според която сумата от голям брой независими случайни променливи има нормално разпределение. Не пише нищо за квадратите)).

Тестване на хипотезата с помощта на хи-квадрат теста на Pearson

Сега стигаме до тестване на хипотези с помощта на метода хи-квадрат. Като цяло технологията остава. Изложена е нулевата хипотеза, че наблюдаваните честоти съответстват на очакваните (т.е. няма разлика между тях, тъй като са взети от едно и също население). Ако това е така, тогава разсейването ще бъде относително малко, в рамките на случайните колебания. Мярката за дисперсия се определя с помощта на теста хи-квадрат. След това или самият критерий се сравнява с критичната стойност (за съответното ниво на значимост и степени на свобода), или, което е по-правилно, се изчислява наблюдаваната p-стойност, т.е. вероятността да се получи същата или дори по-голяма стойност на критерия, ако нулевата хипотеза е вярна.

защото интересуваме се от съответствието на честотите, тогава хипотезата ще бъде отхвърлена, когато критерият е по-голям от критичното ниво. Тези. критерият е едностранен. Въпреки това понякога (понякога) е необходимо да се тества лявата хипотеза. Например, когато емпиричните данни са много сходни с теоретичните данни. Тогава критерият може да попадне в малко вероятна област, но отляво. Въпросът е, че в природни условия, едва ли ще се получат честоти, които практически съвпадат с теоретичните. Винаги има някаква случайност, която дава грешка. Но ако няма такава грешка, тогава може би данните са фалшифицирани. Но все пак хипотезата за дясната страна обикновено се тества.

Да се ​​върнем на проблема със заровете. Нека изчислим стойността на теста хи-квадрат, като използваме наличните данни.

Сега нека намерим критичната стойност при 5 степени на свобода ( к) и ниво на значимост 0,05 ( α ) според таблицата на критичните стойности на разпределението хи квадрат.

Тоест квантилът 0,05 е разпределение чи на квадрат (дясна опашка) с 5 степени на свобода χ 2 0,05; 5 = 11,1.

Нека сравним действителните и табличните стойности. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Изчисленият критерий се оказа по-малък, което означава, че не се отхвърля хипотезата за равенство (съгласуване) на честотите. На фигурата ситуацията изглежда така.

Ако изчислената стойност попада в критичната област, нулевата хипотеза ще бъде отхвърлена.

Би било по-правилно да се изчисли и p-стойността. За да направите това, трябва да намерите най-близката стойност в таблицата за даден брой степени на свобода и да разгледате съответното ниво на значимост. Но това е миналия век. Ще използваме компютър, по-специално MS Excel. Excel има няколко функции, свързани с хи-квадрат.

По-долу е дадено кратко описание за тях.

CH2.OBR– критична стойност на критерия при дадена вероятност отляво (както в статистическите таблици)

CH2.OBR.PH– критична стойност на критерия за дадена вероятност отдясно. Функцията по същество дублира предишната. Но тук можете веднага да посочите нивото α , вместо да го извадите от 1. Това е по-удобно, защото в повечето случаи е необходима дясната опашка на разпределението.

CH2.DIST– p-стойност отляво (плътността може да се изчисли).

CH2.DIST.PH– p-стойност вдясно.

CHI2.ТЕСТ– незабавно провежда хи-квадрат тест за два честотни диапазона. Броят на степените на свобода се приема за една по-малък от броя на честотите в колоната (както трябва да бъде), като се връща p-стойност.

Нека изчислим за нашия експеримент критичната (таблична) стойност за 5 степени на свобода и алфа 0,05. Формулата на Excel ще изглежда така:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Резултатът ще бъде същият - 11.0705. Това е стойността, която виждаме в таблицата (закръглена до 1 знак след десетичната запетая).

Нека накрая изчислим p-стойността за критерия за 5 степени на свобода χ 2= 3,4. Имаме нужда от вероятност отдясно, така че вземаме функция с добавяне на HH (дясна опашка)

CH2.DIST.PH(3,4;5) = 0,63857

Това означава, че при 5 степени на свобода вероятността за получаване на стойността на критерия е χ 2= 3,4 и повече е равно на почти 64%. Естествено, хипотезата не е отхвърлена (p-стойността е по-голяма от 5%), честотите са в много добро съответствие.

Сега нека проверим хипотезата за съответствие на честотата, като използваме теста хи квадрат и Функции на Excel CHI2.ТЕСТ.

Без таблици, без тромави изчисления. Като посочим колони с наблюдавани и очаквани честоти като аргументи на функцията, веднага получаваме p-стойността. красота.

Сега си представете, че играете на зарове с подозрителен човек. Разпределението на точките от 1 до 5 остава същото, но той хвърля 26 шестици (общият брой хвърляния става 78).

P-стойността в този случай се оказва 0,003, което е много по-малко от 0,05. Има основателни причини да се съмнявате в валидността на заровете. Ето как изглежда тази вероятност на диаграма за разпределение хи-квадрат.

Самият критерий хи-квадрат тук се оказва 17,8, което естествено е по-голямо от таблицата (11,1).

Надявам се, че успях да обясня какъв е критерият за съгласие χ 2(хи-квадрат на Пиърсън) и как може да се използва за тестване на статистически хипотези.

И накрая, още веднъж за важно условие! Тестът хи-квадрат работи правилно само когато броят на всички честоти надвишава 50 и минималната очаквана стойност за всяка градация е не по-малка от 5. Ако в която и да е категория очакваната честота е по-малка от 5, но сумата от всички честоти надвишава 50, тогава тази категория се комбинира с най-близката, така че общата им честота да надвишава 5. Ако това не е възможно или сумата на честотите е по-малка от 50, тогава трябва да се използват по-точни методи за проверка на хипотези. За тях ще говорим друг път.

По-долу има видеоклип за това как да тествате хипотеза в Excel с помощта на теста хи-квадрат.

Количественото изследване на биологичните явления задължително изисква създаването на хипотези, с които да се обяснят тези явления. За да се провери конкретна хипотеза, се провеждат серия от специални експерименти и получените действителни данни се сравняват с теоретично очакваните според тази хипотеза. Ако има съвпадение, това може да е достатъчно основание да се приеме хипотезата. Ако експерименталните данни не съвпадат добре с теоретично очакваните, възниква голямо съмнение относно правилността на предложената хипотеза.

Степента, в която действителните данни съответстват на очакваните (хипотетични), се измерва чрез теста хи-квадрат:

- действително наблюдавана стойност на характеристиката в аз-че; теоретично очаквано число или знак (показател) за дадена група, к-брой групи данни.

Критерият е предложен от К. Пиърсън през 1900 г. и понякога се нарича критерий на Пиърсън.

Задача.Сред 164 деца, които са наследили фактор от единия родител и фактор от другия, имаше 46 деца с фактора, 50 с фактора, 68 с двамата. Изчислете очакваните честоти за съотношение 1:2:1 между групите и определете степента на съгласие на емпиричните данни, като използвате теста на Pearson.

Решение:Съотношението на наблюдаваните честоти е 46:68:50, теоретично очаквано 41:82:41.

Нека зададем нивото на значимост на 0,05. Табличната стойност на критерия Pearson за това ниво на значимост при равен брой степени на свобода се оказва 5,99. Следователно може да се приеме хипотезата за съответствието на експерименталните данни с теоретичните данни, тъй като, .

Обърнете внимание, че когато изчисляваме теста хи-квадрат, ние вече не задаваме условията за задължителната нормалност на разпределението. Тестът хи-квадрат може да се използва за всякакви разпределения, които сме свободни да избираме в нашите предположения. Има известна универсалност на този критерий.

Друго приложение на теста на Pearson е за сравняване на емпиричното разпределение с нормалното разпределение на Гаус. Освен това може да се класифицира като група критерии за проверка на нормалността на разпределението. Единственото ограничение е фактът, че общият брой стойности (опции) при използване на този критерий трябва да бъде достатъчно голям (поне 40), а броят на стойностите в отделните класове (интервали) трябва да бъде най-малко 5. В противен случай следва да се комбинират съседни интервали. Броят на степените на свобода при проверка на нормалността на разпределението трябва да се изчисли като:.

    1. Критерий на Фишер.

Този параметричен тест се използва за тестване на нулевата хипотеза, че дисперсиите на нормално разпределените популации са равни.

Или.

При малки размери на извадката използването на теста на Стюдънт може да бъде правилно само ако дисперсиите са равни. Следователно, преди да се тества равенството на извадковите средни стойности, е необходимо да се гарантира валидността на използването на теста на Student t.

Където н 1 , н 2 размери на извадката, 1 , 2 брой степени на свобода за тези проби.

Когато използвате таблици, трябва да обърнете внимание, че броят на степените на свобода за образец с по-голяма дисперсия е избран като номер на колона в таблицата, а за по-малка дисперсия като номер на ред в таблицата.

За нивото на значимост  намираме табличната стойност от таблиците на математическата статистика. Ако, тогава хипотезата за равенство на дисперсии се отхвърля за избраното ниво на значимост.

Пример.Изследван е ефектът на кобалта върху телесното тегло на зайци. Експериментът е проведен върху две групи животни: опитни и контролни. Експерименталните субекти получиха хранителна добавка под формата на воден разтвор на кобалтов хлорид. По време на експеримента наддаването на тегло беше в грамове:

контрол

Тест за съответствие на Pearson:

Тествайте хипотезата за нормално разпределение с помощта на теста на Pearson. Ниво на значимост α=0.05. Разделете данните на 6 интервала.

Решениенамерете с помощта на калкулатор. Ширината на интервала ще бъде:

Xmax е максималната стойност на групажната характеристика в съвкупността.
Xmin е минималната стойност на груповата характеристика.
Нека да определим границите на групата.

Номер на групатаДолен редГорен лимит
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Една и съща стойност на атрибута служи като горна и долна граница на две съседни (предишна и следваща) групи.
За всяка стойност от серията броим колко пъти тя попада в определен интервал. За целта сортираме серията във възходящ ред.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6
Резултатите от групирането ще представим под формата на таблица:
ГрупиКолекция №Честота fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6
Групиx iКоличество, f ix i * f iКумулативна честота, S|x - x ср. |*f(x - x ср.) 2 *fЧестота, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

За да оценим серията на разпространение, намираме следните показатели:
.
Среднопретеглена стойност


Мода
Режимът е най-често срещаната стойност на характеристика сред единици от дадена популация.

където x 0 е началото на модалния интервал; h – стойност на интервала; f 2 – честота, съответстваща на модалния интервал; f 1 – премодална честота; f 3 – постмодална честота.
Избираме 51,49 като начало на интервала, тъй като този интервал представлява най-голямото число.

Най-често срещаната стойност на серията е 52,8
Медиана
Медианата разделя извадката на две части: половината опция е по-малка от медианата, половината е повече.
В серия с интервално разпределение можете незабавно да посочите само интервала, в който ще се намира модата или медианата. Медианата съответства на опцията в средата на класираната серия. Медианата е интервалът 51.49 - 54.32, т.к в този интервал натрупаната честота S е по-голяма от медианното число (медианата е първият интервал, чиято натрупана честота S надвишава половината от общата сума на честотите).


По този начин 50% от единиците в популацията ще бъдат с магнитуд по-малък от 53,06
Вариационни индикатори.
Абсолютни показатели за вариация.

R = X max - X min
R = 60 - 43 = 17
Средно линейно отклонение - изчислява се, за да се вземат предвид разликите на всички единици от изследваната съвкупност.


Всяка стойност от серията се различава от другата с не повече от 2,3
Дисперсия - характеризира мярката за дисперсия около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).


Един безпристрастен оценител на дисперсия е последователен оценител на дисперсия.


Средно аритметично стандартно отклонение.

Всяка стойност от серията се различава от средната стойност от 53,3 с не повече от 3,21
Оценка на стандартното отклонение.

Относителни мерки за вариация.
Относителните показатели за вариация включват: коефициент на трептене, линеен коефициентвариации, относително линейно отклонение.
Коефициентът на вариация е мярка за относителната дисперсия на стойностите на съвкупността: той показва каква част от средната стойност на тази стойност е нейната средна дисперсия.

Тъй като v ≤ 30%, популацията е хомогенна и вариацията е слаба. На получените резултати може да се вярва.
Линеен коефициент на вариация или Относително линейно отклонение - характеризира съотношението на средната стойност на знака на абсолютните отклонения от средната стойност.

.
1. Нека проверим хипотезата, че X е разпределено върху нормален законизползвайки теста за съответствие на Pearson.

където p i е вероятността за попадение i-ти интервалслучайна променлива, разпределена по хипотетичен закон
За да изчислим вероятностите p i, прилагаме формулата и таблицата на функцията на Лаплас

където s = 3,21, x av = 53,3
Теоретичната (очаквана) честота е n i = np i , където n = 36

Групиране на интервалиНаблюдавана честота n ix 1 = (x i -x )/sx 2 = (x i+1 -x )/sF(x 1)F(x 2)Вероятност за попадане в i-тия интервал, p i = Ф(x 2) - Ф(x 1)Очаквана честота, 36p iСтатистически условия на Pearson, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84



Неговата граница K kp = χ 2 (k-r-1; α) се намира от таблиците за разпределение χ 2 и дадените стойности s, k (брой интервали), r = 2 (параметрите x cp и s се оценяват от проба).
Kkp = 7,81473; Knabl = 9,84
Наблюдаваната стойност на статистиката на Pearson попада в критичната област: Knable > не според нормалните закони.


Пример №2. Използвайки теста на Pearson, при ниво на значимост 0,05, проверете дали хипотезата за нормалното разпределение на популацията X е в съответствие с емпирично разпределениеразмер на извадката n = 200.

Решениенамерете с помощта на калкулатор.
Таблица за изчисляване на показатели.

x iКоличество, f ix i f iКумулативна честота, S(x-x) f(x-x ) 2 f(x-x) 3 fЧестота, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1
Индикатори на разпределителен център.
Среднопретеглена стойност


Вариационни индикатори.
.
Диапазонът на вариация е разликата между максималните и минималните стойности на характеристиката на първичната серия.
R = X max - X min
R = 21 - 5 = 16
дисперсия- характеризира мярката за дисперсия около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).


Безпристрастен оценител на дисперсията- последователна оценка на дисперсията.


Стандартно отклонение.

Всяка стойност от серията се различава от средната стойност от 12,63 с не повече от 4,7
Оценка на стандартното отклонение.

Проверка на хипотези за вида на разпределението.
1. Нека проверим хипотезата, че X е разпределено върху нормален законизползвайки теста за съответствие на Pearson.

където n* i са теоретични честоти:

Нека изчислим теоретичните честоти, като вземем предвид, че:
n = 200, h=2 (ширина на интервала), σ = 4,7, x av = 12,63
азx iu iφin*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Нека сравним емпиричните и теоретичните честоти. Нека създадем таблица за изчисление, от която намираме наблюдаваната стойност на критерия:
Χ 2 =
азn in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86
Нека определим границата на критичната област. Тъй като статистиката на Pearson измерва разликата между емпиричните и теоретичните разпределения, колкото по-голяма е нейната наблюдавана стойност K obs, толкова по-силен е аргументът срещу основната хипотеза.
Следователно критичната област за тези статистики винаги е дясната :)

Подобни статии