Как се дефинира параболичен регресионен модел? Изследване на статистическата зависимост на промените в свойствата на резервоара и пластовите течности в резултат на разработването на нефтени находища

1. Кои от следните измервания принадлежат към класа на имената на измервателните везни:
а) числа, кодиращи темперамента;


г) телефонни номера.

2. Кои от следните измервания принадлежат към класа на измервателните везни:

б) академично звание като мярка за напредък в кариерата;
в) метрична система за измерване на разстояние;
г) телефонни номера.

3. Кои от следните измервания принадлежат към класа на съотношенията на измервателните скали:
а) числа, кодиращи темперамента;
б) академично звание като мярка за напредък в кариерата;
в) метрична система за измерване на разстояние;
г) телефонни номера.

4. Кои от следните характеристики принадлежат към количествените видове:

б) семейни връзки на членовете на семейството;
в) пол и възраст на лицето;
г) социално положение на вложителя;
д) брой деца в семейството;
е) оборот на дребно на търговски предприятия.

5. Кои от следните характеристики принадлежат към качествени типове:
а) броя на служителите във фирмата;
б) семейни връзки на членовете на семейството;
в) пол и възраст на лицето;
г) социално положение на вложителя;
д) брой деца в семейството;
е) оборот на дребно на търговски предприятия.

6. Каква скала се използва за измерване на нивото на интелигентност на човек:
а) имена;
б) редни;
в) интервал;
г) взаимоотношения.

7. Средно стандартно отклонение- Това:
а) квадрат на обхвата на вариационната серия;
б) корен квадратен от дисперсията;
в) квадрат на коефициента на вариация;
г) корен квадратен от величината на диапазона на изменение.

8. Коефициентът на вариация на серия се определя от отношението:
а) стандартно отклонение от средната аритметична стойност на серията;
б) дисперсия към медианата на серията;
в) дисперсия до максималната стойност на серията;
г) абсолютният показател за вариация на средноаритметичната стойност на реда.

9. Мода на тази вариационна серия

х 10 15 35
n 1 2 3

Това:
а) 20;
б) 16;
на 3;
г) 35.

10. Средната аритметична стойност на съвкупността е:
а) стойността на характеристиката в средата на вариационната серия;
б) полуразлика между максималните и минималните стойности на вариационната серия;
в) половината от сумата от максималните и минималните стойности на вариационната серия;
г) отношението на сумата от всички количества в съвкупността към общия им брой.

11. Известни са данни за трудовия стаж на седем търговци в магазини: 2; 3; 2; 5; 10; 7; 1 години Намерете средната стойност на техния трудов стаж.
а) 4,3 години;
б) 5 години;
в) 3 години;
г) 3,8 години.

12. Серията за разпространение е:
а) последователност от примерни данни;
б) подредено подреждане на данните по количествени характеристики;
V) числова последователностданни;
г) последователност от стойности, подредени по качествени характеристики.

13. Честотата на вариантите на вариационна серия се нарича:
а) размер на извадката;
б) значението на вариантите на вариационната серия;
в) броя на отделните варианти или групи от една вариационна серия;
г) броя на групите от вариационната серия.

14. Модата е:
а) максималната стойност на атрибута население;
б) най-често срещаната стойност на атрибута;
в) средноаритметичното на съвкупността.

15. Известни са данни за трудовия стаж на търговците в магазини: 2; 3; 2; 5; 10; 7; 1. Намерете медианата на техния трудов опит:
а) 4,5 години;
б) 4,3 години;
в) 3 години;
г) 5 години.

16. Вариационен диапазон на тази вариационна серия:
х 10 15 20 30
n 1 2 3 2

Това:
а) 15;
б) 10;
в) 30;
г) 20.

17. Броят на поръчаните серии се разделя наполовина:
а) мода;
б) средно аритметично;
в) средна хармонична;
г) медиана.

18. Статистическото групиране е:
а) комбиниране или разделяне на данни според съществени характеристики;
б) научна организация на статистическото наблюдение;
в) видове отчетност;
г) директно събиране на масови данни.

19. Коефициентът на трептене е:
а) абсолютен показател;
б) средно;
в) относителен показател за вариация.

20. Дисперсията на вариационна серия характеризира:
а) средната стойност на индивидуалните характеристики;
б) дисперсия на индивидуалните стойности на характеристиките от средната стойност;
в) стандартно отклонение.

21. Уравнението на линейната регресионна функция отразява динамиката на развитие:
а) с променливо ускорение;

в) униформа;
г) равномерно ускорено.

22. Ако стойността на коефициента на корелация е 0,6, тогава според скалата на Chadd.ka:
а) практически няма връзка;
б) връзката е слаба;
в) връзката е умерена;
г) връзката е силна.

23. Данните представляват резултатите на възрастни на теста за IQ на Станфорд-Бине: 104, 87, 101, 130, 148, 92, 97, 105, 134, 121. Намерете обхвата на вариация:
а) 61;
б) 60;
в) 75.

24. Намерете среднопретеглената аритметична стойност за следните интервални серии:

ли ни
10-14 1
15-19 1
20-24 4
25-29 2
30-34 4

а) 24;
б) 24,92;
в) 25,38.

25. Изчислете медианата на следващата серия 2.1; 1,5; 1.6; 2.1; 2.4:
а) 2;
б) 1,5;
в) 2.1.

26. Изчислете режима на следващата интервална серия

честота 5-7 8-10 11-13 14-16
интервал 4 7 26 41

а) 14;
б) 14,54;
в) 15,23;

27. Кои от следните измервания принадлежат към класа наименования на измервателни везни:
а) диагноза на пациента;
б) регистрационни табели;
в) твърдост на минерала;
г) календарно време;
д) теглото на човек.

28. Кои от следните измервания принадлежат към класа на ординалните измервателни скали:
а) диагноза на пациента;
б) регистрационни табели;
в) твърдост на минерала;
г) календарно време;
д) теглото на човек.

29. Кои от следните измервания принадлежат към класа на интервалните измервателни скали:
а) диагноза на пациента;
б) регистрационни табели;
в) твърдост на минерала;
г) календарно време;
д) теглото на човек.
30. Кои от следните измервания принадлежат към класа на съотношенията на измервателните скали:
а) диагноза на пациента;
б) регистрационни табели;
в) твърдост на минерала;
г) календарно време;
д) теглото на човек.

31. Каква скала се използва при измерване на времето:
а) интервал;
б) взаимоотношения;
в) Чадок.

32. Количествените видове включват следните характеристики:
а) човешки ръст;
б) награди за заслуги;
в) цвят на очите;
г) регистрационни табели.

33. Качествените типове включват следните характеристики:
а) човешки ръст;
б) награди за заслуги;
в) цвят на очите;
г) регистрационни табели

34. Изчислителен режим

xi 5 8 10 13 14
ni 7 4 5 9 1

а) 10;
б) 11;
в) 13

35. При голям брой ученици в класове има по-малък успех в усвояването на знания за една четвърт, отколкото в малки класове. Какво е ефективен знак?
а) броят на учениците в класа;
б) успех в усвояването на знания,
в) броят на учениците с успех в усвояването на знания.

36. Дължината на интервал в интервална серия е:
а) диапазонът на вариация, разделен на средноаритметичната стойност;
б) диапазонът на вариация, разделен на броя на групите;
в) дисперсия, разделена на размера на извадката.

37. Пример за двойна корелация: учениците, които се научават да четат по-рано от другите, са склонни да имат по-високи академични резултати. Кой от тези показатели: ранна способност за четене или високи постижения на учениците е факторен индикатор?
а) способността за ранно четене;
б) висока академична успеваемост;
в) нито един от тях.

38. Кой от следните методи може да се използва при сравняване на средните стойности на три или повече проби:
а) Тест на ученика;
б) тест на Фишер;
в) дисперсионен анализ.

39. Размер на извадката от вариационната серия

xi 10 15 20 30
ni 1 2 3 2

а) 5;
б) 8;
на 12;
г) 30.

40. Вариационна серия мода

xi 10 15 20 25
ni 1 5 4 3

а) 15;
б) 5;
в) 23;
г) 3.

41. Уравнението на параболичната регресионна функция отразява динамиката на развитие:
а) с променливо ускорение;
б) със забавяне на растежа в края на периода;
в) униформа;
г) равномерно ускорено.

42. Коефициентът на регресия B показва:
а) очакваната стойност на зависимата променлива при нулева стойност на предиктора
б) очакваната стойност на зависимата променлива, когато предикторът се промени с единица
в) вероятност за регресионна грешка
г) този въпрос все още не е окончателно решен

43. Вземането на проби е:
а) цялата съвкупност от обекти, върху които се основават разсъжденията на изследователя;
б) разнообразие от обекти, достъпни за емпирично изследване;
в) всички възможни стойности на дисперсия;
г) същото като рандомизирането.

44. Кой от следните коефициенти на корелация показва най-голяма връзка между променливите:
а) -0,90;
б) 0;
в) 0,07;
г) 0,01.

45. Генералната съвкупност е:
а) цялата съвкупност от обекти, върху които се основават разсъжденията на изследователя;
б) разнообразие от обекти, достъпни за емпирично изследване;
в) всички възможни стойности на математическото очакване;
г) нормално разпределение.

46. ​​​​Как определят размерите на извадката и население:
а) извадката обикновено е значително по-малка от генералната съвкупност;
б) съвкупността винаги е по-малка от извадката;
в) извадката и съвкупността почти винаги съвпадат;
г) няма верен отговор.

47. Точковият бисериален корелационен коефициент е специален случай на корелационния коефициент:
а) Копиеносец;
б) Пиърсън;
в) Кендал;
г) всички отговори са верни.

48. При какво минимално ниво на значимост е обичайно да се отхвърля нулевата хипотеза?
а) 5% ниво
б) ниво 7%.
в) 9% ниво
г) 10% ниво

49. Кой от следните методи обикновено се използва при сравняване на средните стойности в две нормални проби:
а) Тест на ученика;
б) тест на Фишер;
в) еднопосочен дисперсионен анализ;
г) корелационен анализ.

50. Как се проверяват статистическите хипотези?
а) статистик;
б) параметри;
в) експерименти;
г) наблюдения.

51. Коя от следните стойности на коефициента на корелация е невъзможна:
а) -0,54;
б) 2,18;
в) 0; г) 1.

52. Каква трансформация трябва да се направи при сравняване на два коефициента на корелация:
студент;
б) Фишер;
в) Пиърсън;
г) Копиеносец.

53. Какво е медианата на разпределението:
а) същото като ъглополовящата;
б) същото като модата;
в) средно аритметично;
г) 50% квантил от разпределението;
г) няма верен отговор.

54. Точковият бисериален корелационен коефициент е специален случай на корелационния коефициент:
а) Копиеносец;
б) Пиърсън;
в) Кендъл;
г) всички отговори са верни.

55. Коя от следните променливи е дискретна:
а) тип темперамент;
б) ниво на интелигентност;
в) време за реакция;
г) всички отговори са верни.

56. В какъв диапазон може да се промени коефициентът на корелация:
а) от –1 до 1;
б) от 0 до 1;
в) от 0 до 100;
г) във всеки.

57. Какво представляват статистическите хипотези относно:
а) концепции;
б) статистик;
в) проби;
г) параметри.

58. Как се нарича непараметричният аналог дисперсионен анализ:
а) Тест на ученика;
б) метод на Крускал-Уолис;
в) тест на Wilcoxon;
г) Тест на Ман-Уитни.

59. Концепцията за коефициент на корелация е разработена за първи път в произведенията:
а) Фишер;
б) Тест на ученика;
в) Пиърсън;
г) Копиеносец.

60. Коя от следните статистики е безпристрастна оценка на очакваната стойност:
а) средно аритметично;
б) мода;
в) медиана;
г) всички отговори са верни.

61. Как се сравняват коефициентите на корелация на Pearson и Spearman:
а) коефициентът на Пиърсън е частен случай на Спирман;
б) коефициентът на Спирман е частен случай на Пиърсън;
в) тези коефициенти имат различна логика на изграждане;
г) това е едно и също нещо.

62. Съгласно теоретичните допускания на дисперсионния анализ F-отношението не може да бъде:
а) е равно на 1;
б) повече от 1;
в) по-малко от 1;
г) няма верен отговор.

Зависимост между променливи количества X и Y могат да бъдат описани по различни начини. По-специално, всяка форма на връзка може да бъде изразена чрез уравнението общ изглед y= f(x),където y се разглежда като зависима променлива или функция на друга - независима променлива x, т.нар аргумент. Съответствието между аргумент и функция може да бъде определено чрез таблица, формула, графика и т.н. Промяна във функция в зависимост от промени в един или повече аргументи се нарича регресия.

Срок "регресия"(от лат. regressio - движение назад) е въведен от Ф. Галтън, който изучава унаследяването на количествените признаци. Той разбра. че потомството на високи и ниски родители се връща (регресира) 1/3 към средното ниво на този признак в дадена популация. С по-нататъшното развитие на науката този термин губи буквалното си значение и започва да се използва за обозначаване на връзката между променливите Y и X.

Има много различни форми и видове корелации. Задачата на изследователя се свежда до идентифициране във всеки конкретен случай на формата на връзката и изразяването й с подходящо корелационно уравнение, което позволява да се предвидят възможни промени в една характеристика Y въз основа на известни промени в друга X, която е в корелация с първата .

Уравнение на парабола от втори род

Понякога връзките между променливите Y и X могат да бъдат изразени чрез формулата на параболата

Където a,b,c са неизвестни коефициенти, които трябва да се намерят, при известни измервания на Y и X

Можете да решите с помощта на матричния метод, но вече има изчислени формули, които ще използваме

N - брой членове на регресионния ред

Y - стойности на променливата Y

X - стойности на променлива X

Ако използвате този бот през XMPP клиент, тогава синтаксисът е както следва

регресия ред X; ред Y;2

Където 2 - показва, че регресията е изчислена като нелинейна под формата на парабола от втори ред

Е, време е да проверим нашите изчисления.

Така че има маса

х Y
1 18.2
2 20.1
3 23.4
4 24.6
5 25.6
6 25.9
7 23.6
8 22.7
9 19.2

Налични са следните данни различни странивърху индекса на цените на дребно на храните (x) и върху индекса на индустриалното производство (y).

Индекс на цените на храните на дребно (x)Индекс на индустриалното производство (y)
1 100 70
2 105 79
3 108 85
4 113 84
5 118 85
6 118 85
7 110 96
8 115 99
9 119 100
10 118 98
11 120 99
12 124 102
13 129 105
14 132 112

Задължително:

1. За да характеризирате зависимостта на y от x, изчислете параметрите на следните функции:

А) линейни;

Б) успокоен;

Б) равностранна хипербола.

3. Оценете статистическата значимост на регресионните и корелационните параметри.

4. Направете прогноза за стойността на индекса на индустриалното производство y с прогнозната стойност на индекса на цените на дребно на храните x=138.

Решение:

1. Да се ​​изчислят параметрите на линейната регресия

Решаваме системата от нормални уравнения за a и b:

Нека изградим таблица с изчислени данни, както е показано в таблица 1.

Таблица 1 Приблизителни данни за оценка с линейна регресия

Не.хприxyх 2y 2
1 100 70 7000 10000 4900 74,26340 0,060906
2 105 79 8295 11025 6241 79,92527 0,011712
3 108 85 9180 11664 7225 83,32238 0,019737
4 113 84 9492 12769 7056 88,98425 0,059336
5 118 85 10030 13924 7225 94,64611 0,113484
6 118 85 10030 13924 7225 94,64611 0,113484
7 110 96 10560 12100 9216 85,58713 0,108467
8 115 99 11385 13225 9801 91,24900 0,078293
9 119 100 11900 14161 10000 95,77849 0,042215
10 118 98 11564 13924 9604 94,64611 0,034223
11 120 99 11880 14400 9801 96,91086 0,021102
12 124 102 12648 15376 10404 101,4404 0,005487
13 129 105 13545 16641 11025 107,1022 0,020021
14 132 112 14784 17424 12544 110,4993 0,013399
Обща сума: 1629 1299 152293 190557 122267 1299,001 0,701866
Средна стойност: 116,3571 92,78571 10878,07 13611,21 8733,357 х х
8,4988 11,1431 х х х х х
72,23 124,17 х х х х х

Средната стойност се определя по формулата:

Изчисляваме стандартното отклонение по формулата:

и въведете резултата в таблица 1.

Чрез повдигане на квадрат получената стойност получаваме дисперсията:

Параметрите на уравнението могат да се определят и с помощта на формулите:

Така че регресионното уравнение е:

Следователно при увеличение на индекса на цените на дребно на храните с 1, индексът на промишленото производство нараства средно с 1,13.

Нека изчислим коефициента на корелация на линейната двойка:

Връзката е пряка и доста близка.

Нека определим коефициента на детерминация:

Разликата в резултата е 74,59%, което се обяснява с промяната във фактора x.

Замествайки действителните стойности на x в регресионното уравнение, ние определяме теоретичните (изчислени) стойности.

следователно параметрите на уравнението са определени правилно.

Нека изчислим средната грешка на приближаване - средното отклонение на изчислените стойности от действителните:

Средно изчислените стойности се отклоняват от реалните с 5,01%.

Ще оценим качеството на регресионното уравнение с помощта на F-теста.

F-тестът се състои от тестване на хипотезата H 0 за статистическата незначимост на регресионното уравнение и индикатора за близостта на връзката. За да направите това, се прави сравнение между действителния F факт и критичните (таблични) F таблични стойности на F-критерия на Fisher.

Фактът F се определя по формулата:

където n е броят на единиците от съвкупността;

m е броят на параметрите за променливите x.

Получените оценки на регресионното уравнение позволяват то да се използва за прогнозиране.

Ако прогнозната стойност на индекса на цените на храните на дребно е x = 138, тогава прогнозната стойност на индекса на промишленото производство ще бъде:

2. Степенната регресия има формата:

За определяне на параметрите се извършва логаритъм на степенната функция:

За да се определят параметрите на логаритмичната функция, се конструира система от нормални уравнения, като се използва методът на най-малките квадрати:

Нека изградим таблица с изчислени данни, както е показано в таблица 2.

Таблица 2 Изчислени данни за оценка на регресията на мощността

Не.хприlg xlg ylg x*lg y(log x) 2(дневник y) 2
1 100 70 2,000000 1,845098 3,690196 4,000000 3,404387
2 105 79 2,021189 1,897627 3,835464 4,085206 3,600989
3 108 85 2,033424 1,929419 3,923326 4,134812 3,722657
4 113 84 2,053078 1,924279 3,950696 4,215131 3,702851
5 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
6 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
7 110 96 2,041393 1,982271 4,046594 4,167284 3,929399
8 115 99 2,060698 1,995635 4,112401 4,246476 3,982560
9 119 100 2,075547 2,000000 4,151094 4,307895 4,000000
10 118 98 2,071882 1,991226 4,125585 4,292695 3,964981
11 120 99 2,079181 1,995635 4,149287 4,322995 3,982560
12 124 102 2,093422 2,008600 4,204847 4,382414 4,034475
13 129 105 2,110590 2,021189 4,265901 4,454589 4,085206
14 132 112 2,120574 2,049218 4,345518 4,496834 4,199295
Обща сума 1629 1299 28,90474 27,49904 56,79597 59,69172 54,05467
Средна стойност 116,3571 92,78571 2,064624 1,964217 4,056855 4,263694 3,861048
8,4988 11,1431 0,031945 0,053853 х х х
72,23 124,17 0,001021 0,0029 х х х

Продължение на таблица 2 Изчислени данни за оценка на регресията на мощността

Не.хпри
1 100 70 74,16448 17,34292 0,059493 519,1886
2 105 79 79,62057 0,385112 0,007855 190,0458
3 108 85 82,95180 4,195133 0,024096 60,61728
4 113 84 88,59768 21,13866 0,054734 77,1887
5 118 85 94,35840 87,57961 0,110099 60,61728
6 118 85 94,35840 87,57961 0,110099 60,61728
7 110 96 85,19619 116,7223 0,11254 10,33166
8 115 99 90,88834 65,79901 0,081936 38,6174
9 119 100 95,52408 20,03384 0,044759 52,04598
10 118 98 94,35840 13,26127 0,037159 27,18882
11 120 99 96,69423 5,316563 0,023291 38,6174
12 124 102 101,4191 0,337467 0,005695 84,90314
13 129 105 107,4232 5,872099 0,023078 149,1889
14 132 112 111,0772 0,85163 0,00824 369,1889
Обща сума 1629 1299 1296,632 446,4152 0,703074 1738,357
Средна стойност 116,3571 92,78571 х х х х
8,4988 11,1431 х х х х
72,23 124,17 х х х х

Чрез решаване на система от нормални уравнения ние определяме параметрите на логаритмичната функция.

Получаваме линейно уравнение:

След като извършихме неговото потенциране, получаваме:

Заместване в дадено уравнениедействителните стойности на x, получаваме теоретичните стойности на резултата. Въз основа на тях ще изчислим показателите: плътност на връзката - индекс на корелация и средна апроксимационна грешка.

Връзката е доста тясна.

Средно изчислените стойности се отклоняват от реалните с 5,02%.

По този начин H 0 - се отхвърля хипотезата за случайния характер на оценяваните характеристики и се признава тяхната статистическа значимост и надеждност.

Получените оценки на регресионното уравнение позволяват то да се използва за прогнозиране. Ако прогнозната стойност на индекса на цените на храните на дребно е x = 138, тогава прогнозната стойност на индекса на промишленото производство ще бъде:

За определяне на параметрите на това уравнение се използва система от нормални уравнения:

Нека направим промяна на променливите

и получаваме следната система от нормални уравнения:

Чрез решаване на система от нормални уравнения ние определяме параметрите на хиперболата.

Нека създадем таблица с изчислени данни, както е показано в таблица 3.

Таблица 3 Изчислителни данни за оценка на хиперболичната зависимост

Не.хприzyz
1 100 70 0,010000000 0,700000 0,0001000 4900
2 105 79 0,009523810 0,752381 0,0000907 6241
3 108 85 0,009259259 0,787037 0,0000857 7225
4 113 84 0,008849558 0,743363 0,0000783 7056
5 118 85 0,008474576 0,720339 0,0000718 7225
6 118 85 0,008474576 0,720339 0,0000718 7225
7 110 96 0,009090909 0,872727 0,0000826 9216
8 115 99 0,008695652 0,860870 0,0000756 9801
9 119 100 0,008403361 0,840336 0,0000706 10000
10 118 98 0,008474576 0,830508 0,0000718 9604
11 120 99 0,008333333 0,825000 0,0000694 9801
12 124 102 0,008064516 0,822581 0,0000650 10404
13 129 105 0,007751938 0,813953 0,0000601 11025
14 132 112 0,007575758 0,848485 0,0000574 12544
Обща сума: 1629 1299 0,120971823 11,13792 0,0010510 122267
Средна стойност: 116,3571 92,78571 0,008640844 0,795566 0,0000751 8733,357
8,4988 11,1431 0,000640820 х х х
72,23 124,17 0,000000411 х х х

Продължение на таблица 3 Изчислени данни за оценка на хиперболичната зависимост

Нека разгледаме сдвоен линеен регресионен модел на връзката между две променливи, за които регресионната функция φ(x)линеен. Нека означим с г хусловно средно на характеристиката Yв популацията на фиксирана стойност хпроменлива х. Тогава регресионното уравнение ще изглежда така:

г х = брадва + b, Където арегресионен коефициент(индикатор за наклона на линията на линейна регресия) . Коефициентът на регресия показва с колко единици се променя средно променливата Yпри промяна на променлива хза една единица. Използвайки метода на най-малките квадрати, се получават формули, които могат да се използват за изчисляване на параметрите на линейна регресия:

Таблица 1. Формули за изчисляване на параметрите на линейната регресия

Безплатен член b

Коефициент на регресия а

Коефициент на определяне

Тестване на хипотезата за значимостта на регресионното уравнение

н 0 :

н 1 :

, ,, Приложение 7 (за линейна регресия p = 1)

Посоката на връзката между променливите се определя въз основа на знака на регресионния коефициент. Ако знакът на регресионния коефициент е положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. Ако знакът на регресионния коефициент е отрицателен, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

За да се анализира общото качество на регресионното уравнение, се използва коефициентът на детерминация Р 2 , наричан още квадрат на коефициента на множествена корелация. Коефициентът на детерминация (мярка за сигурност) винаги е в рамките на интервала. Ако стойността Р 2 близо до единица, това означава, че конструираният модел обяснява почти цялата вариабилност в съответните променливи. Обратно, смисълът Р 2 близо до нула означава лошо качество на конструирания модел.

Коефициент на определяне Р 2 показва с какъв процент намерената регресионна функция описва връзката между първоначалните стойности YИ х. На фиг. Фигура 3 показва вариацията, обяснена от регресионния модел и общата вариация. Съответно, стойността показва колко процента е вариацията на параметъра Yпоради фактори, които не са включени в регресионния модел.

При висока стойност на коефициента на детерминация от 75%) може да се направи прогноза за конкретна стойност в рамките на първоначалните данни. При прогнозиране на стойности извън диапазона на първоначалните данни, валидността на получения модел не може да бъде гарантирана. Това се обяснява с факта, че може да се появи влиянието на нови фактори, които моделът не отчита.

Значимостта на регресионното уравнение се оценява с помощта на критерия на Фишер (виж таблица 1). При условие, че нулевата хипотеза е вярна, критерият има разпределение на Фишер с броя на степените на свобода , (за сдвоена линейна регресия p = 1). Ако нулевата хипотеза бъде отхвърлена, тогава регресионното уравнение се счита за статистически значимо. Ако нулевата хипотеза не бъде отхвърлена, тогава регресионното уравнение се счита за статистически незначимо или ненадеждно.

Пример 1.В машинния цех се анализира структурата на себестойността на продукта и дела на закупените компоненти. Беше отбелязано, че цената на компонентите зависи от времето на доставката им. Изминатото разстояние беше избрано като най-важен фактор, влияещ върху времето за доставка. Извършете регресионен анализ на данните за доставките:

Разстояние, мили

Време, мин

За да извършите регресионен анализ:

    изградете графика на първоначалните данни, приблизително определете естеството на зависимостта;

    изберете вида на регресионната функция и определете числените коефициенти на модела с помощта на метода на най-малките квадрати и посоката на връзката;

    оцени силата на регресионната зависимост с помощта на коефициента на детерминация;

    оцени значимостта на регресионното уравнение;

    направете прогноза (или заключение за невъзможността за прогнозиране), като използвате възприетия модел за разстояние от 2 мили.

2. Изчислете сумите, необходими за изчисляване на коефициентите на уравнението на линейната регресия и коефициента на определянеР 2 :

; ;;.

Търсената регресионна зависимост има формата: . Определяме посоката на връзката между променливите: знакът на регресионния коефициент е положителен, следователно връзката също е положителна, което потвърждава графичното предположение.

3. Нека изчислим коефициента на детерминация: или 92%. Така линейният модел обяснява 92% от вариацията във времето за доставка, което означава, че факторът (разстоянието) е избран правилно. 8% от вариацията във времето не е обяснена, което се дължи на други фактори, които влияят на времето за доставка, но не са включени в модела на линейна регресия.

4. Нека проверим значението на регресионното уравнение:

защото– регресионното уравнение (линеен модел) е статистически значимо.

5. Да решим задачата за прогнозиране. Тъй като коефициентът на детерминацияР 2 има достатъчно висока стойност и разстоянието от 2 мили, за което трябва да се направи прогнозата, е в обхвата на входните данни, тогава прогнозата може да бъде направена:

Регресионният анализ може удобно да се извърши с помощта на възможностите Excel. В режим на работа "Регресия" се изчисляват параметрите на уравнението на линейната регресия и се проверява неговата адекватност за изследвания процес. В диалоговия прозорец попълнете следните параметри:

Пример 2. Изпълнете задачата от пример 1, като използвате режима "Регресия".Excel.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Регресионна статистика

множествено число Р

R-квадрат

Нормализиран R-квадрат

Стандартна грешка

Наблюдения

Коефициенти

Стандартна грешка

t-статистика

P-стойност

Y-образно пресичане

Променлива X 1

Нека разгледаме резултатите от регресионния анализ, представени в таблицата.

величинаR-квадрат , наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). В нашия пример мярката за сигурност е 0,91829, което показва много добро прилягане на регресионната линия към оригиналните данни и съвпада с коефициента на определянеР 2 , изчислено по формулата.

множествено число Р - коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y) и е равен на корен квадратен от коефициента на детерминация. При прост линеен регресионен анализмножествен R коефициентравно на линеен коефициенткорелации (r = 0,958).

Коефициенти на линейния модел:Y - пресечка отпечатва стойността на фиктивния членb, Апроменлива X1 – коефициент на регресия a. Тогава уравнението на линейната регресия е:

y = 2,6597х+ 5,9135 (което се съгласува добре с резултатите от изчислението в пример 1).

След това нека проверим значението на регресионните коефициенти:аИb. Сравняване на стойностите на колоните по двойкиКоефициенти ИСтандартна грешка В таблицата виждаме, че абсолютните стойности на коефициентите са по-големи от техните стандартни грешки. В допълнение, тези коефициенти са значими, както може да се съди по стойностите на индикатора P-стойност, които са по-малки от определеното ниво на значимост α = 0,05.

Наблюдение

Прогнозира Y

Остатъци

Стандартни баланси

Таблицата показва изходните резултатиостатъци. Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойностостатъкв този случай - 1,89256, най-малката - 0,05399. За да интерпретирате по-добре тези данни, изчертайте оригиналните данни и построената регресионна линия. Както се вижда от конструкцията, регресионната линия е добре „напасната“ към стойностите на първоначалните данни, а отклоненията са случайни.

Друг вид еднофакторна регресия е апроксимация чрез степенни полиноми от формата:

Естествено е да искаме да получим възможно най-простата зависимост, ограничавайки се до степенни полиноми от втора степен, т.е. параболична зависимост:
(5.5.2)

Нека изчислим частните производни по отношение на коефициентите b 0 , b 1 И b 2 :



(5.5.3)

Приравнявайки производните на нула, получаваме нормална система от уравнения:

(5.5.4)

Решаване на системата от нормални уравнения (5.5.2) за конкретен случай на стойности х аз * , г аз * ;
получаваме оптимални стойности b 0 , b 1 И b 2 . За апроксимация чрез зависимост (5.5.2) и още повече (5.5.1) не са получени прости формули за изчисляване на коефициентите и по правило те се изчисляват по стандартни процедури в матрична форма:

(5.5.5)

Фигура 5.5.1 показва типичен пример за апроксимация чрез параболична зависимост:

9 (5;9)

(1;1)

1

1 2 3 4 5 x

Фиг.5.5.1. Координати на експериментални точки и приближени

тяхната параболична зависимост

Пример 5.1.Приближете експерименталните резултати, дадени в таблица 5.1.1, с уравнение на линейна регресия
.

Таблица 5.1.1

Нека построим експериментални точки според координатите, посочени в Таблица 5.1.1 на графиката, представена на Фиг. 5.1.1.

при

9

4

1 2 3 4 5 х

Според фиг. 5.1.1, на която ще начертаем права линия за предварителна оценка, ще заключим, че има ясно изразена нелинейност в разположението на експерименталните точки, но тя не е много значима и затова има смисъл да ги приближим линейна зависимост. Имайте предвид, че за да получите правилно математическо заключение, е необходимо да построите права линия, като използвате метода на най-малките квадрати.

Преди да извършите регресионен анализ, препоръчително е да изчислите

коефициент на линейна корелация между променливите хИ при:

Значимостта на корелационната връзка се определя от критичната стойност на коефициента на линейна корелация, изчислена по формулата:

Критична стойност на теста на Стюдънт T Критнамерени по статистически таблици за препоръчаното ниво на значимост а=0,05и за н-2 степени на свобода. Ако изчислената стойност r xyне по-малко от критичната стойност r Крит, след това корелацията между променливите х И г считани за съществени. Нека направим изчисленията:










Поради факта че
заключаваме, че корелацията между променливите хИ прие значителна и може да бъде линейна.

Нека изчислим коефициентите на регресионното уравнение:

Така получихме уравнение на линейна регресия:

Използвайки уравнението на регресията, начертаваме права линия на фиг. 5.1.2.

y (5;9,8)

9

4

(0;-0.2) 1 2 3 4 5 x

Фиг.5.1.2. Координати на експериментални точки и приближени

тяхната линейна зависимост

Използвайки регресионното уравнение, ние изчисляваме стойностите на функцията въз основа на експерименталните точки от таблица 5.1.1 и разликата между експерименталните и изчислените стойности на функцията, които представяме в таблица 5.1.2.

Таблица 5.1.2


Нека изчислим средната квадратична грешка и съотношението й към средната стойност:

По отношение на стандартната грешка спрямо средната стойност е получен незадоволителен резултат, тъй като е превишена препоръчителната стойност от 0,05.

Нека оценим нивото на значимост на коефициентите на регресионното уравнение с помощта на t-теста на Стюдънт:


От статистическата таблица за 3 степени на свобода ще запишем редовете с нивото на значимост - и стойността на критерия на Стюдънт Tкъм таблица 5.1.3.

Таблица 5.1.3

Ниво на значимост на коефициентите на регресионното уравнение:


Имайте предвид, че според нивото на значимост за коеф се получи задоволителен резултат, а за коеф незадоволителен.

Нека оценим качеството на полученото регресионно уравнение, като използваме показатели, изчислени въз основа на анализ на дисперсията:

Преглед:

Резултатът от проверката е положителен, което показва правилността на извършените изчисления.

Нека изчислим критерия на Фишер:

с две степени на свобода:

Използвайки статистически таблици, намираме критичните стойности на критерия на Фишер за две препоръчителни градации на нивото на значимост:


Тъй като изчислената стойност на теста на Фишер надвишава критичната стойност за нивото на значимост от 0,01, ще приемем, че нивото на значимост според теста на Фишер е по-малко от 0,01, което ще се счита за задоволително.

Нека изчислим коефициента на множествена детерминация:

за две степени на свобода

Използвайки статистическата таблица за препоръчителното ниво на значимост от 0,05 и намерените две степени на свобода, намираме критичната стойност на коефициента на множествена детерминация:

Тъй като изчислената стойност на коефициента на множествена детерминация надвишава критичната стойност за нивото на значимост
, след това нивото на значимост според коефициента на множествена детерминация
и полученият резултат по представения показател ще се счита за задоволителен.

По този начин получените изчислени параметри по отношение на съотношението на стандартната грешка към средната стойност и нивото на значимост според теста на Стюдънт са незадоволителни, поради което е препоръчително да се избере друга апроксимираща зависимост за апроксимация.

Пример 5.2.Апроксимация на експерименталното разпределение на случайни числа чрез математическа зависимост

Експерименталното разпределение на случайни числа, дадено в таблица 5.1.1, при апроксимация с линейна зависимост не доведе до задоволителен резултат, вкл. поради незначителността на коефициента на регресионното уравнение със свободен член, следователно, за да подобрим качеството на приближението, ще се опитаме да го извършим, като използваме линейна зависимост без свободен член:

Нека изчислим стойността на коефициента на регресионното уравнение:

Така получихме регресионното уравнение:

Използвайки полученото регресионно уравнение, изчисляваме стойностите на функцията и разликата между експерименталните и изчислените стойности на функцията, които представяме под формата на таблица 5.2.1.

Таблица 5.2.1

х аз

Според уравнението на регресията
на фиг. 5.2.1 ще начертаем права линия.

y (5;9.73 )

(0;0) 1 2 3 4 5 x

Фиг.5.2.1. Координати на експериментални точки и приближени

тяхната линейна зависимост

За да оценим качеството на приближението, ще извършим изчисления на показатели за качество, подобни на изчисленията, дадени в пример 5.1.

(остава старо);

с 4 степени на свобода;

За

Въз основа на резултатите от апроксимацията отбелязваме, че по отношение на нивото на значимост на коефициента на регресионното уравнение е получен задоволителен резултат; Съотношението на стандартната грешка към средната стойност се е подобрило, но все още е над препоръчителната стойност от 0,05, така че се препоръчва да се повтори приближението с по-сложна математическа зависимост.

Пример 5.3.За да подобрим качеството на апроксимацията на примери 5.1 и 5.2, ще извършим нелинейна апроксимация чрез зависимостта
. За да направим това, първо ще направим междинни изчисления и ще поставим резултатите от тях в таблица 5.3.1.

Стойности

Таблица 5.3.1

х 2

(lnX) 2

lnX lnY

Нека изчислим допълнително:

Нека приближим зависимостта
. Използвайки формули (5.3.7), (5.3.8) изчисляваме коефициентите b 0 И b 1 :

Използвайки формули (5.3.11) изчисляваме коефициентите А 0 И А 1 :


За изчисляване на стандартната грешка са извършени междинни изчисления, представени в таблица 5.3.2.

Таблица 5.3.2

Y аз

г аз

Сума: 7.5968

Стандартната грешка на приближението се оказа много по-голяма, отколкото в предишните два примера, така че считаме резултатите от приближението за неизползваеми.

Пример 5.4.Нека се опитаме да апроксимираме с друга нелинейна зависимост
. Използвайки формули (5.3.9), (5.3.10) съгласно таблица 5.3.1, изчисляваме коефициентите b 0 И b 1 :

Имаме междинна зависимост:

Използвайки формули (5.3.13) изчисляваме коефициентите ° С 0 И ° С 1 :


Получаваме крайната зависимост:

За да изчислим стандартната грешка, ще извършим междинни изчисления и ще ги поставим в таблица 5.4.1.

Таблица 5.4.1

Y аз

г аз

Сума: 21.83152

Нека изчислим стандартната грешка:

Стандартната грешка на приближението се оказа много по-голяма, отколкото в предишния пример, така че считаме резултатите от приближението за неизползваеми.

Пример 5.5.Апроксимация на експерименталното разпределение на случайни числа чрез математическа зависимост г = b · lnx

Изходните данни, както в предишните примери, са показани в таблица 5.4.1 и фиг. 5.4.1.

Таблица 5.4.1

Въз основа на анализа на фиг. 5.4.1 и таблица 5.4.1 отбелязваме, че при по-малки стойности на аргумента (в началото на таблицата) функцията се променя повече, отколкото при по-големи стойности (в края от таблицата), следователно изглежда препоръчително да промените мащаба на аргумента и да въведете логаритмична функция в регресионното уравнение от него и да апроксимирате със следната математическа зависимост:

. По формула (5.4.3) изчисляваме коефициента b:

За да оценим качеството на апроксимацията, ще извършим междинни изчисления, представени в таблица 5.4.2, от които ще изчислим големината на грешката и отношението на стандартната грешка към средната стойност.

Таблица 5.4.2


Тъй като съотношението на стандартната грешка към средната стойност надвишава препоръчителната стойност от 0,05, резултатът ще се счита за незадоволителен. По-специално отбелязваме, че най-голямото отклонение се дава от стойността х=1,тъй като с тази стойност lnx=0. Затова ще направим приблизително зависимостта г = b 0 1 lnx

Представяме спомагателни изчисления под формата на таблица 5.4.3.

Таблица 5.4.3

Използвайки формули (5.4.6) и (5.4.7) изчисляваме коефициентите b 0 и b 1 :

9 (5;9.12)

4

1 (1;0.93)

1 2 3 4 5 x

За да оценим качеството на приближението, ще извършим спомагателни изчисления и ще определим нивото на значимост на намерените коефициенти и съотношението на стандартната грешка към средната стойност.

Ниво на значимост малко над препоръчителната стойност от 0,05 (
).


Поради факта, че според основния показател - отношението на стандартната грешка към средната стойност, резултатът е почти два пъти по-висок от препоръчителното ниво от 0,05, резултатите ще се считат за приемливи. Имайте предвид, че изчислената стойност на теста на Студент T b 0 =2,922 различен от критичния
със сравнително малка сума.

Пример 5.6.Нека апроксимираме експерименталните данни от пример 5.1 чрез хиперболичната зависимост
. За да се изчислят коефициентите b 0 и b 1 Нека направим предварителните изчисления, дадени в таблица 5.6.1.

Таблица 5.6.1

х аз

х аз =1/X аз

х аз 2

х аз г аз

Въз основа на резултатите от таблица 5.6.1, използвайки формули (5.4.8) и (5.4.9), изчисляваме коефициентите b 0 и b 1 :

Така се получава уравнение на хиперболична регресия

.

Резултатите от спомагателните изчисления за оценка на качеството на апроксимацията са дадени в таблица 5.6.2.

Таблица 5.6.2

х аз

Въз основа на резултатите от таблица 5.6.2 изчисляваме стандартната грешка и съотношението на стандартната грешка към средната стойност:


Поради факта, че съотношението на стандартната грешка към средната стойност надвишава препоръчителната стойност от 0,05, ние заключаваме, че резултатите от приближението са неподходящи.

Пример 5.7.

За да се изчислят специфичните стойности на приходите от експлоатацията на стрелови кранове в зависимост от времето на поддръжката, е необходимо да се получи параболична зависимост.

Нека изчислим коефициентите на тази зависимост b 0 , b 1 , b 11 в матричен вид по формулата:

Нелинейните регресионни уравнения, свързващи ефективния индикатор с оптималните стойности за извършване на превантивна поддръжка на кулокранове, бяха получени с помощта на процедурата за множествена регресия на пакета за приложение Statistica 6.0. След това представяме резултатите от регресионния анализ за показателя за ефективна ефективност съгласно таблица 5.7.1.

Таблица 5.7.1

Таблица 5.7.2 показва резултатите от нелинейната регресия за показателя за ефективна ефективност, а таблица 5.7.3 показва резултатите от анализа на остатъците.

Таблица 5.7.2

Таблица 5.7.3

Ориз. 3.7.36. Анализ на остатъци.

Така получихме уравнение за множествена регресия за променливата
:

Съотношение на стандартната грешка към означава:

14780/1017890=0,0145 < 0,05.

Тъй като съотношението на стандартната грешка към средната стойност не надвишава препоръчителната стойност от 0,05, резултатите от приближението могат да се считат за приемливи. Като недостатък съгласно таблица 5.7.2 трябва да се отбележи, че всички изчислени коефициенти надвишават препоръчителното ниво на значимост от 0,05.



Подобни статии