Основни характеристики на случайните величини. Въведение в корелационния анализ. Основи на регресионния анализ. Близост на линейна връзка между случайни променливи

След като се определи уравнението на теоретичната регресионна линия, е необходимо да се определи количествено близостта на връзката между две серии от наблюдения. Регресионните линии, начертани на фиг. 4.1, b, c, са еднакви, но на фиг. 4.1, b точките са много по-близо (по-близо) до линията на регресия, отколкото на фиг. 4.1, c.

При корелационния анализ се приема, че факторите и отговорите са произволни по природа и се подчиняват нормален законразпределения.

Близостта на връзката между случайни променливихарактеризиращ се с корелационното отношение p xy. Нека да разгледаме по-отблизо физически смисълтози показател. За целта въвеждаме нови концепции.

Остатъчната дисперсия 5^res характеризира разсейването експериментално

наблюдавани точки спрямо линията на регресия и представлява индикатор за грешката при прогнозиране на параметъра y съгласно уравнението на регресията (фиг. 4.6):



s2 =f) може да се различава значително от съответните характеристики на оригиналната (неизкривена) схема (, l) - Така например по-долу (вижте раздел 1.1.4) е показано, че налагането на случайни нормални грешки върху оригиналните две -дименсионалната нормална схема (, m) винаги намалява абсолютната стойност на коефициента на регресия Ql във връзка (Б. 15), а също така отслабва степента на близост на връзката между него (т.е. намалява абсолютната стойност на коефициента на корелация r).  

Влиянието на грешките при измерване върху стойността на корелационния коефициент. Да предположим, че искаме да оценим степента на близост на корелацията между компонентите на двумерна нормална случайна променлива (, TJ), но можем да ги наблюдаваме само с някои случайни грешки на измерване es и e, съответно (вижте диаграмата на D2 зависимост във въведението). Следователно, експерименталните данни (xit i/i), i = 1, 2,. .., l, са практически примерни стойности на изкривената двумерна случайна променлива (, r)), където =  

Метод R.a. се състои в извеждане на регресионно уравнение (включително оценка на неговите параметри), с помощта на което се намира средната стойност на случайна променлива, ако е известна стойността на друга (или други в случай на множествена или многовариантна регресия). (За разлика от това, корелационният анализ се използва за намиране и изразяване на силата на връзките между случайни променливи71.)  

При изследване на корелацията на признаци, които не са свързани с последователна промяна във времето, всеки знак се променя под влияние на много причини, взети като случайни. В динамичните серии към тях се добавя промяната във времето на всяка серия. Тази промяна води до така наречената автокорелация - влиянието на промените в нивата на предишни серии върху следващите. Следователно корелацията между нивата на динамичните редове правилно показва тясната връзка между явленията, отразени в динамичните редове, само ако няма автокорелация във всеки от тях. Освен това автокорелацията води до изкривяване на стойността на средните квадратични грешки на регресионните коефициенти, което затруднява конструирането на доверителни интервали за регресионните коефициенти, както и тестването на тяхната значимост.  

Теоретичните и извадковите коефициенти на корелация, определени съответно от отношения (1.8) и (1.8), могат да бъдат формално изчислени за всяка двумерна система за наблюдение, те са мерки за степента на близост на линейната статистическа връзка между анализираните характеристики. Но само при съвместно нормално разпределение на изследваните случайни величини и q коефициентът на корелация r има ясен смисъл като характеристика на степента на близост на връзката между тях. По-специално, в този случай съотношението r - 1 потвърждава чисто функционална линейна връзка между изследваните величини, а уравнението r = 0 показва тяхната пълна взаимна независимост. В допълнение, коефициентът на корелация, заедно със средните стойности и дисперсиите на случайните променливи и TJ, представлява онези пет параметъра, които предоставят изчерпателна информация за

Регресионен анализ

Обработка на експерименталните резултати по метода

При изследване на процесите на функциониране сложни системитрябва да се работи с цяла поредица от едновременно действащи случайни променливи. За да разберем механизма на явленията, причинно-следствените връзки между елементите на системата и т.н., въз основа на получените наблюдения се опитваме да установим връзките между тези величини.

IN математически анализзависимостта например между две величини се изразява с понятието функция

където всяка стойност на една променлива съответства само на една стойност на друга. Тази зависимост се нарича функционален.

Ситуацията с концепцията за зависимост на случайни променливи е много по-сложна. По правило между случайните променливи (случайни фактори), които определят функционирането на сложни системи, обикновено има такава връзка, при която с промяна на една стойност се променя разпределението на друга. Тази връзка се нарича стохастичен, или вероятностен. В този случай големината на промяната на случайния фактор Y, съответстващ на промяната в стойността X, може да се раздели на два компонента. Първият е свързан със зависимостта. Yот X, а вторият с влиянието на „собствените“ случайни компоненти YИ X. Ако първият компонент липсва, тогава случайните променливи YИ Xса независими. Ако вторият компонент липсва, тогава YИ Xзависят функционално. Ако и двата компонента са налице, връзката между тях определя силата или близостта на връзката между случайните променливи YИ X.

Има различни показатели, които характеризират определени аспекти на стохастичната връзка. така че линейна зависимостмежду случайни променливи XИ Yопределя коефициента на корелация.

където са математическите очаквания на случайните променливи X и Y.

– стандартни отклонения на случайни променливи XИ Y.


Линейната вероятностна зависимост на случайните променливи е, че когато една случайна променлива нараства, другата има тенденция да се увеличава (или намалява) според линеен закон. Ако случайни променливи XИ Yса свързани чрез строга линейна функционална зависимост, напр.

y=b 0 +b 1 x 1,

тогава коефициентът на корелация ще бъде равен на ; а знакът съответства на знака на коефициента b 1.Ако стойностите XИ Yса свързани с произволна стохастична зависимост, тогава коефициентът на корелация ще варира в рамките

Трябва да се подчертае, че за независими случайни величини коефициентът на корелация равно на нула. Коефициентът на корелация като индикатор за зависимостта между случайните величини обаче има сериозни недостатъци. Първо, от равенството r= 0 не предполага независимост на случайните променливи XИ Y(с изключение на случайни променливи, подчинени на нормалния закон за разпределение, за които r= 0 означава в същото време липсата на каквато и да е зависимост). Второ, екстремните стойности също не са много полезни, тъй като те не съответстват на никаква функционална зависимост, а само на строго линейна.



Пълно описаниезависимости Yот X, и освен това, изразено в точни функционални зависимости, може да се получи чрез познаване на условната функция на разпределение.

Трябва да се отбележи, че в този случай една от наблюдаваните променливи се счита за неслучайна. Чрез едновременно фиксиране на стойностите на две случайни променливи XИ Y, когато сравняваме техните стойности, можем да припишем всички грешки само на стойността Y. По този начин грешката на наблюдението ще се състои от собствена случайна грешка на големина Yи от грешката в сравнението, възникваща поради факта, че със стойността Yне е точно същата стойност, която се сравнява Xкоето действително се е състояло.

Намирането на функцията на условното разпределение обаче по правило се оказва много трудна задача. Най-лесният начин да изследвате връзката между XИ Yпри нормално разпределение Y, тъй като се определя изцяло от математическото очакване и дисперсията. В случая за описание на зависимостта Yот Xняма нужда да се изгражда функция за условно разпределение, а просто да се посочи как при промяна на параметъра Xматематическото очакване и дисперсията на промяната на количеството Y.

Така стигаме до необходимостта да намерим само две функции:

Условна вариационна зависимост гот параметър Xсе нарича шодастичензависимости. Той характеризира промяната в точността на техниката на наблюдение при промяна на параметър и се използва доста рядко.

Условна зависимост математическо очакване Мот Xсе нарича регресия, той дава истинската зависимост на количествата XИ U, лишен от всякакви произволни слоеве. Следователно идеалната цел на всяко изследване на зависими променливи е да се намери регресионно уравнение, а дисперсията се използва само за оценка на точността на получения резултат.

Целта на корелационния анализе да се идентифицира оценка на силата на връзката между случайни променливи (характеристики), които характеризират някакъв реален процес.
Проблеми на корелационния анализ:
а) Измерване на степента на съгласуваност (близост, сила, тежест, интензивност) на две или повече явления.
б) Избор на фактори, които оказват най-съществено влияние върху резултантния атрибут, въз основа на измерване на степента на свързаност между явленията. Факторите, които са значими в този аспект, се използват допълнително в регресионния анализ.
в) Откриване на неизвестни причинно-следствени връзки.

Формите на проявление на взаимоотношенията са много разнообразни. Най-често срещаните видове са функционални (пълни) и корелационна (непълна) връзка.
Корелациясе проявява средно за масови наблюдения, когато дадените стойности на зависимата променлива съответстват на определена поредица от вероятностни стойности на независимата променлива. Връзката се нарича корелация, ако всяка стойност на факторната характеристика съответства на добре дефинирана неслучайна стойност на резултантната характеристика.
Визуално представяне на корелационна таблица е корелационното поле. Това е графика, където стойностите на X са нанесени на абсцисната ос, стойностите на Y са нанесени на ординатната ос, а комбинациите от X и Y са показани с точки, може да се съди за присъствието на връзка.
Индикатори за близост на връзкатадават възможност да се характеризира зависимостта на изменението на резултантния признак от изменението на факторния признак.
По-усъвършенстван индикатор за степента на струпване корелационна връзкае коефициент на линейна корелация. При изчисляването на този показател се вземат предвид не само отклоненията на отделните стойности на дадена характеристика от средната стойност, но и самата величина на тези отклонения.

Ключовите въпроси на тази тема са регресионните уравнения между получената характеристика и обяснителната променлива, методът най-малки квадратиза оценка на параметрите на регресионния модел, анализиране на качеството на полученото регресионно уравнение, конструиране на доверителни интервали за прогнозиране на стойностите на получената характеристика с помощта на регресионното уравнение.

Пример 2


Система от нормални уравнения.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
За нашите данни системата от уравнения има формата
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
От първото уравнение изразяваме Аи заместваме във второто уравнение:
Получаваме b = -3,46, a = 1379,33
Регресионно уравнение:
y = -3,46 x + 1379,33

2. Изчисляване на параметрите на регресионното уравнение.
Примерни средства.



Примерни отклонения:


Стандартно отклонение


1.1. Коефициент на корелация
Ковариация.

Изчисляваме индикатора за близост на връзката. Този показател е примерният коефициент на линейна корелация, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между характеристиките могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между черта Y и фактор X е висока и обратна.
Освен това корелационният коефициент на линейната двойка може да се определи чрез регресионния коефициент b:

1.2. Регресионно уравнение(оценка на регресионно уравнение).

Уравнението на линейната регресия е y = -3,46 x + 1379,33

Коефициентът b = -3,46 показва средната промяна на ефективния показател (в мерни единици y) с увеличаване или намаляване на стойността на фактора x за единица измерване. В този пример, с увеличение от 1 единица, y намалява средно с -3,46.
Коефициентът a = 1379.33 формално показва прогнозираното ниво на y, но само ако x=0 е близо до стойностите на извадката.
Но ако x=0 е далеч от примерните стойности на x, тогава буквалното тълкуване може да доведе до неправилни резултати и дори ако регресионната линия описва наблюдаваните примерни стойности сравнително точно, няма гаранция, че това също ще такъв е случаят при екстраполиране наляво или надясно.
Като заместим подходящите x стойности в регресионното уравнение, можем да определим подравнените (прогнозирани) стойности на показателя за ефективност y(x) за всяко наблюдение.
Връзката между y и x определя знака на регресионния коефициент b (ако > 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е обратна.
1.3. Коефициент на еластичност.
Не е препоръчително да се използват регресионни коефициенти (в пример b) за пряка оценка на влиянието на факторите върху резултатна характеристика, ако има разлика в мерните единици на резултатния показател y и факторната характеристика x.
За тези цели се изчисляват коефициентите на еластичност и бета коефициентите.
Средният коефициент на еластичност E показва с какъв процент средно ще се промени резултатът в съвкупността приот средната му стойност при промяна на фактора хс 1% от средната му стойност.
Коефициентът на еластичност се намира по формулата:


Коефициентът на еластичност е по-малък от 1. Следователно, ако X се промени с 1%, Y ще се промени с по-малко от 1%. С други думи, влиянието на X върху Y не е значително.
Бета коефициентпоказва с каква част от стойността на стандартното си отклонение ще се промени средната стойност на получената характеристика, когато факторната характеристика се промени със стойността на стандартното си отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличение на x със стандартното отклонение S x ще доведе до намаляване на средната стойност на Y с 0,74 стандартно отклонение S y .
1.4. Грешка в приближението.
Нека оценим качеството на регресионното уравнение, като използваме грешката на абсолютното приближение. Средната грешка на приближението е средното отклонение на изчислените стойности от действителните:


Тъй като грешката е по-малка от 15%, това уравнение може да се използва като регресия.
Дисперсионен анализ.
Целта на анализа на дисперсията е да се анализира дисперсията на зависимата променлива:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Къде
∑(y i - y cp) 2 - общата сума на квадратите на отклоненията;
∑(y(x) - y cp) 2 - сумата от квадратните отклонения, дължащи се на регресия („обяснена“ или „факториална“);
∑(y - y(x)) 2 - остатъчна сума на квадратите на отклоненията.
Теоретична корелационна връзказа линейна връзка е равен на коефициента на корелация r xy .
За всяка форма на зависимост плътността на връзката се определя с помощта на коефициент на множествена корелация:

Този коефициент е универсален, тъй като отразява близостта на връзката и точността на модела и може да се използва за всякакви форми на връзка между променливи. При конструирането на еднофакторен корелационен модел коефициентът на множествена корелация е равен на коефициента на двойна корелация r xy.
1.6. Коефициент на определяне.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на детерминация, който показва съотношението на вариацията в резултантния атрибут, обяснена с вариацията във факторния атрибут.
Най-често при тълкуване на коефициента на детерминация той се изразява в проценти.
R2 = -0,742 = 0,5413
тези. в 54,13% от случаите промените в x водят до промени в y. С други думи, точността на избора на регресионното уравнение е средна. Останалите 45,87% от промяната на Y се обясняват с фактори, които не са взети предвид в модела.

Референции

  1. Иконометрия: Учебник / Ред. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 34..89.
  2. Магнус Ю.Р., Катишев П.К., Пересецки А.А. Иконометрия. Курс за начинаещи. Урок. – 2-ро изд., рев. – М.: Дело, 1998, с. 17..42.
  3. Семинар по иконометрия: Proc. надбавка / И.И. Елисеева, С.В. Куришева, Н.М. Гордеенко и др.; Изд. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 5..48.

Във фирмата работят 10 човека. Таблица 2 показва данни за техния трудов стаж и

месечна заплата.

Изчислете, като използвате тези данни

  • - стойността на примерната ковариационна оценка;
  • - стойността на извадковия коефициент на корелация на Пиърсън;
  • - преценете посоката и силата на връзката от получените стойности;
  • - определи доколко е легитимно да се каже, че тази компания използва японския модел на управление, който предполага, че колкото повече време служителят прекарва в дадена компания, толкова по-висока трябва да бъде заплатата му.

Въз основа на корелационното поле можем да предположим (за популацията), че връзката между всички възможни стойности на X и Y е линейна.

За да изчислим регресионните параметри, ще изградим изчислителна таблица.

Примерни средства.

Примерни отклонения:

Изчисленото регресионно уравнение ще бъде

y = bx + a + e,

където ei са наблюдаваните стойности (оценки) на грешките ei, a и b, съответно, оценките на параметрите b и в регресионния модел, който трябва да бъде намерен.

За оценка на параметрите b и c се използва методът на най-малките квадрати.

Система от нормални уравнения.

a?x + b?x2 = ?y*x

За нашите данни системата от уравнения има формата

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Нека умножим уравнение (1) на системата по (-30,7), получаваме система, която решаваме с помощта на метода на алгебричното събиране.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Получаваме:

1432.1 b = 105390

Откъде идва b = 73,5912?

Сега нека намерим коефициента "а" от уравнение (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10а = 10707,49

Получаваме емпирични регресионни коефициенти: b = 73.5912, a = 1070.7492

Регресионно уравнение (емпирично регресионно уравнение):

y = 73,5912 x + 1070,7492

Ковариация.

В нашия пример връзката между черта Y и фактор X е висока и пряка.

Затова смело можем да кажем, че колкото повече време работи един служител в дадена компания, толкова по-висока е заплатата му.

4. Проверка на статистически хипотези. При решаването на този проблем първата стъпка е да се формулира тествана хипотеза и алтернативна.

Проверка на равенството на общите дялове.

Проведено е изследване на представянето на студентите в два факултета. Резултатите за опциите са дадени в таблица 3. Може ли да се каже, че и двата факултета имат еднакъв процент отличници?

Обикновено средно аритметично

Тестваме хипотезата за равенството на общите дялове:

Нека намерим експерименталната стойност на критерия на Стюдънт:

Брой степени на свобода

f = nх + nу - 2 = 2 + 2 - 2 = 2

Определете tkp стойността, като използвате таблицата за разпределение на Student

С помощта на таблицата на ученика намираме:

Ttable(f;b/2) = Ttable(2;0,025) = 4,303

Използвайки таблицата на критичните точки на разпределението на Стюдънт при ниво на значимост b = 0,05 и даден брой степени на свобода, намираме tcr = 4,303

защото tob > tcr, тогава нулевата хипотеза се отхвърля, общите дялове на двете извадки не са равни.

Проверка на равномерността на общото разпределение.

Ръководителите на университета искат да разберат как популярността на хуманитарния отдел се е променила с времето. Броят на кандидатствалите в този факултет е анализиран спрямо общия брой кандидатстващи през съответната година. (Данните са дадени в таблица 4). Ако приемем, че броят на кандидатите е представителна извадка от общия брой завършили училище през годината, можем ли да кажем, че интересът на учениците към специалностите на този факултет не се променя с течение на времето?

Вариант 4

Решение: Таблица за изчисляване на показатели.

Средата на интервала, xi

Натрупана честота, S

Честота, fi/n

За да оценим серията на разпространение, намираме следните показатели:

Среднопретеглена стойност

Диапазонът на вариация е разликата между максималните и минималните стойности на характеристиката на първичната серия.

R = 2008 - 1988 = 20 Дисперсия - характеризира мярката за дисперсия около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).

Стандартно отклонение (средна извадкова грешка).

Всяка стойност от серията се различава от средната стойност 2002,66 със средно 6,32

Проверка на хипотезата за равномерното разпределение на съвкупността.

За да се провери хипотезата за равномерното разпределение на X, т.е. съгласно закона: f(x) = 1/(b-a) в интервала (a,b) е необходимо:

Оценете параметрите a и b - краищата на интервала, в който са наблюдавани възможни стойности на X, като използвате формулите (знакът * означава оценки на параметрите):

Намерете плътността на вероятността на очакваното разпределение f(x) = 1/(b* - a*)

Намерете теоретичните честоти:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнете емпиричните и теоретичните честоти, като използвате критерия на Pearson, като вземете броя на степените на свобода k = s-3, където s е броят на началните интервали на вземане на проби; ако е извършена комбинация от малки честоти и следователно самите интервали, тогава s е броят на интервалите, оставащи след комбинацията. Нека намерим оценки за параметрите a* и b* на равномерното разпределение по формулите:

Нека намерим плътността на предполагаемото равномерно разпределение:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Нека намерим теоретичните честоти:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Тъй като статистиката на Pearson измерва разликата между емпирични и теоретични разпределения, тогава колкото по-голяма е наблюдаваната му стойност Kob, толкова по-силен е аргументът срещу основната хипотеза.

Следователно критичната област за тези статистики винаги е дясната :)