Използване на метода на най-малките квадрати. Линейна регресия. Използване на метода на най-малките квадрати (OLS). Свеждане до линейна зависимост

Апроксимацията на експериментални данни е метод, основан на замяна на експериментално получени данни с аналитична функция, която най-близо преминава или съвпада в възлови точки с първоначалните стойности (данни, получени по време на експеримент или експеримент). Понастоящем има два начина за дефиниране на аналитична функция:

Чрез конструиране на интерполационен полином от n степен, който преминава директно през всички точкидаден масив от данни. В този случай апроксимиращата функция се представя под формата на: интерполационен полином във форма на Лагранж или интерполационен полином във форма на Нютон.

Чрез конструиране на апроксимиращ полином от n-степен, който преминава в най-близка близост до точкиот даден масив от данни. По този начин функцията за приближаване изглажда всички произволни шумове (или грешки), които могат да възникнат по време на експеримента: измерените стойности по време на експеримента зависят от случайни фактори, които се колебаят според собствените си случайни закони(грешки при измерване или уред, неточност или експериментални грешки). В този случай апроксимиращата функция се определя с помощта на метода най-малки квадрати.

Метод на най-малките квадрати(в англоезичната литература Ordinary Least Squares, OLS) е математически метод, основан на определяне на апроксимираща функция, която се конструира в най-близка близост до точки от даден масив от експериментални данни. Близостта на оригиналната и апроксимиращата функция F(x) се определя от числена мярка, а именно: сумата от квадратите на отклоненията на експерименталните данни от апроксимиращата крива F(x) трябва да бъде най-малката.

Апроксимираща крива, конструирана чрез метода на най-малките квадрати

Използва се методът на най-малките квадрати:

За решаване на свръхопределени системи от уравнения, когато броят на уравненията надвишава броя на неизвестните;

За да намерите решение в случай на обикновен (неотменен) нелинейни системиуравнения;

За приближаване на точкови стойности с някаква апроксимираща функция.

Апроксимиращата функция с помощта на метода на най-малките квадрати се определя от условието за минималната сума на квадратите на отклоненията на изчислената апроксимираща функция от даден масив от експериментални данни. Този критерийМетодът на най-малките квадрати се записва като следния израз:

Стойностите на изчислената апроксимираща функция в възловите точки,

Даден масив от експериментални данни в възлови точки.

Квадратният критерий има редица „добри“ свойства, като диференцируемост и предоставяне на уникално решение на проблема с приближението с полиномиални апроксимиращи функции.

В зависимост от условията на задачата, апроксимиращата функция е полином от степен m

Степента на апроксимиращата функция не зависи от броя на възловите точки, но нейният размер винаги трябва да бъде по-малък от размерността (броя точки) на даден експериментален масив от данни.

∙ Ако степента на апроксимиращата функция е m=1, тогава апроксимираме табличната функция с права линия (линейна регресия).

∙ Ако степента на апроксимиращата функция е m=2, тогава апроксимираме табличната функция с квадратна парабола (квадратично приближение).

∙ Ако степента на апроксимиращата функция е m=3, тогава апроксимираме табличната функция с кубична парабола (кубична апроксимация).

В общия случай, когато е необходимо да се построи апроксимиращ полином от степен m за дадени таблични стойности, условието за минимум на сумата на квадратите на отклоненията по всички възлови точки се пренаписва в следния вид:

- неизвестни коефициенти на апроксимиращия полином от степен m;

Броят на зададените стойности на таблицата.

Необходимо условие за съществуването на минимум на функция е равенството на нула на нейните частни производни по отношение на неизвестни променливи . В резултат на това получаваме следната система от уравнения:

Нека трансформираме полученото линейна системауравнения: отворете скобите и преместете свободните членове в дясната страна на израза. В резултат на това получената система от линейни алгебрични изрази ще бъде записана в следната форма:

Тази системалинейните алгебрични изрази могат да бъдат пренаписани в матрична форма:

Резултатът беше система линейни уравненияизмерение m+1, което се състои от m+1 неизвестни. Тази система може да бъде решена с помощта на всеки метод за решаване на линейни проблеми. алгебрични уравнения(например по метода на Гаус). В резултат на решението ще бъдат намерени неизвестни параметри на апроксимиращата функция, които осигуряват минималната сума на квадратите на отклоненията на апроксимиращата функция от оригиналните данни, т.е. най-доброто възможно квадратично приближение. Трябва да се помни, че ако дори една стойност на изходните данни се промени, всички коефициенти ще променят стойностите си, тъй като те са напълно определени от изходните данни.

Апроксимация на изходни данни чрез линейна зависимост

(линейна регресия)

Като пример, разгледайте техниката за определяне на апроксимиращата функция, която е дадена във формуляра линейна зависимост. В съответствие с метода на най-малките квадрати условието за минимум на сумата от квадратите на отклоненията се записва в следната форма:

Координати на възлите на таблицата;

Неизвестни коефициенти на апроксимиращата функция, която е зададена като линейна зависимост.

Необходимо условие за съществуването на минимум на функция е равенството на нула на нейните частни производни по отношение на неизвестни променливи. В резултат на това получаваме следната система от уравнения:

Нека трансформираме получената линейна система от уравнения.

Решаваме получената система от линейни уравнения. Коефициентите на апроксимиращата функция в аналитична форма се определят, както следва (метод на Крамер):

Тези коефициенти осигуряват изграждането на линейна апроксимираща функция в съответствие с критерия за минимизиране на сумата от квадратите на апроксимиращата функция от дадените таблични стойности (експериментални данни).

Алгоритъм за прилагане на метода на най-малките квадрати

1. Изходни данни:

Посочен е масив от експериментални данни с брой измервания N

Посочва се степента на апроксимиращия полином (m).

2. Алгоритъм за изчисление:

2.1. Определят се коефициентите за построяване на система от уравнения с размерности

Коефициенти на системата от уравнения (лявата страна на уравнението)

- индекс на номера на колоната на квадратната матрица на системата от уравнения

Свободни членове на система от линейни уравнения (дясната страна на уравнението)

- индекс на номера на реда на квадратната матрица на системата от уравнения

2.2. Образуване на система от линейни уравнения с размерност .

2.3. Решаване на система от линейни уравнения за определяне на неизвестните коефициенти на апроксимиращ полином от степен m.

2.4 Определяне на сумата от квадратите на отклоненията на апроксимиращия полином от първоначалните стойности във всички възлови точки

Намерената стойност на сумата от квадратите на отклоненията е минималната възможна.

Приближение с помощта на други функции

Трябва да се отбележи, че когато се апроксимират оригиналните данни в съответствие с метода на най-малките квадрати, логаритмичната функция, експоненциалната функция и степенната функция понякога се използват като апроксимираща функция.

Логаритмично приближение

Нека разгледаме случая, когато е дадена апроксимиращата функция логаритмична функциятип:

Което намира най-широко приложение в различни области на науката и практически дейности. Това може да бъде физика, химия, биология, икономика, социология, психология и така нататък, и така нататък. По волята на съдбата често ми се налага да се занимавам с икономиката и затова днес ще организирам за вас пътуване до една невероятна страна, наречена Иконометрия=) ...Как да не искаш?! Там е много добре - просто трябва да вземете решение! ...Но това, което вероятно определено искате, е да се научите как да решавате проблеми метод на най-малките квадрати. И особено прилежните читатели ще се научат да ги решават не само точно, но и МНОГО БЪРЗО ;-) Но първо общо изложение на проблема+ придружаващ пример:

Да предположим, че в определена предметна област се изучават показатели, които имат количествен израз. В същото време има всички основания да се смята, че индикаторът зависи от индикатора. Това предположение може да бъде или научна хипотеза, или да се основава на основен здрав разум. Да оставим науката настрана обаче и да разгледаме по-апетитните области – а именно хранителните магазини. Да означим с:

– търговска площ на магазин за хранителни стоки, кв.м.,
– годишен оборот на магазин за хранителни стоки, милиона рубли.

Абсолютно ясно е, че колкото по-голяма е площта на магазина, толкова по-голям в повечето случаи ще бъде неговият оборот.

Да предположим, че след извършване на наблюдения/експерименти/изчисления/танци с тамбура разполагаме с числени данни:

С магазините за хранителни стоки мисля, че всичко е ясно: - това е площта на 1-ви магазин, - годишният му оборот, - площта на 2-ри магазин, - годишният му оборот и т.н. Между другото, изобщо не е необходимо да имате достъп до класифицирани материали - доста точна оценка на търговския оборот може да се получи с помощта на математическа статистика. Но нека не се разсейваме, курсът по търговски шпионаж вече е платен =)

Табличните данни също могат да бъдат записани под формата на точки и изобразени в познатата форма Декартова система .

Да отговорим на един важен въпрос: Колко точки са необходими за качествено изследване?

Колкото повече, толкова по-добре. Минималният приемлив набор се състои от 5-6 точки. Освен това, когато количеството данни е малко, „аномалните“ резултати не могат да бъдат включени в извадката. Така например малък елитен магазин може да спечели порядъци повече от „своите колеги“, като по този начин изкриви общ модел, което трябва да намерите!

Казано много просто, трябва да изберем функция, графиккойто минава възможно най-близо до точките . Тази функция се нарича приближаващ (приближение - приближение)или теоретична функция . Най-общо казано, тук веднага се появява очевиден „претендент“ - полиномът висока степен, чиято графика минава през ВСИЧКИ точки. Но тази опция е сложна и често просто неправилна. (тъй като графиката ще се „върти“ през цялото време и ще отразява слабо основната тенденция).

По този начин търсената функция трябва да бъде доста проста и в същото време адекватно да отразява зависимостта. Както може би се досещате, един от методите за намиране на такива функции се нарича метод на най-малките квадрати. Първо, нека да разгледаме същността му в общ изглед. Нека някаква функция апроксимира експериментални данни:


Как да оценим точността на това приближение? Нека изчислим и разликите (отклоненията) между експерименталните и функционалните стойности (изучаваме чертежа). Първата мисъл, която идва на ум, е да преценим колко голяма е сумата, но проблемът е, че разликите могат да бъдат отрицателни (Например, ) и отклоненията в резултат на такова сумиране ще се компенсират взаимно. Следователно, като оценка на точността на приближението, е добре да се вземе сумата модулиотклонения:

или свито: (ако някой не знае: – това е иконата на сумата и – спомагателна променлива „брояч“, която приема стойности от 1 до ).

Сближаване на експерименталните точки различни функции, ще получим различни стойности и очевидно, когато тази сума е по-малка, тази функция е по-точна.

Такъв метод съществува и се нарича метод на най-малък модул. На практика обаче той стана много по-разпространен метод на най-малките квадрати, при които възможните отрицателни стойности се елиминират не от модула, а чрез квадратиране на отклоненията:

, след което усилията са насочени към избор на функция, така че сумата на квадратите на отклоненията беше възможно най-малък. Всъщност от тук идва и името на метода.

И сега се връщаме към друг важен момент: както беше отбелязано по-горе, избраната функция трябва да е доста проста - но има и много такива функции: линеен , хиперболичен, експоненциален, логаритмичен, квадратна и т.н. И, разбира се, тук веднага бих искал да „намаля сферата на дейност“. Кой клас функции да избера за изследване? Примитивна, но ефективна техника:

– Най-лесният начин е да изобразите точки върху чертежа и анализирайте местоположението им. Ако те са склонни да се движат по права линия, тогава трябва да потърсите уравнение на права с оптимални стойности и . С други думи, задачата е да се намерят ТАКИВА коефициенти, така че сумата на квадратите на отклоненията да е най-малка.

Ако точките са разположени, например, по хипербола, тогава очевидно е ясно, че линейната функция ще даде лошо приближение. В този случай ние търсим най-„благоприятните“ коефициенти за уравнението на хипербола – тези, които дават минималния сбор от квадрати .

Сега имайте предвид, че и в двата случая говорим за функции на две променливи, чиито аргументи са търсени параметри на зависимост:

И по същество трябва да решим стандартен проблем - намери минимална функция на две променливи.

Нека си спомним нашия пример: да предположим, че точките на „магазин“ са склонни да бъдат разположени в права линия и има всички основания да се смята, че присъствието линейна зависимостоборот от търговски площи. Нека намерим ТАКИВА коефициенти “a” и “be”, така че сумата от квадратите на отклоненията беше най-малкият. Всичко е както обикновено - първо Частични производни от 1-ви ред. Според правило за линейностМожете да разграничите точно под иконата за сума:

Ако искате да използвате тази информацияза есе или курсова работа - ще съм много благодарен за връзката в списъка с източници, на няколко места ще намерите толкова подробни изчисления:

Нека създадем стандартна система:

Ние намаляваме всяко уравнение с „две“ и в допълнение „разбиваме“ сумите:

Забележка : независимо анализирайте защо „a“ и „be“ могат да бъдат извадени отвъд иконата за сума. Между другото, формално това може да стане със сумата

Нека пренапишем системата в „приложна“ форма:

след което алгоритъмът за решаване на нашия проблем започва да се появява:

Знаем ли координатите на точките? Ние знаем. суми можем ли да го намерим? Лесно. Нека направим най-простото система от две линейни уравнения с две неизвестни(„а“ и „бъди“). Решаваме системата, напр. Методът на Крамер, в резултат на което получаваме неподвижна точка. Проверка достатъчно условие за екстремум, можем да проверим, че в този момент функцията достига точно минимум. Проверката включва допълнителни изчисления и затова ще я оставим зад кулисите (при необходимост може да се види липсващата рамка). Правим окончателното заключение:

функция по възможно най-добрия начин (поне в сравнение с всяка друга линейна функция)сближава експерименталните точки . Грубо казано, неговата графика минава възможно най-близо до тези точки. В традицията иконометрияполучената апроксимираща функция също се нарича сдвоено уравнение на линейна регресия .

Разглежданият проблем е от голямо практическо значение. В нашата примерна ситуация, ур. ви позволява да предвидите какъв търговски оборот ("Игрек")магазинът ще има при една или друга стойност на търговската площ (едно или друго значение на "х"). Да, получената прогноза ще бъде само прогноза, но в много случаи ще се окаже доста точна.

Ще анализирам само един проблем с „реални“ числа, тъй като в него няма трудности - всички изчисления са на ниво училищна програма 7-8 клас. В 95 процента от случаите ще бъдете помолени да намерите само линейна функция, но в самия край на статията ще покажа, че не е по-трудно да намерите уравненията на оптималната хипербола, експоненциалната и някои други функции.

Всъщност остава само да раздадете обещаните лакомства - за да се научите да решавате подобни примери не само точно, но и бързо. Ние внимателно изучаваме стандарта:

Задача

В резултат на изследване на връзката между два показателя бяха получени следните двойки числа:

Използвайки метода на най-малките квадрати, намерете линейната функция, която най-добре приближава емпиричната (опитен)данни. Направете чертеж, върху който да построите експериментални точки и графика на апроксимиращата функция в декартова правоъгълна координатна система . Намерете сумата от квадратите на отклоненията между емпиричните и теоретичните стойности. Разберете дали функцията би била по-добра (от гледна точка на метода на най-малките квадрати)доближете експерименталните точки.

Моля, обърнете внимание, че значенията на „x“ са естествени и това има характерно смислово значение, за което ще говоря малко по-късно; но те, разбира се, могат да бъдат и дробни. Освен това, в зависимост от съдържанието на конкретна задача, стойностите на „X“ и „игра“ могат да бъдат напълно или частично отрицателни. Е, дадена ни е „безлична“ задача и започваме решение:

Намираме коефициентите на оптималната функция като решение на системата:

С цел по-компактен запис, променливата „брояч“ може да бъде пропусната, тъй като вече е ясно, че сумирането се извършва от 1 до .

По-удобно е да се изчислят необходимите количества в таблична форма:


Изчисленията могат да се извършват на микрокалкулатор, но е много по-добре да използвате Excel - както по-бързо, така и без грешки; вижте кратко видео:

Така получаваме следното система:

Тук можете да умножите второто уравнение по 3 и извадете 2-то от 1-вото уравнение член по член. Но това е късмет - на практика системите често не са подарък и в такива случаи спестява Методът на Крамер:
, което означава, че системата има уникално решение.

Да проверим. Разбирам, че не искате, но защо да пропускате грешки, когато те абсолютно не могат да бъдат пропуснати? Нека заместим намереното решение в лявата част на всяко уравнение на системата:

Получават се десните части на съответните уравнения, което означава, че системата е решена правилно.

Така желаната апроксимираща функция: – от всички линейни функции Тя е тази, която най-добре приближава експерименталните данни.

За разлика от директен зависимост на оборота на магазина от неговата площ, установената зависимост е обратен (принцип "колкото повече, толкова по-малко"), и този факт веднага се разкрива от негатива наклон. функция ни казва, че с увеличаване на даден показател с 1 единица стойността на зависимия показател намалява среднос 0,65 единици. Както се казва, колкото по-висока е цената на елдата, толкова по-малко се продава.

За да начертаем апроксимиращата функция, нека намерим нейните две стойности:

и изпълнете чертежа:


Построената права се нарича тренд линия (а именно линейна линия на тенденция, т.е. в общия случай тенденцията не е непременно права линия). Всеки е запознат с израза „да бъдеш в тенденция“ и смятам, че този термин не се нуждае от допълнителни коментари.

Нека изчислим сумата на квадратите на отклоненията между емпирични и теоретични стойности. Геометрично това е сумата от квадратите на дължините на сегментите „малина“. (две от които са толкова малки, че дори не се виждат).

Нека обобщим изчисленията в таблица:


Те отново могат да се направят ръчно за всеки случай, ще дам пример за 1-ва точка:

но е много по-ефективно да го направите по вече познатия начин:

Повтаряме още веднъж: Какъв е смисълът на получения резултат?от всички линейни функции y функция индикаторът е най-малкият, тоест в своето семейство той е най-доброто приближение. И тук, между другото, последният въпрос на проблема не е случаен: какво ще стане, ако предложената експоненциална функция би ли било по-добре да сближим експерименталните точки?

Нека намерим съответната сума от квадратни отклонения - за да ги различим, ще ги обознача с буквата "епсилон". Техниката е абсолютно същата:


И отново, за всеки случай, изчисления за 1-ва точка:

В Excel използваме стандартната функция EXP (синтаксисът може да бъде намерен в помощта на Excel).

Заключение: , което означава, че експоненциалната функция приближава експерименталните точки по-лошо от права линия .

Но тук трябва да се отбележи, че "по-лошо" е още не означава, което е лошо. Сега построих графика на тази експоненциална функция - и тя също минава близо до точките - да, значи без аналитични изследванияи е трудно да се каже коя функция е по-точна.

Това завършва решението и се връщам към въпроса за естествените стойности на аргумента. IN различни изследвания, като правило, икономическите или социологическите естествени „Х“ се използват за номериране на месеци, години или други равни интервали от време. Помислете например за следния проблем.

3. Апроксимация на функции чрез метода

най-малки квадрати

Методът на най-малките квадрати се използва при обработката на експериментални резултати за приближения (приблизителни) експериментални данни аналитична формула. Конкретният тип формула се избира, като правило, по физически причини. Такива формули могат да бъдат:

и други.

Същността на метода на най-малките квадрати е следната. Нека резултатите от измерването бъдат представени в таблицата:

Таблица 4

x n

y n

(3.1)

където f - известна функция, a 0 , a 1 , …, a m - неизвестни постоянни параметри, чиито стойности трябва да бъдат намерени. При метода на най-малките квадрати апроксимацията на функция (3.1) към експерименталната зависимост се счита за най-добра, ако условието е изпълнено

(3.2)

това е суми а квадратичните отклонения на търсената аналитична функция от експерименталната зависимост трябва да са минимални .

Имайте предвид, че функцията Q наречен остатъчен.


Тъй като несъответствието

тогава има минимум. Необходимо условие за минимума на функция от няколко променливи е равенството на нула на всички частни производни на тази функция по отношение на параметрите. По този начин намирането най-добри стойностипараметри на апроксимиращата функция (3.1), т.е. техните стойности, при които Q = Q (a 0 , a 1 , …, a m ) е минимален, свежда се до решаване на системата от уравнения:

(3.3)

На метода на най-малките квадрати може да се даде следната геометрична интерпретация: сред безкрайното семейство линии от даден тип се намира една права, за която сумата от квадратите на разликите на ординатите на експерименталните точки и съответните ординати на намерените точки по уравнението на тази права ще бъде най-малката.

Намиране на параметрите на линейна функция

Нека експерименталните данни са представени чрез линейна функция:

Необходимо е да изберете следните стойностиа и б , за които функцията

(3.4)

ще бъде минимален. Необходимите условия за минимум на функция (3.4) се свеждат до системата от уравнения:

След трансформации получаваме система от две линейни уравнения с две неизвестни:

(3.5)

решавайки което, намираме необходимите стойности на параметритеа и б.

Намиране на параметрите на квадратична функция

Ако апроксимиращата функция е квадратична зависимост

тогава неговите параметри a, b, c намира се от минималното условие на функцията:

(3.6)

Условията за минимум на функция (3.6) се свеждат до системата от уравнения:


След трансформациите получаваме система от трилинейни уравнения с три неизвестни:

(3.7)

при решение на което намираме необходимите стойности на параметрите a, b и c.

Пример . Нека експериментът доведе до следната таблица със стойности x и y:

Таблица 5

y i

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

Изисква се апроксимация на експерименталните данни с линейни и квадратични функции.

Решение. Намирането на параметрите на апроксимиращите функции се свежда до решаване на системи от линейни уравнения (3.5) и (3.7). За да решим проблема, ще използваме процесор за електронни таблици Excel.

1. Първо, нека свържем листове 1 и 2. Въведете експерименталните стойности x i и y iв колони A и B, започвайки от втория ред (ще поставим заглавията на колоните в първия ред). След това изчисляваме сумите за тези колони и ги поставяме в десетия ред.

В колони C–G Нека поставим съответно изчислението и сумирането

2. Нека раздвоим листовете, ще извършим по-нататъшни изчисления за линейната зависимост от лист 1 и за квадратичната зависимост от лист 2.

3. Под получената таблица ще формираме матрица от коефициенти и колонен вектор от свободни членове. Нека решим системата от линейни уравнения, използвайки следния алгоритъм:

За да изчислим обратната матрица и матриците за умножение, използваме майстор функциии функции MOBRИ МУНИТА.

4. В блок от клетки H2:з 9 въз основа на получените коефициенти изчисляваме приблизителна стойностполиномy i калк., в блок I 2: I 9 – отклонения D y i = y i експ. - y i калк., в колона J – остатъкът:

Получените таблици и тези, изградени с помощта на Съветници за диаграмиграфиките са показани на фигури 6, 7, 8.


ориз. 6. Таблица за изчисляване на коефициентите на линейна функция,

приближаващекспериментални данни.


ориз. 7. Таблица за изчисляване на коефициентите на квадратична функция,

приближаващекспериментални данни.


ориз. 8. Графично представяне на резултатите от апроксимацията

експериментални данни по линейни и квадратични функции.

отговор. Експерименталните данни са апроксимирани с линейна зависимост г = 0,07881 х + 0,442262 с остатъчен Q = 0,165167 и квадратична зависимост г = 3,115476 х 2 – 5,2175 х + 2,529631 с остатъчен Q = 0,002103 .

Задачи. Приближете функция, дадена от таблица, линейни и квадратни функции.

Таблица 6

№0

х

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

г

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

Слободянюк А.И. Методът на най-малките квадрати в училищен физически експеримент // Физика: проблеми. – 1995. – Бр. 1. – с. 88-99.

Към днешна дата са разработени няколко метода за обработка на резултатите от измерванията. Най-често използваният и точен метод е методът на най-малките квадрати (LSM).

Статията очертава същността на метода на най-малките квадрати и условията за неговата приложимост. Авторите предлагат примери за използване на метода OLS.

По правило всички физически експерименти се свеждат до измерване на зависимостта на определено количество uот едно или повече други количества z 1 , z 2 , …, z n.

Необходимостта да се получи зависимостта (а не да се извършват „точкови“ измервания с фиксирани стойности на параметрите) е оправдана от следните предимства:

  • способност за тестване на теоретични конструкции;
  • възможност за изключване на трудни за определяне параметри;

Към днешна дата са разработени няколко метода за обработка на резултатите от измерванията. Най-често използваният, прост и разумен метод е методът на най-малките квадрати (OLS).

1. Същност на метода на най-малките квадрати, условия за неговата приложимост

Да кажем, че знаем типа функционална зависимост физическо количество uот друга физическа величина z, но параметрите на тази зависимост не са известни а, b, c,... . В резултат на измерванията беше получена таблица със стойности u iза някои стойности . Необходимо е да се намерят такива стойности на параметрите а, b, c,...за които функцията най-добре описва експерименталните данни.

LSM заявява, че „най-добрата“ крива ще бъде тази, за която сумата от квадратите на отклоненията на експерименталните стойности u iот стойностите на функцията минимален. По този начин, за да се определят параметрите а, b, c,...необходимо е да се намери минимумът на функцията

. (1)

Обърнете внимание, че Φ се разглежда тук като функция на параметрите а, b, c,..., тъй като количествата u i, z iизвестни от експериментални данни.

В общия случай намирането на минимума на функция (1) не винаги е възможно. Следователно, за практическото прилагане на MNC често се използва следната изкуствена техника: те намират някаква функционална трансформация , което привежда изследваната зависимост в линеен вид

за които внедряването на OLS е най-просто. Примери за трансформации от този тип са дадени в табл. 1. Някои трансформации ще бъдат разгледани по-долу при представяне на конкретни примери.

Нека заместим израз (2) в израз (1)

(3)

и да получите уравнения за определяне на параметрите АИ b. За да направим това, ние изчисляваме производните на функцията Φ по отношение на АИ bи ги приравнете към нула,

(4)

Тази система е линейна и може лесно да бъде решена:

(5)

Получените изрази обаче не са много удобни за практически изчисления, така че ще ги пренапишем в малко по-различна форма. За да направите това, нека обозначим

(6)

(ъгловите скоби означават средноаритметичната стойност според експерименталните данни) и напишете

(7)

От второто уравнение на системата (4) изразяваме .

Изрази (6), (7) ви позволяват бързо да изчислите параметрите на линейната зависимост (2) с помощта на непрограмируем калкулатор.

Нека формулираме условията, при които стойностите на параметрите, получени по този начин, са оптимални (безпристрастни, последователни, ефективни оценки).

1. Резултатите от измерването са независими.

2. Грешките в измерването следват нормално разпределение.

3. Количества Xаз, са известни точно.

На практика LSM в посочената форма се използва при грешки при измерване приаззначително (повече от порядък) надвишават грешките на измерване на количествата x i.

Ако тези условия са изпълнени, параметрите А, bлинейно изразени чрез резултатите от измерването приаз, (грешки при измерване x iпренебрегнати), следователно може да се намери грешката при определяне на параметрите стандартен методкато грешката на непрякото измерване. Донякъде тромавите изчисления водят до следните формули за оценка на грешката:

(8)

Къде , запазете останалите обозначения същите:

(9)

Така формулите (6) – (9) напълно изчерпват най-малките квадрати за анализ на линейната зависимост. Формули (7) – (8) предоставят оценки само на случайни грешки на измерване. Използването им е напълно оправдано, ако този тип грешки преобладават, което най-често се случва в практиката. Доказателство за това преобладаване е забележимо разсейване на точки ( приаз, Xаз) на графиката, когато тези точки не лежат точно на права линия. Имайте предвид, че постоянната систематична грешка на инструмента не влияе върху определянето на параметъра Аи е добавка към грешката на параметъра b, т.е. ако инструментът има грешка в измерването на количествата приазтогава е равно .

Имайте предвид също, че в някои случаи е необходимо да се извършат няколко измервания на стойността uна същата стойност z. В този случай не са необходими модификации на MNC. Достатъчно е тези стойности да се считат за независими, т.е. включете двойки в изчисленията z i, u iсъс същите стойности z i. С други думи, една стойност zможе да съответства на няколко стойности u. Естествено, не може всеки да бъде zидентични, в противен случай във формула (5) знаменателят ще бъде нула.

2. Практическа реализация LSM за линейна зависимост от непрограмируем калкулатор

Както показва опитът, най-добре е да използвате предварително подготвен формуляр за изчисляване на параметрите на линейна връзка и техните грешки (Таблица 2). Колона 1 записва броя на направените измервания ( аз = 1, 2, ..., Ν ); в колони 2, 3 – резултати от измервания на количества z i, u i.

Първата стъпка при използването на този формуляр за прилагане на OLS е да попълните колони 4, 5. Те представят резултатите от трансформациите от z, uкъм количествата X, при, между които се търси линейна връзка.

Формулите за изчисление, представени в колона 6, позволяват изчисления на калкулатор без записване на междинни резултати. Всеки, дори най-простият калкулатор, има една клетка от паметта, в която можете да натрупвате суми. Изчисленията трябва да се извършват в следната последователност:

1) изчислете - за да направите това, последователно въведете всички стойности в паметта Xаз, записан в колона 4, и след това разделете съдържанието на броя на двойките измервания Н,запишете резултата в колона 7;

2) изчислете чрез последователно въвеждане на стойности x i, натрупват в паметта сумата от техните квадрати (напишете стойности – „умножете“ – „равно“ – „в паметта +“) и разделете на Н, извадете квадрата на средната стойност от получения резултат, запишете резултата в колона 7;

3 – 4) по подобен начин пресметнете и ;

5) натрупва сумата от продуктите в паметта, разделете на Н, извадете продукта от средните стойности и разделете на - вземете стойността на параметъра А.

По-нататъшните изчисления са съвсем очевидни.

3. Пример за използване на MNC

Задача. Използвайте математическо махало за измерване на ускорението свободно падане.

Оборудване: конец, тежест, статив, линийка, хронометър.

Решение. Период на малки трептения на математическо махало Тсе определя по формулата. Тази формула може да се преобразува във формата.

С други думи, между дължината на махалото ли квадратът на периода има линейна връзка, която записваме във формата: , където (преобразуване в линейна форма). Въвеждане на параметър bв този случай не е задължително, тъй като теоретично b= 0. Въпреки това, записването на линейна зависимост в общ вид позволява автоматично да се вземе предвид грешката при определяне на дължината на махалото; освен това в този случай не е възможно да се измери дължината на махалото, а само неговата промяна. Ако всички измервания са извършени правилно, тогава методът на най-малките квадрати трябва да доведе до резултата, който ще покаже, че .

Резултати от измерванията на промените в дължината на махалото Δ л(разстоянието от точката на окачване до някаква фиксирана точка на нишката беше измерено) и време tдвадесет вибрации (измерени с помощта на ръчен часовник) са дадени в табл. 3. Там са представени и резултатите от изчисленията по описаната методология.

След изчисляване на коефициента А, можете да намерите стойността на ускорението на свободното падане и неговата грешка .

Краен резултат m/s.

Стойност на параметъра bне е използван (значението на получената стойност е разстоянието от фиксирана точка на резбата до центъра на масата на товара). Използването на този параметър е оправдано от трудността за точно определяне на позицията на центъра на тежестта.

4. Експериментални задачи, включващи използване на най-малките квадрати

В заключение предлагаме няколко експериментални задачи, за решаването на които трябва да се използва представеният метод. Всяка задача е снабдена с кратки инструкции за нейното решаване. Тъй като във всеки случай формулите за оценка на грешката са очевидни, те не са дадени тук.

Проблем 1. Периодът на трептене на математическото махало зависи от амплитудата j 0 (в радиани) съгласно закона

(10)

Определете стойността на параметъра β.

Оборудване: конец, тежест, статив, транспортир, електронен хронометър.

Насоки към решението. Зависимостта на периода на трептене от амплитудата е доста слаба. За откриването му е необходимо да се извършват измервания с висока точност (–0,01 s), което изисква електронен хронометър.

Нека представим зависимостта (10) във формата , където y=Т,b = Т 0 . Използвайки метода на най-малките квадрати за линейна зависимост, можете да намерите стойностите на параметрите АИ b, тогава необходимият коефициент ще бъде определен по формулата (обърнете внимание, че теоретична стойност ).

Проблем 2. Определете фокусното разстояние на събирателната леща.

Оборудване: източник на светлина, екран, леща, линийка.

Насоки към решението. Нека използваме формулата за тънка леща

Къде d– разстояние от обекта до лещата, f– разстояние от обектива до изображението, Е– фокусно разстояние на обектива.

Нека обозначим тогава . Ако измервате няколко двойки стойности dазИ f iи нанесете точките върху графиката , тогава тези точки трябва да лежат на права линия, която пресича осите X, присегменти, които са числено равни. Ако обработите тази зависимост с помощта на най-малките квадрати, можете да получите и след това да намерите.

Проблем 3. Охлаждането на водата се описва с формулата, където Δ Т– температурна разлика между водата и въздуха в помещението, Δ Т 0 – същата разлика в момента t= 0. Определете колко време е минало от завирането на водата.

Оборудване: топла водав съд, термометър, часовник.

Насоки към решението. Необходимо е предварително да заври вода и да се охлади. След известно време този съд може да бъде предоставен за изпълнение на задачата. Трябва да се има предвид, че времето за охлаждане на чаша вода при стайни условия е около 40 минути.

За да се реши този проблем, е необходимо да се измери зависимостта на температурата на водата Тот време на време t. След това пренаписваме горната формула във формата , където Т 0 – стайна температура, Т kip – точка на кипене на водата, t 0 – времето, изминало от завирането до началото на измерването. Тъй като в. Тъй като формулата включва само температурни разлики, можете да използвате скалата по Целзий. Нека логаритмуваме последния израз

(12)

и обозначават , х= t, получаваме линейна зависимост

Обработвайки резултатите от измерването с помощта на най-малките квадрати, намираме стойностите на параметрите А, b, от която може да се изчисли желаната времева стойност t 0: .

Проблем 4. Проучете как силата на въздушно съпротивление, действаща върху падащи парчета хартия, зависи от скоростта на последното.

Оборудване: листове хартия, хронометър.

Насоки към решението. Парчетата хартия трябва да бъдат направени квадратни (приблизително см) и леко извити под формата на „парашути“, така че падането им да е стабилно. Чиниите за еднократна употреба от плътна хартия или фолио са отлични за същата цел.

Падането на хартиени чинии (или парашути) става с постоянна скорост, ако пренебрегнем малкия начален етап на ускорение. Силата на съпротивление на въздуха зависи от скоростта u според закона

(необходимо е да се определи γ), по време на стабилно движение тази сила е числено равна на силата на гравитацията, следователно скоростта на стабилно движение е , а времето на падане от височина ч:

(14)

Да вземем няколко (1, 2, 3, ..., 5) еднакви плочи и да измерим времето на падане тнсгънати заедно пчинии. Коефициент свъв формула (13) ще бъде същата (зависи само от формата на плочата), но масата на падащите тела е , където м 0 – маса на една плоча. Използваме (14): , в логаритмична форма

(15)

Както следва от тази формула, има линейна връзка между и , където , в bвсички останали влязоха константи, които не се нуждаят от измерване.

По този начин, чрез измерване на зависимостта на времето на падане тн, от броя на събраните заедно пплочи и чрез конструиране на зависимост (15), използвайки метода на най-малките квадрати, може да се намери стойността на параметъра Аи желаното количество.

При провеждане на експеримент е необходимо да се има предвид, че времето за падане на лист хартия от височина cm е приблизително 1,5 s, така че е необходимо да се измери времето на падане с грешка от порядъка на 0,1 s. Следователно за всяка стойност на числото птрябва да получите множество стойности tп. Подчертаваме, че в тази ситуация няма нужда да изчислявате предварително средните стойности; можете (и трябва) да разглеждате всички резултати от измерванията като независими и да ги включите във формуляра за изчисление.

Друга задача от този тип е разгледана подробно в сп. Фокус.

5. Заключение

Разгледаният алгоритъм за изчисления по метода на най-малките квадрати беше тестван на летни лагери в лагера Зубренок. Класовете, проведени с победителите в олимпиадите, показаха, че този метод е доста достъпен за ученици от гимназията с задълбочено проучванефизика. След придобиване на умения за използване на микрокалкулатор, изчисленията отнемат приблизително 5-10 минути.

Необходимостта от изучаване на методи за графична обработка на резултатите (според MHK или други) е оправдана от участието на републиканските отбори в международни състезания (олимпиади, турнири на млади физици), където графични методизаемат доминиращо място и се ценят много високо.

1. Тейлър Дж. Въведение в теорията на грешките. – М: Мир, 1985.

2. Болшев Л.Н., Смирнов Н.В. Таблици на математическата статистика. – М.: Наука, 1983.

3. Тимофеев А.. Да проверим Стокс? – Фокус. – 1995. – №2. – с. 44-49.

Свеждане до линейна зависимост

Тип зависимост

Преобразуване

Опции

Форма за изчисляване на параметри на линейна зависимост

аз

z

u

х

г

Формули за изчисление

Резултати

Дефиниране на параметри на зависимост
период на трептене на махалото спрямо неговата дължина

Δl,

Формули за изчисление

Резултати

Има много приложения, тъй като позволява приблизително представяне на дадена функция от други по-прости. LSM може да бъде изключително полезен при обработката на наблюдения и се използва активно за оценка на някои количества въз основа на резултатите от измервания на други, съдържащи случайни грешки. В тази статия ще научите как да прилагате изчисления на най-малките квадрати в Excel.

Изложение на проблема с помощта на конкретен пример

Да предположим, че има два индикатора X и Y. Освен това Y зависи от X. Тъй като OLS ни интересува от гледна точка на регресионния анализ (в Excel неговите методи се изпълняват с помощта на вградени функции), трябва незабавно да преминем към разглеждане на специфичен проблем.

И така, нека X е търговската площ на магазин за хранителни стоки, измерена в квадратни метра, а Y е годишният оборот, определен в милиони рубли.

Необходимо е да се направи прогноза какъв оборот (Y) ще има магазинът, ако има тази или онази търговска площ. Очевидно функцията Y = f (X) нараства, тъй като хипермаркетът продава повече стоки от щанда.

Няколко думи за коректността на първоначалните данни, използвани за прогнозиране

Да кажем, че имаме таблица, изградена с помощта на данни за n магазина.

Според математическа статистика, резултатите ще бъдат повече или по-малко правилни, ако се изследват данни за поне 5-6 обекта. Освен това не могат да се използват „аномални“ резултати. По-специално, елитен малък бутик може да има оборот многократно по-голям от оборота на големи търговски обекти от класа „masmarket“.

Същността на метода

Данните от таблицата могат да бъдат изобразени на декартовата равнина като точки M 1 (x 1, y 1), ... M n (x n, y n). Сега решението на проблема ще се сведе до избора на апроксимираща функция y = f (x), която има графика, минаваща възможно най-близо до точките M 1, M 2, .. M n.

Разбира се, можете да използвате полином с висока степен, но тази опция е не само трудна за изпълнение, но и просто неправилна, тъй като няма да отразява основната тенденция, която трябва да бъде открита. Най-разумното решение е да се търси правата линия y = ax + b, която най-добре приближава експерименталните данни или по-точно коефициентите a и b.

Оценка на точността

При всяко приближение оценката на неговата точност е от особено значение. Нека обозначим с e i разликата (отклонението) между функционалните и експерименталните стойности за точка x i, т.е. e i = y i - f (x i).

Очевидно, за да оцените точността на приближението, можете да използвате сумата от отклонения, т.е. когато избирате права линия за приблизително представяне на зависимостта на X от Y, трябва да дадете предпочитание на тази с най-малка стойностсуми e i във всички разглеждани точки. Но не всичко е толкова просто, тъй като наред с положителните отклонения ще има и отрицателни.

Проблемът може да бъде решен с помощта на модули за отклонение или техните квадрати. Последният метод е най-широко използваният. Използва се в много области, включително регресионен анализ (имплементиран в Excel с помощта на две вградени функции), и отдавна е доказал своята ефективност.

Метод на най-малките квадрати

Excel, както знаете, има вградена функция AutoSum, която ви позволява да изчислявате стойностите на всички стойности, разположени в избрания диапазон. Така нищо няма да ни попречи да изчислим стойността на израза (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

В математическа нотация това изглежда така:

Тъй като първоначално беше взето решение за приблизително използване на права линия, имаме:

Така задачата за намиране на правата линия, която най-добре описва конкретната зависимост на величините X и Y, се свежда до изчисляване на минимума на функция от две променливи:

За да направите това, трябва да приравните частните производни по отношение на новите променливи a и b на нула и да решите примитивна система, състояща се от две уравнения с 2 неизвестни от вида:

След някои прости трансформации, включително деление на 2 и манипулиране на суми, получаваме:

Решавайки го, например, използвайки метода на Крамер, получаваме стационарна точка с определени коефициенти a * и b *. Това е минимумът, т.е. за да се предвиди какъв оборот ще има даден магазин за определен район, е подходяща правата линия y = a * x + b *, която е регресионен модел за въпросния пример. Разбира се, това няма да ви позволи да намерите точния резултат, но ще ви помогне да получите представа дали закупуването на конкретна зона на кредит от магазина ще се изплати.

Как да внедрите най-малките квадрати в Excel

Excel има функция за изчисляване на стойности с помощта на най-малките квадрати. Той има следната форма: „ТЕНДЕНЦИЯ“ (известни Y стойности; известни X стойности; нови X стойности; константа). Нека приложим формулата за изчисляване на OLS в Excel към нашата таблица.

За да направите това, въведете знака “=” в клетката, в която трябва да се покаже резултатът от изчислението по метода на най-малките квадрати в Excel и изберете функцията “TREND”. В прозореца, който се отваря, попълнете съответните полета, като маркирате:

  • диапазон от известни стойности за Y (в този случай данни за търговския оборот);
  • диапазон x 1 , …x n , т.е. размерът на търговската площ;
  • както известни, така и неизвестни стойности x, за които трябва да разберете размера на оборота (за информация относно местоположението им в работния лист вижте по-долу).

Освен това формулата съдържа логическата променлива „Const“. Ако въведете 1 в съответното поле, това ще означава, че трябва да извършите изчисленията, като приемете, че b = 0.

Ако трябва да разберете прогнозата за повече от една стойност x, тогава след въвеждане на формулата не трябва да натискате „Enter“, а трябва да въведете комбинацията „Shift“ + „Control“ + „Enter“ на клавиатурата.

Някои функции

Регресионен анализмогат да бъдат достъпни дори за манекени. Формулата на Excel за прогнозиране на стойността на масив от неизвестни променливи - TREND - може да се използва дори от тези, които никога не са чували за най-малките квадрати. Достатъчно е само да знаете някои от характеристиките на работата му. По-специално:

  • Ако подредите диапазона от известни стойности на променливата y в един ред или колона, тогава всеки ред (колона) с известни стойности на x ще се възприема от програмата като отделна променлива.
  • Ако в прозореца TREND не е зададен диапазон с известно x, тогава при използване на функция в Excel програмата ще го третира като масив, състоящ се от цели числа, чийто брой съответства на диапазона с дадените стойности на y променлива.
  • За да изведете масив от „предсказани“ стойности, изразът за изчисляване на тенденцията трябва да бъде въведен като формула за масив.
  • Ако не са посочени нови стойности на x, тогава функцията TREND ги счита за равни на известните. Ако те не са посочени, тогава масив 1 се приема като аргумент; 2; 3; 4;…, което е съизмеримо с диапазона с вече посочени параметри y.
  • Диапазонът, съдържащ новите x стойности, трябва да има същите или повече редове или колони като диапазона, съдържащ дадените y стойности. С други думи, трябва да е пропорционален на независимите променливи.
  • Масив с известни x стойности може да съдържа множество променливи. Ако обаче говорим само за един, тогава се изисква диапазоните с дадените стойности на x и y да бъдат пропорционални. В случай на няколко променливи е необходимо диапазонът с дадените стойности на y да се побере в една колона или един ред.

Функция PREDICTION

Изпълнява се с помощта на няколко функции. Един от тях се нарича „ПРЕДВИДЕНИЕ“. Той е подобен на „TREND“, т.е. дава резултат от изчисления, използвайки метода на най-малките квадрати. Но само за един X, за който стойността на Y е неизвестна.

Вече знаете формули в Excel за манекени, които ви позволяват да предвидите бъдещата стойност на определен индикатор според линейна тенденция.