Гъвкав алгоритъм за решаване на най -малките квадрати. Апроксимация на експериментални данни. Метод на най -малкия квадрат. Линейно сближаване на изходните данни

Което намира най -широко приложение в различни области на науката и практически дейности... Това може да бъде физика, химия, биология, икономика, социология, психология и така нататък и т.н. По воля на съдбата често ми се налага да се занимавам с икономиката и затова днес ще ви издам билет за една невероятна страна, наречена Иконометрия=) ... Как не го искаш ?! Там е много добре - просто трябва да вземете решение! ... Но това, което вероятно определено искате, е да се научите как да решавате проблеми метод най -малки квадратчета ... И особено усърдните читатели ще се научат как да ги решават не само точно, но и МНОГО БЪРЗО ;-) Но първо обща настройказадачи+ свързан пример:

Нека в някаква предметна област се изследват показателите, които имат количествено изражение. В същото време има всички основания да се смята, че показателят зависи от него. Това предположение може да бъде както научна хипотеза, така и основано на елементарен здрав разум. Оставяйки науката настрана и изследвайки повече апетитни зони - а именно магазини за хранителни стоки. Нека обозначим с:

- търговска площ на магазин за хранителни стоки, кв.м.,
- годишен оборот на хранителния магазин, милиони рубли.

Съвсем ясно е, че какво по -голяма площмагазин, толкова по -голям ще бъде оборотът му в повечето случаи.

Да предположим, че след като наблюдаваме / експериментираме / изчисляваме / танцуваме с тамбура, имаме на разположение цифрови данни:

С хранителните магазини мисля, че всичко е ясно: - това е площта на 1 -ви магазин, - неговият годишен оборот, - площта на 2 -ри магазин, - годишният му оборот и т.н. Между другото, изобщо не е необходимо да имате достъп до класифицирани материали - сравнително точна оценка на оборота може да бъде получена чрез математическа статистика... Нека обаче не се разсейваме, ходът на търговски шпионаж - той вече е платен =)

Табличните данни също могат да бъдат записани под формата на точки и изобразени в обичайното за нас Декартова система .

Ще отговорим на важен въпрос: колко точки са ви необходими за качествено проучване?

Колкото по-голям, толкова по-добре. Минимално допустимият набор се състои от 5-6 точки. Освен това, с малко количество данни, извадката не може да включва „аномални“ резултати. Така например, малък елитен магазин може да помогне с порядъци повече „на своите колеги“, като по този начин изкривява общ модел, който искате да намерите!

Казано съвсем просто - трябва да изберем функция, графиккойто преминава възможно най -близо до точките ... Тази функция се нарича приблизително (приближение - приближение)или теоретична функция ... Най -общо казано, тук веднага се появява очевиден „кандидат“ - полиномът висока степен, чиято графика преминава през ВСИЧКИ точки. Но тази опция е трудна и често просто неправилна. (тъй като диаграмата ще се „усуква“ през цялото време и отразява лошо основната тенденция).

По този начин търсената функция трябва да бъде достатъчно проста и в същото време да отразява адекватно зависимостта. Както можете да се досетите, един от методите за намиране на такива функции се нарича метод на най -малките квадрати... Първо, нека разгледаме неговата същност в общи линии. Нека някои функции приближат експерименталните данни:


Как да оценим точността на това приближение? Нека изчислим разликите (отклоненията) между експерименталните и функционалните стойности (изучаваме рисунката)... Първата мисъл, която идва на ум, е да се прецени колко голяма е A сумата, но проблемът е, че разликите могат да бъдат отрицателни. (например, ) и отклоненията в резултат на такова сумиране ще се анулират взаимно. Следователно, като оценка на точността на сближаването, той се моли да приеме сумата модулиотклонения:

или сринат: (изведнъж, кой не знае: - това е иконата на сумата и - спомагателна променлива - "брояч", който приема стойности от 1 до).

Приближавайки експерименталните точки с различни функции, ще получим различни значения, и е очевидно, когато тази сума е по -малка - тази функция е по -точна.

Такъв метод съществува и той се нарича метод с най -малък модул... На практика обаче тя стана много по -разпространена. метод на най -малкия квадратпри което е възможно отрицателни стойностисе елиминират не от модула, а чрез квадратиране на отклоненията:

, след което усилията се насочват към избора на такава функция, така че сумата от квадратите на отклоненията беше възможно най -малък. Всъщност оттук идва и името на метода.

И сега се връщаме към друг важен момент: както бе отбелязано по -горе, избраната функция трябва да бъде доста проста - но има и много такива функции: линейна , хиперболичен, експоненциален, логаритмичен, квадратичен и т.н. И, разбира се, тук веднага бих искал да „намаля полето на дейност“. Кой клас функции да изберете за изследване? Примитивен, но ефективен трик:

- Най -лесният начин за извличане на точки върху чертежа и анализирайте тяхното местоположение. Ако те са склонни да са в права линия, тогава трябва да търсите уравнение на права линия с оптимални стойности и. С други думи, задачата е да се намерят ТАКИ коефициенти - така че сумата от квадратите на отклоненията да е най -малката.

Ако точките са разположени например по протежение хипербола, тогава априори е ясно, че линейна функция ще даде лоша апроксимация. В този случай търсим най -"благоприятните" коефициенти за уравнението на хипербола - тези, които дават минимална сумаквадрати .

Сега, обърнете внимание, че и в двата случая говорим функции на две променливичиито аргументи са параметри на търсените зависимости:

И по същество трябва да решим стандартен проблем - да намерим минимална функция на две променливи.

Нека си припомним нашия пример: да предположим, че точките „магазини“ обикновено са разположени в права линия и има всички основания да се смята, че има линейна връзкаоборот от търговските площи. Нека да намерим ТАКВИ коефициенти "a" и "bs", така че сумата от квадратите на отклоненията беше най -малкият. Всичко е както обикновено - първо Частични деривати от първи ред... Според правило за линейностможете да разграничите директно под иконата за сумата:

Ако искате да използвате тази информацияза есе или учебник - ще съм много благодарен за връзката в списъка с източници, ще намерите такива подробни изчисления на няколко места:

Нека съставим стандартна система:

Намаляваме всяко уравнение с "две" и в допълнение "разбиваме" сумите:

Забележка : Анализирайте сами защо "a" и "bie" могат да бъдат извадени за иконата на сумата. Между другото, формално това може да стане със сумата

Нека пренапишем системата в "приложен" вид:

след което алгоритъмът за решаване на нашия проблем започва да се чертае:

Знаем ли координатите на точките? Ние знаем. Суми можем ли да намерим? Лесно. Съчиняваме най -простия система от две линейни уравнения в две неизвестни("A" и "bh"). Ние решаваме системата, например Метод на Крамер, в резултат на което получаваме неподвижна точка. Чрез проверка достатъчно условие за екстремума, можем да се уверим, че в този момент функцията постига точно минимум... Проверката е свързана с допълнителни изчисления и затова ще я оставим зад кулисите. (ако е необходимо, липсващата рамка може да се види)... Ние правим окончателното заключение:

Функция по най-добрия начин (поне в сравнение с всяка друга линейна функция)приближава експерименталните точки ... Грубо казано, графиката му е възможно най -близо до тези точки. В традицията иконометрияполучената приближаваща функция се нарича също сдвоено уравнение на линейна регресия .

Разглежданият проблем е голям практическо значение... В ситуацията с нашия пример, уравнението ви позволява да предвидите какъв оборот ("Игра")ще бъде в магазина с една или друга стойност на търговското пространство (тази или онази стойност "x")... Да, получената прогноза ще бъде само прогноза, но в много случаи ще бъде доста точна.

Ще анализирам само един проблем с "реални" числа, тъй като в него няма трудности - всички изчисления са на ниво училищна програма 7-8 клас. В 95 процента от случаите ще бъдете помолени да намерите само линейна функция, но в самия край на статията ще покажа, че изобщо не е трудно да се намерят уравненията на оптималната хипербола, показател и някои други функции.

Всъщност остава да раздадете обещаните кифлички - за да се научите как да решавате такива примери не само точно, но и бързо. Ние внимателно изучаваме стандарта:

Задача

В резултат на изучаването на връзката между двата показателя бяха получени следните двойки числа:

Използвайки метода на най -малките квадрати, намерете линейната функция, която най -добре приближава емпиричната (опитен)данни. Направете чертеж, на който в декартова правоъгълна координатна система начертайте експериментални точки и графика на приближаващата функция ... Намерете сумата от квадратни отклонения между емпиричните и теоретичните стойности. Разберете дали функцията ще бъде по -добра (от гледна точка на метода на най -малките квадрати)увеличете експерименталните точки.

Обърнете внимание, че стойностите "x" са естествени и това има характерно смислено значение, за което ще говоря малко по -късно; но те, разбира се, могат да бъдат частични. Освен това, в зависимост от съдържанието на конкретен проблем, и стойностите „x“, и „game“ могат да бъдат напълно или частично отрицателни. Е, имаме „безлична“ задача и я започваме решение:

Намираме коефициентите на оптималната функция като решение на системата:

За по -компактна нотация променливата "counter" може да бъде пропусната, тъй като вече е ясно, че сумирането се извършва от 1 до.

По -удобно е да се изчислят необходимите суми в таблична форма:


Изчисленията могат да се извършват на микрокалкулатор, но е много по -добре да се използва Excel - както по -бързо, така и без грешки; гледайте кратко видео:

Така получаваме следното системата:

Тук можете да умножите второто уравнение с 3 и извадете второто от първото уравнение термин по термин... Но това е късмет - на практика системите често не са подарък и в такива случаи се спестява Метод на Крамер:
, което означава, че системата има уникално решение.

Да проверим. Разбирам, че не искам, но защо да пропускам грешки, където те могат да бъдат напълно избегнати? Заместваме намереното решение в лявата част на всяко уравнение на системата:

Получават се дясните страни на съответните уравнения, което означава, че системата е решена правилно.

По този начин търсената приближаваща функция: - от от всички линейни функции тя е тази, която сближава експерименталните данни по най -добрия начин.

За разлика направо зависимост на оборота на магазина от неговата площ, установената зависимост е обратен (принцип „колкото повече - толкова по -малко“), и този факт веднага се разкрива от негатива наклон... Функция ни казва, че с увеличаване на определен показател с 1 единица, стойността на зависимия индикатор намалява средно аритметичнос 0,65 единици. Както се казва, колкото по -висока е цената на елдата, толкова по -малко се продава.

За да начертаем графиката на приближаващата функция, ще намерим двете й стойности:

и изпълнете чертежа:


Конструираната линия се нарича линия на тенденцията (а именно, линейна линия на тренда, т.е. в общия случай тенденцията не е непременно права линия)... Всички са запознати с израза „бъди в тенденция“ и мисля, че този термин не се нуждае от допълнителни коментари.

Нека изчислим сумата от квадратите на отклоненията между емпирични и теоретични стойности. Геометрично това е сумата от квадратите на дължините на „пурпурните“ сегменти (две от които са толкова малки, че дори не можете да ги видите).

Нека обобщим изчисленията в таблица:


Те отново могат да бъдат направени ръчно, за всеки случай ще дам пример за първата точка:

но е много по -ефективно да се действа вече по известен начин:

Нека повторим: какъв е смисълът на получения резултат?От на всички линейни функциифункция показателят е най -малкият, тоест в семейството си е най -доброто приближение. И тук, между другото, не е случайно последен въпроспроблеми: какво ще стане, ако предложената експоненциална функция ще бъде ли по -добре да се сближат експерименталните точки?

Нека да намерим съответната сума от квадрати на отклонения - за да различа, ще ги обознача с буквата "epsilon". Техниката е абсолютно същата:


И отново, само за всеки пожарникар, изчисления за първата точка:

В Excel използваме стандартната функция EXP (синтаксисът може да бъде намерен в Помощта на Excel).

Изход:, което означава, че експоненциалната функция приближава експерименталните точки по -лошо от правата линия .

Но тук трябва да се отбележи, че "по -лошо" е все още не означава, Какво не е наред. Сега начертах тази експоненциална функция - и тя също се доближава до точките - дотолкова, че без аналитични изследвания е трудно да се каже коя функция е по -точна.

Това завършва решението и се връщам към въпроса за естествените стойности на аргумента. В различни проучвания, като правило, икономически или социологически, естествените "хесове" наброяват месеци, години или други равни интервали от време. Помислете например за такъв проблем.

Задачата е да се намерят коефициентите на линейната зависимост, за които функцията на две променливи аи бпоема най -малката стойност... Тоест, дадено аи бсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най -малката. Това е цялата точка на метода на най -малките квадрати.

По този начин решението на примера се свежда до намиране на екстремума на функция от две променливи.

Извеждане на формули за намиране на коефициенти.Съставя се и се решава система от две уравнения с две неизвестни. Намерете частичните производни на функцията по променливи аи б, приравняваме тези производни на нула.

Ние решаваме получената система от уравнения по всеки метод (например метода на заместването или метода на Крамер) и получаваме формули за намиране на коефициентите, използвайки метода на най -малките квадрати (OLS).

С данни аи бфункция приема най -малката стойност.

Това е методът на най -малките квадрати. Формула за намиране на параметъра асъдържа сумите ,,, и параметъра н- количеството експериментални данни. Препоръчваме да изчислявате стойностите на тези суми поотделно. Коефициент бе след изчисление а.

Основната област на приложение на такива полиноми е обработката на експериментални данни (изграждане на емпирични формули). Въпросът е, че интерполационният полином, конструиран от стойностите на функцията, получена от експеримента, ще изпита силно влияние на "експерименталния шум"; освен това, по време на интерполация, възлите на интерполация не могат да бъдат повторени; резултатите от многократни експерименти не могат да се използват при същите условия. Средният квадратен полином изглажда шума и ви позволява да използвате резултатите от множество експерименти.

Числено интегриране и диференциране. Пример.

Числено интегриране- изчисляване на стойността на определен интеграл (обикновено приблизителен). Численото интегриране се разбира като набор от цифрови методи за намиране на стойността на определен интеграл.

Числено диференциране- набор от методи за изчисляване на стойността на производната на дискретно дадена функция.

Интеграция

Формулиране на проблема.Математическа формулировка на проблема: необходимо е да се намери стойността определен интеграл

където a, b са крайни, f (x) е непрекъснато на [a, b].

При решаването на практически проблеми често се случва интегралът да е неудобен или невъзможен за аналитичен прием: може да не се изрази в елементарни функции, интегрирането може да бъде посочено под формата на таблица и т.н. В такива случаи се използват методи за числено интегриране. Методите за числено интегриране използват замяна на площта на извит трапец с крайна сума от области на по -прости геометрични фигурикоето може да се изчисли точно. В този смисъл те говорят за използването на квадратурни формули.

Повечето методи използват крайно сумово представяне на интеграла (квадратурна формула):

Квадратурните формули се основават на идеята за замяна на графиката на интегрирането на интервала на интегриране с функции с по -проста форма, които могат лесно да бъдат интегрирани аналитично и по този начин могат лесно да бъдат изчислени. Най -простата задача за изграждане на квадратурни формули се реализира за полиномиални математически модели.

Могат да се разграничат три групи методи:

1. Метод с разделяне на сегмента на интегриране на равни интервали. Разделянето на интервали се извършва предварително, обикновено интервалите се избират равни (за да се улесни изчисляването на функцията в краищата на интервалите). Изчислете площите и ги сумирайте (правоъгълник, трапец, методи на Симпсън).

2. Методи с разделяне на сегмента на интегриране с помощта на специални точки (метод на Гаус).

3. Изчисляване на интеграли с помощта на случайни числа (метод Монте Карло).

Метод на правоъгълници.Нека функцията (фигурата) да бъде интегрирана числено в сегмент. Разделете сегмента на N равни интервали. Площта на всеки от N извитите трапеци може да бъде заменена с площ на правоъгълник.

Ширината на всички правоъгълници е еднаква и равна на:

Като избор на височината на правоъгълниците можете да изберете стойността на функцията в лявата граница. В този случай височината на първия правоъгълник ще бъде f (a), вторият-f (x 1), ..., N-f (N-1).

Ако вземем стойността на функцията на дясната граница като избор на височината на правоъгълника, тогава в този случай височината на първия правоъгълник ще бъде f (x 1), втория - f (x 2),… , N - f (x N).

Както можете да видите, в този случай една от формулите дава приближение към интеграла с излишък, а втората с дефицит. Има и друг начин - да се използва стойността на функцията в средата на интервала на интегриране за сближаване:

Оценка на абсолютната грешка на метода на правоъгълника (в средата)

Оценка на абсолютната грешка на методите на левия и десния правоъгълник.

Пример.Изчислете за целия интервал и разделете интервала на четири секции

Решение.Аналитично изчисление на този интеграл дава I = arstg (1) –agstg (0) = 0,7853981634. В нашия случай:

1) h = 1; xо = 0; x1 = 1;

2) h = 0,25 (1/4); x0 = 0; x1 = 0,25; x2 = 0,5; x3 = 0,75; x4 = 1;

Нека изчислим по метода на левите правоъгълници:

Нека изчислим по метода на правилните правоъгълници:

Нека изчислим по метода на средните правоъгълници:

Метод на трапец.Използването на полином от първа степен за интерполация (права линия, проведена през две точки) води до трапецовидна формула. Краищата на интеграционния сегмент се приемат като възли за интерполация. Така извитият трапец се заменя с обикновен трапец, чиято площ може да се намери като произведение на половината сума на основите и височината

В случай на N сегменти на интегриране за всички възли, с изключение на крайните точки на сегмента, стойността на функцията ще бъде включена в общата сума два пъти (тъй като съседните трапеци имат една обща страна)

Формулата на трапеца може да се получи, като се вземе половината от сумата от формулите на правоъгълника по десния и левия ръб на сегмента:

Проверка на стабилността на разтвора.Като правило, колкото по -къса е дължината на всеки интервал, т.е. колкото по -голям е броят на тези интервали, толкова по -малка е разликата между приблизителните и точните стойности на интеграла. Това е вярно за повечето функции. При трапецовидния метод грешката при изчисляване на интеграла ϭ е приблизително пропорционална на квадрата на стъпката на интегриране (ϭ ~ h 2). По този начин, за да се изчисли интегралът на някаква функция в границите a, b, е необходимо да се раздели сегмента на N 0 интервали и намерете сумата от площите на трапеца. След това трябва да увеличите броя на интервалите N 1, отново да изчислите сумата на трапеца и да сравните получената стойност с предишния резултат. Това трябва да се повтаря до (N i), докато се постигне определената точност на резултата (критерий за конвергенция).

За правоъгълни и трапецовидни методи броят на интервалите обикновено се удвоява на всяка стъпка на итерация (N i +1 = 2N i).

Критерий за конвергенция:

Основното предимство на правилото за трапеца е неговата простота. Ако обаче се изисква висока точност при изчисляване на интеграла, този метод може да изисква твърде много повторения.

Абсолютна грешка на метода на трапецияоценено като
.

Пример.Изчислете приблизителния интеграл, като използвате трапецовидната формула.

а) Разделяне на сегмента на интеграция на 3 части.
б) Разделяне на сегмента на интеграция на 5 части.

Решение:
а) Според условието сегментът на интегриране трябва да бъде разделен на 3 части, т.е.
Нека изчислим дължината на всеки сегмент на дяла: .

Поради това, обща формулатрапецът е намален до приятен размер:

И накрая:

Нека ви напомня, че получената стойност е приблизителна стойност за площта.

б) Разделете сегмента на интеграция на 5 равни части, това е . увеличавайки броя на сегментите, увеличаваме точността на изчисленията.

Ако, тогава формулата на трапеца приема следната форма:

Намерете разделената стъпка:
тоест дължината на всяка междинна секция е 0,6.

Когато приключвате задачата, всички изчисления са удобно направени с изчислителна таблица:

В първия ред пишем "брояч"

Като резултат:

Е, наистина има уточнение, и то сериозно!
Ако за 3 сегмента на дяла, тогава за 5 сегмента. Ако вземем още повече със сегмента => ще бъде още по -точно.

Формулата на Симпсън.Формулата на трапеца дава резултат, който силно зависи от размера на стъпката h, което влияе върху точността на изчисляване на определен интеграл, особено в случаите, когато функцията е немонотонна. Възможно е да се предположи увеличаване на точността на изчисленията, ако вместо отсечките на линията, заместващи криволинейни фрагменти от графиката на функцията f (x), се използват например фрагменти от параболи, редуцирани през три съседни точки на графиката. Тази геометрична интерпретация е в основата на метода на Симпсън за изчисляване на определен интеграл. Целият интервал интеграция a, b N сегмента са разделени, дължината на сегмента също ще бъде h = (b-a) / N.

Формулата на Симпсън е:

остатък

С увеличаване на дължината на сегментите точността на формулата намалява, следователно, съставната формула на Симпсън се използва за увеличаване на точността. Целият интервал на интеграция е разделен на четен бройидентични сегменти N, дължината на сегмента също ще бъде равна на h = (b-a) / N. Съставната формула на Симпсън е:

Във формулата изразите в скоби представляват сумите от стойностите на интегранта в краищата на нечетния и четния вътрешен сегмент, съответно.

Остатъкът от формулата на Симпсън е пропорционален на четвъртата степен на стъпката:

Пример:Изчислете интеграла, като използвате правилото на Симпсън. (Точното решение е 0,2)

Метод на Гаус

Квадратурна формула на Гаус... Основният принцип на втория вид квадратурни формули може да се види от фигура 1.12: необходимо е точките да се поставят по този начин NS 0 и NS 1 вътре в сегмента [ а;б], така че общите площи на "триъгълниците" да са равни на площта на "сегмента". Когато се използва формулата на Гаус, оригиналният сегмент [ а;б] се редуцира до сегмента [-1; 1] чрез промяна на променливата NSНа

0.5∙(ба)∙T+ 0.5∙(б + а).

Тогава , където .

Такава подмяна е възможна, ако аи бса крайни, а функцията е(х) е непрекъснат на [ а;б]. Формула на Гаус за нточки x i, i=0,1,..,н-1 вътре в сегмента [ а;б]:

, (1.27)

където t iи A iза различни нса дадени в справочници. Например за н=2 А 0 =А 1 = 1; в н=3: T 0 = t 2 "0.775, T 1 =0, А 0 = А 2 "0,555, А 1 "0.889.

Квадратурна формула на Гаус

получени с функция за тежест, равна на единица p (x) = 1 и възли x iкоито са корените на полиномите на Лежандр

Коефициенти A iлесно се изчислява по формули

i=0,1,2,...н.

Стойностите на възлите и коефициентите за n = 2,3,4,5 са дадени в таблицата

Поръчка Възли Коефициенти
н=2 x 1=0 x 0 =-x 2=0.7745966692 А 1=8/9 A 0 = A 2=5/9
н=3 x 2 =-x 1=0.3399810436 x 3 =-x 0=0.8611363116 A 1 = A 2=0.6521451549 A 0 = A 3=0.6521451549
n = 4 х 2 = 0 х 3 = -х 1 = 0.5384693101 х 4 =-х 0 =0.9061798459 А 0 =0.568888899 А 3 =А 1 =0.4786286705 А 0 =А 4 =0.2869268851
н=5 х 5 = -х 0 =0.9324695142 х 4 = -х 1 =0.6612093865 х 3 = -х 2 =0.2386191861 А 5 = А 0 =0.1713244924 А 4 = А 1 =0.3607615730 А 3 = А 2 =0.4679139346

Пример.Изчислете стойността, използвайки формулата на Гаус за н=2:

Точна стойност: .

Алгоритъмът за изчисляване на интеграла по формулата на Гаус не предвижда удвояване на броя на микросекциите, а увеличаване на броя на ординатите с 1 и сравняване на получените стойности на интеграла. Предимството на формулата на Гаус е високата точност със сравнително малък брой ординати. Недостатъци: неудобно за ръчни изчисления; е необходимо да запазите в паметта на компютъра стойностите t i, A iза различни н.

Грешката на квадратурната формула на Гаус на сегмента ще бъде в този случай За остатъчната формула ще бъде, освен това, коефициентът α ннамалява бързо с растежа н... Тук

Гаусовите формули осигуряват висока точност дори при малък брой възли (от 4 до 10.) В този случай при практическите изчисления броят на възлите варира от няколкостотин до няколко хиляди. Обърнете внимание също, че теглата на гаусовите квадратури винаги са положителни, което гарантира стабилността на алгоритъма за изчисляване на сумите

Методът на най -малките квадрати (OLS) ви позволява да оценявате различни величини, като използвате резултатите от много измервания, които съдържат случайни грешки.

Характеристика на OLS

Основната идея на този метод е, че сумата от квадрати на грешки се разглежда като критерий за точността на решаване на проблем, който се стреми да бъде минимизиран. Когато се използва този метод, могат да се прилагат както числови, така и аналитични подходи.

По -специално, като числова реализация, методът на най -малките квадрати предполага извършване на колкото се може повече измервания на неизвестното случайна величина... Освен това, колкото повече изчисления, толкова по -точно ще бъде решението. При този набор от изчисления (първоначални данни) се получава друг набор от предложени решения, от които след това се избира най -доброто. Ако множеството решения е параметризирано, тогава методът на най -малките квадрати ще бъде редуциран до намиране на оптималната стойност на параметрите.

Като аналитичен подход към прилагането на OLS върху набор от първоначални данни (измервания) и предполагаем набор от решения се определя определена (функционална), която може да бъде изразена чрез формула, получена като някаква хипотеза, която изисква потвърждение. В този случай методът на най -малките квадрати се свежда до намиране на минимума на тази функционалност върху множеството квадрати на първоначалните грешки в данните.

Обърнете внимание, че не самите грешки, а квадратите на грешките. Защо? Факт е, че често отклоненията на измерванията от точната стойност са както положителни, така и отрицателни. При определяне на средната стойност, простото сумиране може да доведе до неправилен извод за качеството на оценката, тъй като взаимното анулиране на положителни и отрицателни стойности ще намали силата на извадката на набора от измерения. И съответно точността на оценката.

За да се предотврати това, квадратите на отклоненията се сумират. Дори повече, за да се приведе измерението на измерената стойност и крайната оценка, се извлича сумата от квадратите на грешките

Някои OLS приложения

OLS се използва широко в различни области. Например в теорията на вероятностите и математическата статистика методът се използва за определяне на такава характеристика на случайна величина като стандартното отклонение, която определя ширината на диапазона от стойности на случайната променлива.

Пример.

Експериментални данни за стойностите на променливите NSи вса дадени в таблицата.

В резултат на тяхното подравняване функцията

Използвайки метод на най -малкия квадрат, приближава тези данни с линейна зависимост y = ax + b(намерете параметри аи б). Разберете кой от двата реда е по -добър (по смисъла на метода на най -малките квадрати) изравнява експерименталните данни. Направете рисунка.

Същността на метода на най -малките квадрати (mns).

Задачата е да се намерят коефициентите на линейната зависимост, за които функцията на две променливи аи б приема най -малката стойност. Тоест, дадено аи бсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най -малката. Това е цялата точка на метода на най -малките квадрати.

По този начин решението на примера се свежда до намиране на екстремума на функция от две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намерете частичните производни на функцията по променливи аи б, приравняваме тези производни на нула.

Ние решаваме получената система от уравнения по всеки метод (например метод на заместванеили Метод на Крамер) и да получат формули за намиране на коефициентите, използвайки метода на най -малките квадрати (OLS).

С данни аи бфункция приема най -малката стойност. Дава се доказателство за този факт по -долу в текста в края на страницата.

Това е методът на най -малките квадрати. Формула за намиране на параметъра асъдържа сумите ,,, и параметъра н- количеството експериментални данни. Препоръчваме да изчислявате стойностите на тези суми поотделно. Коефициент бе след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n = 5... Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на желаните коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на втория ред по стойностите на третия ред за всяко число i.

Стойностите в петия ред на таблицата се получават чрез квадратиране на стойностите на втория ред за всяко число i.

Стойностите в последната колона на таблицата са сумите на стойностите по ред.

Използваме формулите на метода на най -малките квадрати, за да намерим коефициентите аи б... Заместваме в тях съответните стойности от последната колона на таблицата:

Следователно, y = 0,165x + 2,184е необходимата приближаваща права линия.

Остава да разберем кой от редовете y = 0,165x + 2,184или по -добре приближава първоначалните данни, тоест направете оценка, като използвате метода на най -малките квадрати.

Оценка на грешката по метода на най -малките квадрати.

За да направите това, трябва да изчислите сумата от квадратите на отклоненията на първоначалните данни от тези редове и , по -малка стойност съответства на линия, която по -добре приближава първоначалните данни по смисъла на метода на най -малките квадрати.

Оттогава, направо y = 0,165x + 2,184приближава по -добре първоначалните данни.

Графична илюстрация на метода на най -малките квадрати (mns).

Всичко се вижда отлично на графиките. Червената линия е намерената права линия y = 0,165x + 2,184, синята линия е , розовите точки са необработени данни.

На практика при моделиране на различни процеси - по -специално икономически, физически, технически, социални - широко се използва един или друг метод за изчисляване на приблизителните стойности на функциите от техните известни стойности в някои неподвижни точки.

Често възникват такива проблеми с приближаването на функциите:

    при изграждане на приблизителни формули за изчисляване на стойностите на характерните стойности на изследвания процес според таблични данни, получени в резултат на експеримента;

    с числено интегриране, диференциране, решение диференциални уравненияи др .;

    когато е необходимо да се изчислят стойностите на функциите в междинни точки на разглеждания интервал;

    при определяне на стойностите на характерните величини на процеса извън разглеждания интервал, по -специално при прогнозиране.

Ако, за да се моделира определен процес, даден от таблицата, се конструира функция, която приблизително описва този процес въз основа на метода на най -малките квадрати, тя ще бъде наречена приближаваща функция (регресия), а проблемът с конструирането на приближаващи функции сам по себе си е приблизителен проблем .

Тази статия обсъжда възможностите на пакета MS Excel за решаване на подобни проблеми, освен това са дадени методи и техники за конструиране (създаване) на регресии за таблично дефинирани функции (което е в основата на регресионния анализ).

Excel има две възможности за начертаване на регресии.

    Добавяне на избраните регресии (линии на тренда - линии на тренда) към диаграмата, изградена въз основа на таблицата с данни за характеристиката на изследвания процес (налична само ако има изградена диаграма);

    Използване на вградените статистически функции на работен лист на Excel за получаване на регресии (линии на тенденция) директно от таблицата с изходни данни.

Добавяне на линии на тенденция към диаграма

За таблица с данни, описваща определен процес и представена с диаграма, Excel има ефективен инструмент за анализ на регресия, който ви позволява да:

    изграждане на базата на метода на най -малките квадрати и добавяне на пет типа регресии към диаграмата, които моделират изследвания процес с различна степен на точност;

    добавете уравнението на конструираната регресия към диаграмата;

    определя степента, до която избраната регресия съвпада с данните, показани на диаграмата.

Въз основа на данните от диаграмата на Excel, тя ви позволява да получите линейни, полиномиални, логаритмични, степенни, експоненциални типове регресии, които се дават от уравнението:

y = y (x)

където x е независима променлива, която често приема стойностите на поредица от естествени числа (1; 2; 3; ...) и произвежда, например, отброяването на времето за изпълнение на изследвания процес ( характеристики).

1 ... Линейната регресия е добра за моделиране на характеристики, които се увеличават или намаляват с постоянна скорост. Това е най -простият модел на изследвания процес за изграждане. Той е изграден според уравнението:

y = mx + b

където m е допирателната на ъгъла на наклон на линейната регресия към оста на абсцисата; b - координата на точката на пресичане на линейна регресия с оста на ординатите.

2 ... Полиномиалната линия на тренда е полезна за описване на характеристики, които имат няколко различни крайности (върхове и спадове). Изборът на степента на полинома се определя от броя на екстремумите на изследваната характеристика. По този начин полином от втора степен може да опише добре процес, който има само един максимум или минимум; полином от трета степен - не повече от два екстремума; полином от четвърта степен - не повече от три екстремума и др.

В този случай линията на тренда се нанася според уравнението:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

където коефициентите c0, c1, c2, ... c6 са константи, чиито стойности се определят по време на строителството.

3 ... Линията на логаритмичния тренд се използва успешно при моделиране на характеристики, чиито стойности първоначално се променят бързо и след това постепенно се стабилизират.

y = c ln (x) + b

4 ... Тенденционна линия на степенно право дава добри резултати, ако стойностите на изследваната зависимост се характеризират с постоянна промяна в темповете на растеж. Пример за такава зависимост е графика на равномерно ускорено движение на автомобил. Ако данните съдържат нула или отрицателни стойности, не можете да използвате линия на тенденция на мощност.

Той е изграден в съответствие с уравнението:

y = c xb

където коефициентите b, c са константи.

5 ... Експоненциална линия на тренда трябва да се използва, когато скоростта на промяна в данните непрекъснато се увеличава. За данни, съдържащи нулеви или отрицателни стойности, този вид приближение също не е приложим.

Той е изграден в съответствие с уравнението:

y = c ebx

където коефициентите b, c са константи.

При избора на линия на тренда, Excel автоматично изчислява стойността на R2, която характеризира точността на сближаването: колкото по -близо е стойността на R2 до единица, толкова по -надеждно линията на тренда приближава изследвания процес. Ако е необходимо, стойността R2 винаги може да бъде показана на диаграмата.

Определя се по формулата:

За да добавите линия на тенденция към поредица от данни:

    активирайте диаграма въз основа на поредица от данни, тоест щракнете в областта на диаграмата. Елементът диаграма ще се появи в главното меню;

    след като щракнете върху този елемент, на екрана ще се появи меню, в което трябва да изберете командата Добавяне на линия на тенденция.

Същите действия лесно се извършват, като задържите курсора на мишката върху графиката, съответстваща на една от сериите данни, и щракнете с десния бутон на мишката; в контекстното меню, което се показва, изберете командата Добавяне на линия на тенденция. Диалоговият прозорец Trendline с разширен раздел Type (Фиг. 1) ще се появи на екрана.

След това е необходимо:

Изберете необходимия тип линия на тренда в раздела Тип (по подразбиране е избран Линеен тип). За типа полином в полето Степен задайте степента на избрания полином.

1 ... В полето Начертани върху серии са изброени всички серии от данни на въпросната диаграма. За да добавите линия на тенденция към конкретна поредица от данни, изберете нейното име в полето Plotted on Series.

Ако е необходимо, като отидете в раздела Параметри (фиг. 2), можете да зададете следните параметри за линията на тренда:

    променете името на линията на тренда в полето Име на приближаващата (изгладена) крива.

    задайте броя периоди (напред или назад) за прогнозата в полето Прогноза;

    покажете уравнението на линията на тренда в областта на графиката, за което трябва да активирате квадратчето за показване на уравнението на диаграмата;

    покажете стойността на апроксимационната надеждност R2 в областта на диаграмата, за която трябва да активирате квадратчето за поставяне на приблизителната стойност на надеждност (R ^ 2) на диаграмата;

    задайте точката на пресичане на линията на тренда с оста Y, за която трябва да разрешите пресичането на кривата с оста Y в точка checkbox;

    щракнете върху бутона OK, за да затворите диалоговия прозорец.

За да започнете да редактирате вече изградена линия на тенденция, има три начина:

    използвайте командата Selected line line от меню Format, след като изберете линията на тренда;

    изберете командата Форматиране на линия на тенденция от контекстното меню, която се извиква чрез щракване с десния бутон върху линията на тренда;

    чрез двукратно щракване върху линията на тренда.

Диалоговият прозорец Formatline Format (Фиг. 3) ще се появи на екрана, съдържащ три раздела: View, Type, Parameters и съдържанието на последните два напълно съвпада с подобни раздели в диалоговия прозорец Trendline (фиг. 1-2) . В раздела Изглед можете да зададете типа линия, нейния цвят и дебелина.

За да изтриете вече изградена линия на тренда, изберете линията на тренда, която ще бъде изтрита, и натиснете клавиша Delete.

Предимствата на разглеждания инструмент за регресионен анализ са:

    Относителна лекота на нанасяне на линия на тренда в диаграмите, без да се създава таблица с данни за нея;

    доста широк списък от типове предложени линии на тенденция, като този списък включва най -често използваните видове регресия;

    способността да се предскаже произволно поведението на изследвания процес (вътре здрав разум) броя на стъпките напред, както и назад;

    способността да се получи уравнението на линията на тренда в аналитична форма;

    възможността, ако е необходимо, да се получи оценка на надеждността на извършеното сближаване.

Недостатъците включват следните точки:

    изграждането на линия на тренда се извършва само ако има диаграма, изградена върху редица данни;

    процесът на формиране на серии от данни за изследваната характеристика въз основа на получените за нея уравнения на линията на тренда е донякъде затрупан: търсените уравнения на регресията се актуализират с всяка промяна в стойностите на първоначалните серии от данни, но само в областта на диаграмата, докато редовете от данни, формирани въз основа на старата тенденция на уравнение, остават непроменени;

    В отчетите с обобщена диаграма, когато промените изгледа на диаграма или свързан отчет с обобщена таблица, съществуващите линии на тренда не се запазват, тоест преди да нарисувате линии на тенденция или по друг начин да форматирате отчета с обобщена диаграма, трябва да се уверите, че оформлението на отчета отговаря на вашите изисквания.

Тенденционните линии могат да се използват за допълване на серии от данни, представени на диаграми, като например графика, стълбовидна диаграма, плоски ненормализирани области, ленти, разсейване, балончета и диаграми на акции.

Не можете да добавяте линии на тенденция към поредици от данни в триизмерни, нормализирани, радарни, кръгови и понички диаграми.

Използване на вградени функции на Excel

Excel също така предоставя инструмент за регресионен анализ за начертаване на линиите на тренда извън областта на диаграмата. За тази цел могат да се използват редица статистически функции на работен лист, но всички те позволяват изграждането само на линейни или експоненциални регресии.

Excel предоставя няколко функции за конструиране на линейна регресия, по -специално:

    ТЕНДЕНЦИЯ;

  • НАХОД и ПРЕХВЪРЛЯНЕ.

И също така няколко функции за изграждане на експоненциална тенденция, по -специално:

    LGRFPRIBL.

Трябва да се отбележи, че методите за изграждане на регресии, използващи функциите TREND и GROWTH, практически съвпадат. Същото може да се каже и за двойката функции LINEST и LGRFPRIBL. За тези четири функции функциите на Excel, като формули за масиви, се използват за създаване на таблица със стойности, което прави процеса на регресия донякъде затрупан. Отбележете също, че изграждането на линейна регресия, според нас, е най -лесно да се извърши с помощта на функциите SLOPE и INTERCEPT, където първата от тях определя наклона на линейната регресия, а втората е сегментът, отсечен от регресията по ординатна ос.

Предимствата на вградения инструмент за анализ на регресия включват:

    сравнително прост процес от един и същ тип на формиране на серии от данни от изследваната характеристика за всички вградени статистически функции, които задават линии на тенденция;

    стандартна техника за изграждане на линии на тренда въз основа на генерирани серии от данни;

    способността да се предскаже поведението на изследвания процес за необходимия брой стъпки напред или назад.

Недостатъкът е, че Excel няма вградени функции за създаване на други (освен линейни и експоненциални) типове тенденции. Това обстоятелство често не позволява да се избере достатъчно точен модел на изследвания процес, както и да се получат прогнози, които са близки до реалността. Също така, когато се използват функциите TREND и GROWTH, уравненията на линията на тренда не са известни.

Трябва да се отбележи, че авторите не са си поставили за цел статията да представи хода на регресионния анализ с различна степен на пълнота. Неговата основна задача е да покаже възможностите на пакета Excel при решаване на задачи за сближаване с помощта на конкретни примери; демонстрират какви ефективни инструменти Excel има за изграждане на регресии и прогнозиране; да илюстрира колко относително лесно подобни проблеми могат да бъдат решени дори от потребител, който не притежава задълбочени познания за регресионния анализ.

Примери за решаване на конкретни проблеми

Нека разгледаме решението на конкретни задачи, като използваме изброените инструменти на пакета Excel.

Проблем 1

С таблица с данни за печалбата на едно транспортно дружество за 1995-2002г. трябва да направите следното.

    Изградете диаграма.

    Добавете линейни и полиномиални (квадратични и кубични) линии на тренда към графиката.

    Използвайки уравненията на линията на тренда, получете таблични данни за печалбите на предприятията за всяка линия на тенденцията за 1995-2004 г.

    Направете прогноза за печалбата на предприятието за 2003 и 2004 г.

Решението на проблема

    В диапазона от клетки A4: C11 на работния лист на Excel въведете работния лист, показан на фиг. 4.

    След като избрахме диапазона от клетки B4: C11, изграждаме диаграма.

    Активираме конструираната диаграма и, съгласно описания по -горе метод, след като изберем типа линия на тренда в диалоговия прозорец Trendline (виж фиг. 1), добавяме на свой ред линейни, квадратични и кубични линии на тренда. В същия диалогов прозорец отворете раздела Параметри (вижте Фиг. 2), в полето Име на приближаващата (изгладена) крива въведете името на добавената тенденция и в полето Прогноза напред за: периоди задайте стойността 2, тъй като се планира да се направи прогноза за печалбата за две години напред. За да се покаже уравнението на регресията и стойността на приблизителната надеждност R2 в областта на диаграмата, поставете отметки в квадратчетата, за да покажете уравнението на екрана и поставете приблизителната стойност на надеждност (R ^ 2) на диаграмата. За по -добро визуално възприятие променяме типа, цвета и дебелината на конструираните линии на тенденцията, за което използваме раздела Изглед на диалоговия прозорец Формат на тенденцията (виж фиг. 3). Получената диаграма с добавени линии на тренда е показана на фиг. 5.

    Да се ​​получат таблични данни за печалбата на предприятието за всяка линия на тенденция за 1995-2004 г. Нека използваме уравненията на линията на тренда, показани на фиг. 5. За да направите това, в клетките от диапазона D3: F3 въведете текстова информация за типа на избраната линия на тренда: Линеен тренд, Квадратичен тренд, Кубичен тренд. След това въведете формулата за линейна регресия в клетка D4 и с помощта на маркера за запълване копирайте тази формула с относителни препратки към диапазона от клетки D5: D13. Трябва да се отбележи, че всяка клетка с формула за линейна регресия от диапазона на клетки D4: D13 приема съответната клетка от диапазона A4: A13 като аргумент. По подобен начин за квадратична регресия се запълва клетъчният диапазон E4: E13, а за кубична регресия се запълва клетъчният диапазон F4: F13. Така беше направена прогнозата за печалбата на предприятието за 2003 и 2004 г. използвайки три тенденции. Получената таблица със стойности е показана на фиг. 6.

Задача 2

    Изградете диаграма.

    Добавете логаритмични, експоненциални и експоненциални линии на тренда към графиката.

    Изведете уравненията на получените линии на тренда, както и стойностите на апроксимационната надеждност R2 за всяка от тях.

    Използвайки уравненията на линията на тренда, получете таблични данни за печалбите на предприятията за всяка линия на тенденцията за 1995-2002 г.

    Направете прогноза за печалбата на компанията за 2003 и 2004 г., като използвате тези тенденции.

Решението на проблема

Следвайки методологията, дадена при решаването на задача 1, получаваме диаграма с добавени логаритмични, степенни и експоненциални трендови линии (фиг. 7). Освен това, използвайки получените уравнения на линиите на тренда, попълваме таблицата със стойности за печалбата на предприятието, включително прогнозните стойности за 2003 и 2004 г. (фиг. 8).

На фиг. 5 и фиг. може да се види, че моделът с логаритмичен тренд съответства на най -малката стойност на надеждността на приближението

R2 = 0,8659

Най -големите стойности на R2 съответстват на модели с полиномиален тренд: квадратичен (R2 = 0,9263) и кубичен (R2 = 0,933).

Задача 3

С таблицата с данни за печалбата на превозвач за 1995-2002 г., дадена в задача 1, трябва да изпълните следните действия.

    Вземете серии от данни за линейни и експоненциални линии на тренда, като използвате функциите TREND и GROWTH.

    Използвайки функциите TREND и GROWTH, направете прогноза за печалбата на компанията за 2003 и 2004 г.

    Изградете диаграма за първоначалните данни и получената серия от данни.

Решението на проблема

Нека използваме работния лист на задача 1 (виж фиг. 4). Нека започнем с функцията TREND:

    изберете диапазона от клетки D4: D11, който трябва да бъде попълнен със стойностите на функцията TREND, съответстващи на известните данни за печалбата на предприятието;

    извикайте командата Function от менюто Insert. В диалоговия прозорец на съветника за функции изберете функцията TREND от категорията Статистически и след това щракнете върху бутона OK. Същата операция може да се извърши чрез натискане на бутона (Вмъкване на функция) на стандартната лента с инструменти.

    В диалоговия прозорец Аргументи на функции, който се появява, въведете диапазона от клетки C4: C11 в полето Known_values_y; в полето на Known_x - диапазонът от клетки B4: B11;

    за да направите въведената формула формула на масив, използвайте клавишната комбинация + +.

Формулата, която въведохме в лентата с формули, ще изглежда така: = (TREND (C4: C11; B4: B11)).

В резултат на това диапазонът от клетки D4: D11 се запълва със съответните стойности на функцията TREND (фиг. 9).

Да се ​​направи прогноза за печалбата на компанията за 2003 и 2004г. необходимо:

    изберете диапазона от клетки D12: D13, където ще бъдат въведени стойностите, предвидени от функцията TREND.

    извикайте функцията TREND и в появилия се диалогов прозорец Function Arguments въведете в полето Known_values_y - диапазона от клетки C4: C11; в полето на Known_x - диапазонът от клетки B4: B11; а полето New_x_values ​​съдържа диапазона от клетки B12: B13.

    превърнете тази формула във формула на масив, като използвате клавишната комбинация Ctrl + Shift + Enter.

    Въведената формула ще изглежда така: = (TREND (C4: C11; B4: B11; B12: B13)), а диапазонът от клетки D12: D13 ще бъде запълнен с предвидените стойности на функцията TREND (виж фиг. 9).

По същия начин поредица от данни се попълва с помощта на функцията GROWTH, която се използва при анализа на нелинейни зависимости и работи по абсолютно същия начин като нейния линеен аналог TREND.

Фигура 10 показва таблицата в режим на показване на формули.

За началните данни и получените серии от данни диаграмата, показана на фиг. единадесет.

Задача 4

С таблицата с данни за постъпване на заявления за услуги от диспечерската служба на автотранспортната компания за периода от 1 -ви до 11 -ти ден на текущия месец трябва да се извършат следните действия.

    Вземете серия от данни за линейна регресия: използвайки функциите SLOPE и INTERCEPT; с помощта на функцията LINEST.

    Вземете серия от данни за експоненциална регресия, като използвате функцията LGRFPRIBL.

    Използвайки горните функции, направете прогноза за получаването на заявления в диспечерската служба за периода от 12 -ия до 14 -ия ден на текущия месец.

    Изградете диаграма за оригиналната и получената серия от данни.

Решението на проблема

Имайте предвид, че за разлика от функциите TREND и GROWTH, никоя от горните функции (SLOPE, INTERCEPT, LINEST, LGRFPRIB) не е регресия. Тези функции играят само спомагателна роля, определяща необходимите параметри на регресията.

За линейни и експоненциални регресии, изградени с помощта на функциите SLOPE, INTERCEPT, LINEST, LGRFPRIB, появата на техните уравнения винаги е известна, за разлика от линейните и експоненциалните регресии, съответстващи на функциите TREND и GROWTH.

1 ... Нека конструираме линейна регресия с уравнението:

y = mx + b

с функциите SLOPE и INTERCEPT, където наклонът m се определя от функцията SLOPE, а прихващането b се определя от функцията INTERCEPT.

За да направите това, ние извършваме следните действия:

    въвеждаме оригиналната таблица в диапазона от клетки A4: B14;

    стойността на параметъра m ще бъде определена в клетка C19. Изберете от статистическата категория наклон; въведете диапазона от клетки B4: B14 в полето known_y и диапазона от клетки A4: A14 в полето known_x. Формулата ще бъде въведена в клетка C19: = НАКЛОН (B4: B14; A4: A14);

    използвайки подобна методология, се определя стойността на параметър b в клетка D19. И съдържанието му ще изглежда така: = ПРЕХВЪРЛЯНЕ (B4: B14; A4: A14). По този начин стойностите на параметрите m и b, необходими за конструиране на линейна регресия, ще се съхраняват съответно в клетки C19, D19;

    след това въвеждаме формулата за линейна регресия в клетка C4 под формата: = $ C * A4 + $ D. В тази формула клетки C19 и D19 са записани с абсолютни препратки (адресът на клетката не трябва да се променя, когато е възможно копиране). Абсолютният референтен знак $ може да бъде въведен или от клавиатурата, или с помощта на клавиша F4, след като поставите курсора върху адреса на клетката. Използвайки маркера за запълване, копирайте тази формула в диапазона от клетки C4: C17. Получаваме необходимите серии данни (фиг. 12). Поради факта, че броят на поръчките е цяло число, трябва да зададете числовия формат с 0 десетични знака в раздела Номер на прозореца Форматиране на клетки.

2 ... Сега нека изградим линейната регресия, дадена от уравнението:

y = mx + b

с помощта на функцията LINEST.

За това:

    въведете функцията LINEST в диапазона от клетки C20: D20 като формула на масив: = (LINEST (B4: B14; A4: A14)). В резултат на това получаваме в клетка C20 стойността на параметър m, а в клетка D20 - стойността на параметър b;

    въведете формулата в клетка D4: = $ C * A4 + $ D;

    копирайте тази формула, като използвате дръжката за запълване в диапазона от клетки D4: D17 и вземете необходимите серии от данни.

3 ... Изграждаме експоненциална регресия, която има уравнението:

използвайки функцията LGRFPRIBL, тя се изпълнява по същия начин:

    в диапазона от клетки C21: D21 въвеждаме функцията LGRFPRIBL като формула на масив: = (LGRFPRIBL (B4: B14; A4: A14)). В този случай в клетка C21 ще се определи стойността на параметър m, а в клетка D21 - стойността на параметър b;

    формулата се въвежда в клетка E4: = $ D * $ C ^ A4;

    с помощта на маркера за запълване тази формула се копира в диапазона от клетки E4: E17, където ще бъдат разположени сериите от данни за експоненциалната регресия (виж фиг. 12).

На фиг. 13 е таблица, където можете да видите функциите, които използваме с необходимите диапазони от клетки, както и формули.

Количеството R 2 Наречен коефициент на детерминация.

Задачата за изграждане на регресионна зависимост е да се намери векторът на коефициентите m на модела (1), при който коефициентът R приема максималната си стойност.

За да се оцени значимостта на R, се използва F-тест на Фишър, изчислен по формулата

където н- размер на извадката (брой експерименти);

k е броят на коефициентите на модела.

Ако F надвишава някаква критична стойност за данните ни ки приетото ниво на доверие, тогава стойността на R се счита за значителна. Таблици с критични стойности на F са дадени в наръчници по математическа статистика.

По този начин значимостта на R се определя не само от неговата стойност, но и от съотношението между броя на експериментите и броя на коефициентите (параметрите) на модела. Всъщност съотношението на корелация за n = 2 за прост линеен модел е 1 (през 2 точки на равнината винаги можете да начертаете една права линия). Ако обаче експерименталните данни са случайни стойности, на такава стойност R трябва да се вярва с голямо внимание. Обикновено, за да се получи значителен R и надеждна регресия, човек се стреми да гарантира, че броят на експериментите значително надвишава броя на моделните коефициенти (n> k).

За да изградите модел на линейна регресия, трябва:

1) подгответе списък с n реда и m колони, съдържащи експериментални данни (колона, съдържаща изходната стойност Yтрябва да е първа или последна в списъка); например ще вземем данните от предишната задача, добавяйки колона с името „Период номер“, номерираме числата на периода от 1 до 12. (това ще бъдат стойностите NS)

2) отидете в менюто Данни / Анализ на данни / Регресия

Ако елементът "Анализ на данни" в менюто "Инструменти" липсва, трябва да отидете в елемента "Добавки" на същото меню и да поставите отметка в квадратчето "Пакет за анализ".

3) в диалоговия прозорец "Регресия":

· Входен интервал Y;

· Входен интервал X;

· Изходен интервал - горната лява клетка на интервала, в който ще бъдат поставени резултатите от изчисленията (препоръчително е да го поставите на нов работен лист);

4) щракнете върху „Ok“ и анализирайте резултатите.

Ако някои физическо количествозависи от друга величина, тогава тази зависимост може да бъде изследвана чрез измерване на y при различни стойности на x. В резултат на измерванията се получават редица стойности:

x 1, x 2, ..., x i, ..., x n;

y 1, y 2, ..., y i, ..., y n.

Въз основа на данните от такъв експеримент е възможно да се изгради графика на зависимостта y = ƒ (x). Получената крива дава възможност да се прецени формата на функцията ƒ (x). Константните коефициенти, включени в тази функция, обаче остават неизвестни. Методът на най -малките квадрати ви позволява да ги определите. Експерименталните точки по правило не се вписват точно в кривата. Методът с най -малки квадрати изисква сумата от квадратните отклонения на експерименталните точки от кривата, т.е. 2 беше най -малкият.

На практика този метод най -често (и най -просто) се използва в случай на линейна връзка, т.е. кога

y = kxили y = a + bx.

Линейната зависимост е много разпространена във физиката. И дори когато зависимостта е нелинейна, те обикновено се опитват да начертаят графиката по такъв начин, че да получат права линия. Например, ако се приеме, че коефициентът на пречупване на стъклото n е свързан с дължината λ на светлинната вълна чрез съотношението n = a + b / λ 2, тогава зависимостта на n от λ -2 се нанася на графиката .

Помислете за зависимостта y = kx(права линия, преминаваща през началото). Нека съставим стойността φ - сумата от квадратите на отклоненията на нашите точки от правата линия

Стойността на φ е винаги положителна и се оказва по -малката, колкото по -близо точките ни лежат до правата линия. Методът с най -малки квадрати гласи, че за k трябва да се избере такава стойност, при която φ да има минимум


или
(19)

Изчислението показва, че средноквадратичната грешка при определяне на стойността на k е равна на

, (20)
където - n е броят на измерванията.

Нека сега разгледаме малко по -труден случай, когато точките трябва да отговарят на формулата y = a + bx(права линия не преминава през началото).

Задачата е да се намерят най -добрите стойности на a и b от наличния набор от стойности x i, y i.

Нека да композираме отново квадратна форма φ , равна на суматаквадратни отклонения на точки x i, y i от права линия

и намерете стойностите на a и b, за които φ има минимум

;

.

.

Съвместното решение на тези уравнения дава

(21)

Средно-квадратните грешки при определяне на a и b са равни

(23)

... & nbsp (24)

При обработка на резултатите от измерванията по този метод е удобно да се обобщят всички данни в таблица, в която всички суми, включени във формули (19) - (24), са предварително изчислени. Формите на тези таблици са показани в примерите, разгледани по -долу.

Пример 1.Изследвано е основното уравнение на динамиката въртеливо движениеε = M / J (линия, преминаваща през началото). За различни стойности на момента М е измерено ъгловото ускорение ε на определено тяло. Изисква се да се определи моментът на инерция на това тяло. Резултатите от измерванията на момента на сила и ъглово ускорение се въвеждат във втората и третата колона. таблица 5.

Таблица 5
н М, Нм ε, s -1 М 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

По формула (19) определяме:

.

За да определим средната квадратна грешка, използваме формулата (20)

0.005775Килограма-1 · м -2 .

По формула (18) имаме

; .

S J = (2.996 0.005775) /0.3337 = 0.05185 кг м 2.

Задавайки надеждността P = 0,95, според таблицата на коефициентите на Стюдент за n = 5, намираме t = 2,78 и определяме абсолютната грешка ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 кг м 2.

Ще запишем резултатите във формата:

J = (3,0 ± 0,2) кг м 2;


Пример 2.Нека изчислим температурния коефициент на съпротивление на метала, използвайки метода на най -малките квадрати. Съпротивлението е линейно с температурата

R t = R 0 (1 + α t °) = R 0 + R 0 α t °.

Свободният срок определя съпротивлението R 0 при 0 ° C, а наклонът е произведение на температурния коефициент α и съпротивлението R 0.

Резултатите от измерванията и изчисленията са показани в таблицата ( виж таблица 6).

Таблица 6
н t °, s r, Ом t-¯ t (t-¯ t) 2 (t-¯ t) r r - bt - a (r - bt - a) 2, 10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑ / n 85.83333 1.4005 – – – – –

Използвайки формули (21), (22), определяме

R 0 = ¯ R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 Ом.

Нека открием грешката в дефиницията на α. Тъй като тогава по формула (18) имаме:

.

Използвайки формули (23), (24), имаме

;

0.014126 Ом.

Предвид надеждността P = 0,95, според таблицата на коефициентите на Стюдент за n = 6, намираме t = 2,57 и определяме абсолютната грешка Δα = 2,57 0,000132 = 0,000338 градус -1.

α = (23 ± 4) · 10 -4 градушка-1 при Р = 0,95.


Пример 3.Изисква се определяне на радиуса на кривина на лещата с помощта на пръстените на Нютон. Измерват се радиусите на пръстените на Нютон r m и се определя броят на тези пръстени m. Радиусите на пръстените на Нютон са свързани с радиуса на кривина на лещата R и номера на пръстена по уравнението

r 2 m = mλR - 2d 0 R,

където d 0 е дебелината на пролуката между лещата и плоскопаралелната плоча (или деформация на лещата),

λ е дължината на вълната на падащата светлина.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

тогава уравнението приема формата y = a + bx.

.

Резултатите от измерванията и изчисленията се записват в Таблица 7.

Таблица 7
н x = m y = r 2, 10 -2 mm 2 m -¯ m (m -¯ m) 2 (m -¯ m) y y - bx - a, 10 -4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑ / n 3.5 20.8548333 – – – – –