Kde sa používa metóda najmenších štvorcov? Prstová matematika: Ručné počítanie najmenších štvorcov

Ktorá nachádza najširšie uplatnenie v rôznych oblastiach vedy a praxe. Môže to byť fyzika, chémia, biológia, ekonómia, sociológia, psychológia a tak ďalej a tak ďalej. Z vôle osudu sa často musím popasovať s ekonomikou, a preto vám dnes vybavím letenku do úžasnej krajiny tzv. Ekonometria=) ... Ako to nechceš?! Je to tam veľmi dobré - stačí sa rozhodnúť! ...Ale to, čo pravdepodobne určite chcete, je naučiť sa riešiť problémy najmenších štvorcov. A hlavne usilovní čitatelia sa ich naučia riešiť nielen presne, ale aj VEĽMI RÝCHLO ;-) Ale najskôr všeobecné vyjadrenie problému+ súvisiaci príklad:

Nech sa študujú ukazovatele v nejakej tematickej oblasti, ktoré majú kvantitatívne vyjadrenie. Zároveň existuje dôvod domnievať sa, že ukazovateľ závisí od ukazovateľa. Tento predpoklad môže byť vedeckou hypotézou aj založenou na elementárnom zdravom rozume. Nechajme však vedu bokom a preskúmajme chutnejšie oblasti – menovite obchody s potravinami. Označiť podľa:

– obchodný priestor predajne potravín, m2,
- ročný obrat obchodu s potravinami, milióny rubľov.

Je úplne jasné, že čím väčšia je plocha predajne, tým väčší je jej obrat vo väčšine prípadov.

Predpokladajme, že po vykonaní pozorovaní / experimentov / výpočtov / tanca s tamburínou máme k dispozícii číselné údaje:

Pri obchodoch s potravinami je myslím všetko jasné: - toto je plocha 1. predajne, - jej ročný obrat, - plocha 2. predajne, - jej ročný obrat atď. Mimochodom, vôbec nie je potrebné mať prístup k utajovaným materiálom - pomerne presné vyhodnotenie obratu možno získať pomocou matematická štatistika. Nenechajte sa však rozptyľovať, kurz komerčnej špionáže je už zaplatený =)

Tabuľkové údaje môžu byť zapísané aj vo forme bodov a zobrazené pre nás obvyklým spôsobom. karteziánsky systém .

Odpovedzme si na dôležitú otázku: koľko bodov je potrebných na kvalitatívnu štúdiu?

Čím väčšie, tým lepšie. Minimálny prípustný set pozostáva z 5-6 bodov. Okrem toho pri malom množstve údajov by do vzorky nemali byť zahrnuté „abnormálne“ výsledky. Takže napríklad malý elitný obchod môže pomôcť rádovo viac ako „ich kolegovia“, čím skresľuje všeobecný vzorec, ktorý je potrebné nájsť!

Ak je to celkom jednoduché, musíme vybrať funkciu, harmonogram ktorý prechádza čo najbližšie k bodom . Takáto funkcia sa nazýva aproximácia (aproximácia - aproximácia) alebo teoretická funkcia . Vo všeobecnosti sa tu okamžite objaví zjavný „predstierač“ - polynóm vysokého stupňa, ktorého graf prechádza VŠETKÝMI bodmi. Táto možnosť je však komplikovaná a často jednoducho nesprávna. (pretože graf sa bude neustále „navíjať“ a zle odráža hlavný trend).

Požadovaná funkcia teda musí byť dostatočne jednoduchá a zároveň primerane odrážať závislosť. Ako asi tušíte, jedna z metód na nájdenie takýchto funkcií je tzv najmenších štvorcov. Najprv analyzujme jeho podstatu všeobecným spôsobom. Nechajte nejakú funkciu aproximovať experimentálne údaje:


Ako vyhodnotiť presnosť tejto aproximácie? Vypočítajme aj rozdiely (odchýlky) medzi experimentálnymi a funkčnými hodnotami (študujeme kresbu). Prvá myšlienka, ktorá príde na myseľ, je odhadnúť, aká veľká je suma, ale problém je, že rozdiely môžu byť negatívne. (Napríklad, ) a odchýlky v dôsledku takéhoto súčtu sa navzájom vyrušia. Preto sa ako odhad presnosti aproximácie navrhuje použiť súčet modulov odchýlky:

alebo v zloženom tvare: (zrazu, kto nevie: je ikona súčtu a je to pomocná premenná - „počítadlo“, ktoré nadobúda hodnoty od 1 do ).

Aproximáciou experimentálnych bodov s rôznymi funkciami získame rôzne hodnoty a je zrejmé, že kde je tento súčet menší, je táto funkcia presnejšia.

Takáto metóda existuje a volá sa metóda najmenšieho modulu. V praxi sa však výrazne rozšíril. metóda najmenších štvorcov, v ktorom možné záporné hodnoty nie sú eliminované modulom, ale kvadratúrou odchýlok:

, po ktorom úsilie smeruje k výberu takej funkcie, aby súčet kvadrátov odchýlok bol čo najmenší. Odtiaľ vlastne pochádza aj názov metódy.

A teraz sa vrátime k ďalšiemu dôležitému bodu: ako je uvedené vyššie, vybraná funkcia by mala byť pomerne jednoduchá - existuje však aj veľa takýchto funkcií: lineárne , hyperbolický, exponenciálny, logaritmický, kvadratický atď. A, samozrejme, tu by som okamžite rád "zmenšil pole pôsobnosti." Akú triedu funkcií zvoliť pre výskum? Primitívna, ale účinná technika:

- Najjednoduchší spôsob kreslenia bodov na výkrese a analyzovať ich umiestnenie. Ak majú tendenciu byť v priamej línii, mali by ste hľadať priamka rovnica s optimálnymi hodnotami a . Inými slovami, úlohou je nájsť TAKÉTO koeficienty – tak, aby súčet kvadrátov odchýlok bol čo najmenší.

Ak sú body umiestnené napr hyperbola, potom je jasné, že lineárna funkcia poskytne zlú aproximáciu. V tomto prípade hľadáme „najpriaznivejšie“ koeficienty pre rovnicu hyperboly - tie, ktoré dávajú minimálny súčet štvorcov .

Teraz si všimnite, že v oboch prípadoch hovoríme o funkcie dvoch premenných, ktorých argumenty sú hľadal možnosti závislosti:

A v podstate potrebujeme vyriešiť štandardný problém – nájsť minimálne funkcie dvoch premenných.

Pripomeňme si náš príklad: Predpokladajme, že body „obchodu“ majú tendenciu byť umiestnené v priamej línii a existuje každý dôvod domnievať sa, že ide o lineárna závislosť obrat z obchodnej oblasti. Nájdite TAKÉTO koeficienty „a“ ​​a „be“ tak, aby bol súčet kvadrátov odchýlok bol najmenší. Všetko ako obvykle - prvé parciálne deriváty 1. rádu. Podľa pravidlo linearity môžete rozlišovať priamo pod ikonou sumy:

Ak chcete použiť tieto informácie na esej alebo semestrálnu prácu, budem veľmi vďačný za odkaz v zozname zdrojov, nikde nenájdete také podrobné výpočty:

Urobme štandardný systém:

Každú rovnicu znížime o „dvojku“ a navyše „rozdelíme“ súčty:

Poznámka : nezávisle analyzovať, prečo je možné z ikony súčtu vyňať „a“ a „byť“. Mimochodom, formálne sa to dá urobiť so sumou

Prepíšme systém do „aplikovanej“ formy:

potom sa začne kresliť algoritmus na riešenie nášho problému:

Poznáme súradnice bodov? Vieme. Sumy môžeme nájsť? Jednoduché. Skladáme to najjednoduchšie sústava dvoch lineárnych rovníc s dvoma neznámymi("a" a "beh"). Systém riešime napr. Cramerova metóda, výsledkom čoho je stacionárny bod . Kontrola postačujúca podmienka pre extrém, môžeme overiť, že v tomto bode funguje dosiahne presne minimálne. Overenie je spojené s dodatočnými výpočtami a preto ho necháme v zákulisí. (v prípade potreby je možné zobraziť chýbajúci rámček). Vyvodzujeme konečný záver:

Funkcia najlepšia cesta (aspoň v porovnaní s akoukoľvek inou lineárnou funkciou) približuje experimentálne body . Zhruba povedané, jeho graf prechádza čo najbližšie k týmto bodom. V tradícii ekonometrie sa nazýva aj výsledná aproximačná funkcia párová lineárna regresná rovnica .

Uvažovaný problém má veľký praktický význam. V situácii s naším príkladom, rovnica umožňuje predpovedať, aký druh obratu ("yig") bude v predajni s jednou alebo druhou hodnotou predajnej plochy (jeden alebo iný význam "x"). Áno, výsledná predpoveď bude iba predpoveďou, no v mnohých prípadoch sa ukáže ako celkom presná.

Rozoberiem len jeden problém so „skutočnými“ číslami, keďže v ňom nie sú žiadne ťažkosti – všetky výpočty sú na úrovni školských osnov v 7. – 8. ročníku. V 95 percentách prípadov budete vyzvaní, aby ste našli len lineárnu funkciu, ale na samom konci článku ukážem, že nájsť rovnice pre optimálnu hyperbolu, exponent a niektoré ďalšie funkcie nie je o nič ťažšie.

V skutočnosti zostáva rozdávať sľúbené dobroty – aby ste sa naučili takéto príklady riešiť nielen presne, ale aj rýchlo. Starostlivo študujeme štandard:

Úloha

Ako výsledok štúdia vzťahu medzi dvoma ukazovateľmi sa získali nasledujúce dvojice čísel:

Pomocou metódy najmenších štvorcov nájdite lineárnu funkciu, ktorá najlepšie aproximuje empirickú funkciu (skúsený)údajov. Vytvorte výkres, na ktorom v karteziánskom pravouhlom súradnicovom systéme nakreslite experimentálne body a graf aproximačnej funkcie . Nájdite súčet štvorcových odchýlok medzi empirickými a teoretickými hodnotami. Zistite, či je funkcia lepšia (v zmysle metódy najmenších štvorcov) približné experimentálne body.

Všimnite si, že hodnoty „x“ sú prirodzené hodnoty a to má charakteristický zmysluplný význam, o ktorom budem hovoriť o niečo neskôr; ale, samozrejme, môžu byť zlomkové. Okrem toho v závislosti od obsahu konkrétnej úlohy môžu byť hodnoty „X“ aj „G“ úplne alebo čiastočne záporné. Dostali sme „netvárnu“ úlohu a začíname s ňou Riešenie:

Nájdeme koeficienty optimálnej funkcie ako riešenie systému:

Na účely kompaktnejšieho zápisu možno premennú „counter“ vynechať, pretože už je jasné, že sčítanie sa vykonáva od 1 do .

Je vhodnejšie vypočítať požadované množstvá v tabuľkovej forme:


Výpočty je možné vykonávať na mikrokalkulačke, ale oveľa lepšie je použiť Excel - rýchlejšie a bez chýb; pozrite si krátke video:

Dostávame teda nasledovné systém:

Tu môžete vynásobiť druhú rovnicu 3 a odčítajte 2. od 1. rovnice člen po člene. Ale to je šťastie - v praxi systémy často nie sú nadané a v takýchto prípadoch šetrí Cramerova metóda:
, takže systém má unikátne riešenie.

Urobme kontrolu. Chápem, že to nechcem, ale prečo preskakovať chyby tam, kde si ich nemôžete nechať ujsť? Nájdené riešenie dosaďte na ľavú stranu každej rovnice systému:

Získajú sa správne časti zodpovedajúcich rovníc, čo znamená, že systém je vyriešený správne.

Požadovaná aproximačná funkcia: – od všetky lineárne funkcie najlepšie sa ním priblížia experimentálne údaje.

Na rozdiel od rovno závislosť obratu predajne od jej plochy, zistená závislosť je obrátene (zásada „čím viac – tým menej“), a túto skutočnosť okamžite odhalí negatív uhlový koeficient. Funkcia nás informuje, že so zvýšením určitého ukazovateľa o 1 jednotku sa hodnota závislého ukazovateľa znižuje priemer o 0,65 jednotky. Ako sa hovorí, čím vyššia je cena pohánky, tým menej sa predáva.

Na vykreslenie aproximačnej funkcie nájdeme dve jej hodnoty:

a vykonajte kreslenie:


Vybudovaná čiara je tzv trendová čiara (konkrétne lineárna trendová čiara, t. j. vo všeobecnom prípade trend nemusí byť nevyhnutne priamka). Každému je známy výraz „byť v trende“ a myslím, že tento výraz nepotrebuje ďalší komentár.

Vypočítajte súčet štvorcových odchýlok medzi empirickými a teoretickými hodnotami. Geometricky ide o súčet druhých mocnín dĺžok „karmínových“ segmentov (dve z nich sú také malé, že ich ani nevidíte).

Zhrňme si výpočty do tabuľky:


Môžu byť opäť vykonané ručne, len v prípade, že uvediem príklad pre 1. bod:

ale oveľa efektívnejšie je urobiť už známy spôsob:

Zopakujme si: aký je zmysel výsledku? Od všetky lineárne funkcie funkciu exponent je najmenší, to znamená, že je to najlepšia aproximácia vo svojej rodine. A tu, mimochodom, posledná otázka problému nie je náhodná: čo ak navrhovaná exponenciálna funkcia bude lepšie aproximovať experimentálne body?

Nájdite zodpovedajúci súčet štvorcových odchýlok - aby som ich rozlíšil, označím ich písmenom "epsilon". Technika je úplne rovnaká:


A opäť pre každý výpočet požiaru pre 1. bod:

V Exceli používame štandardnú funkciu EXP (Syntax nájdete v Pomocníkovi programu Excel).

Záver: , takže exponenciálna funkcia aproximuje experimentálne body horšie ako priamka .

Tu však treba poznamenať, že „horšie“ je ešte neznamená, čo je zle. Teraz som vytvoril graf tejto exponenciálnej funkcie - a tiež prechádza blízko k bodom - natoľko, že bez analytickej štúdie je ťažké povedať, ktorá funkcia je presnejšia.

Tým je riešenie dokončené a vraciam sa k otázke prirodzených hodnôt argumentu. V rôznych štúdiách sú spravidla ekonomické alebo sociologické mesiace, roky alebo iné rovnaké časové intervaly očíslované prirodzeným „X“. Zvážte napríklad takýto problém.

Výber typu regresnej funkcie, t.j. typ uvažovaného modelu závislosti Y na X (alebo X na Y), napríklad lineárny model yx \u003d a + bx, je potrebné určiť konkrétne hodnoty koeficientov Model.

Pre rôzne hodnoty a a b je možné zostaviť nekonečný počet závislostí tvaru yx = a + bx, tj na rovine súradníc je nekonečný počet čiar, ale potrebujeme takú závislosť, aby čo najlepšie zodpovedá pozorovaným hodnotám. Problém sa teda redukuje na výber najlepších koeficientov.

Hľadáme lineárnu funkciu a + bx len na základe určitého počtu dostupných pozorovaní. Na nájdenie funkcie, ktorá najlepšie zodpovedá pozorovaným hodnotám, používame metódu najmenších štvorcov.

Označme: Y i - hodnotu vypočítanú rovnicou Y i =a+bx i . y i - nameraná hodnota, ε i =y i -Y i - rozdiel medzi nameranými a vypočítanými hodnotami, ε i =y i -a-bx i.

Metóda najmenších štvorcov vyžaduje, aby ε i, rozdiel medzi nameraným y i a hodnotami Y i vypočítanými z rovnice, bol minimálny. Preto nájdeme koeficienty a a b tak, aby súčet druhých mocnínových odchýlok pozorovaných hodnôt od hodnôt na priamej regresnej čiare bol najmenší:

Skúmaním tejto funkcie argumentov a a pomocou derivácií do extrému môžeme dokázať, že funkcia nadobúda minimálnu hodnotu, ak sú koeficienty a a b riešením sústavy:

(2)

Ak obe strany normálnych rovníc vydelíme n, dostaneme:

Vzhľadom na to (3)

Získajte , odtiaľ dosadením hodnoty a v prvej rovnici dostaneme:

V tomto prípade sa b nazýva regresný koeficient; a sa nazýva voľný člen regresnej rovnice a vypočíta sa podľa vzorca:

Výsledná priamka je odhadom pre teoretickú regresnú priamku. Máme:

takze je lineárna regresná rovnica.

Regresia môže byť priama (b>0) a inverzná (b Príklad 1. Výsledky merania hodnôt X a Y sú uvedené v tabuľke:

x i -2 0 1 2 4
y i 0.5 1 1.5 2 3

Za predpokladu, že medzi X a Y existuje lineárny vzťah y=a+bx, určte koeficienty a a b pomocou metódy najmenších štvorcov.

Riešenie. Tu n=5
x i = -2+0+1+2+4=5;
x i2 = 4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
yi = 0,5 + 1 + 1,5 + 2 + 3 = 8

a normálny systém (2) má tvar

Vyriešením tejto sústavy dostaneme: b=0,425, a=1,175. Preto y=1,175+0,425x.

Príklad 2. Existuje vzorka 10 pozorovaní ekonomických ukazovateľov (X) a (Y).

x i 180 172 173 169 175 170 179 170 167 174
y i 186 180 176 171 182 166 182 172 169 177

Je potrebné nájsť vzorovú regresnú rovnicu Y na X. Zostrojiť vzorovú regresnú priamku Y na X.

Riešenie. 1. Zoraďme údaje podľa hodnôt x i a y i . Dostávame novú tabuľku:

x i 167 169 170 170 172 173 174 175 179 180
y i 169 171 166 172 180 176 177 182 182 186

Pre zjednodušenie výpočtov zostavíme výpočtovú tabuľku, do ktorej zadáme potrebné číselné hodnoty.

x i y i x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i = 1729 ∑y i = 1761 ∑x i 2 299105 ∑x i y i =304696
x = 172,9 y = 176,1 x i2 = 29910,5 xy=30469,6

Podľa vzorca (4) vypočítame regresný koeficient

a podľa vzorca (5)

Vzorová regresná rovnica teda vyzerá ako y=-59,34+1,3804x.
Nanesme body (x i ; y i) na súradnicovú rovinu a označme regresnú priamku.


Obr

Obrázok 4 ukazuje, ako sú pozorované hodnoty umiestnené vzhľadom na regresnú čiaru. Na číselný odhad odchýlok y i od Y i, kde y i sú pozorované hodnoty a Y i sú hodnoty určené regresiou, vytvoríme tabuľku:

x i y i Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Hodnoty Y i sa vypočítajú podľa regresnej rovnice.

Znateľná odchýlka niektorých pozorovaných hodnôt od regresnej priamky sa vysvetľuje malým počtom pozorovaní. Pri štúdiu stupňa lineárnej závislosti Y na X sa berie do úvahy počet pozorovaní. Sila závislosti je určená hodnotou korelačného koeficientu.

Som počítačový programátor. Najväčší skok vo svojej kariére som urobil, keď som sa naučil povedať: "Ničomu nerozumiem!" Teraz sa nehanbím povedať osvetľovačovi vedy, že mi robí prednášku, že nerozumiem, o čom ona, svetlica, so mnou hovorí. A je to veľmi ťažké. Áno, je ťažké a trápne priznať, že to neviete. Kto sa rád prizná, že nevie základy niečoho-tam. Z titulu svojej profesie musím absolvovať veľké množstvo prezentácií a prednášok, kde, priznám sa, v drvivej väčšine prípadov pociťujem ospalosť, pretože ničomu nerozumiem. A nerozumiem, pretože obrovský problém súčasnej situácie vo vede spočíva v matematike. Predpokladá, že všetci študenti poznajú absolútne všetky oblasti matematiky (čo je absurdné). Priznať, že neviete, čo je derivát (že toto je trochu neskôr), je škoda.

Ale naučil som sa povedať, že neviem, čo je násobenie. Áno, neviem, čo je subalgebra nad Lieovou algebrou. Áno, neviem, prečo sú v živote potrebné kvadratické rovnice. Mimochodom, ak ste si istí, že viete, potom sa máme o čom rozprávať! Matematika je séria trikov. Matematici sa snažia zmiasť a zastrašiť verejnosť; kde nie je zmätok, povesť, autorita. Áno, je prestížne hovoriť čo najabstraktnejším jazykom, čo je samo o sebe úplný nezmysel.

Viete, čo je derivát? S najväčšou pravdepodobnosťou mi poviete o limite rozdielového vzťahu. V prvom ročníku matematiky na Petrohradskej štátnej univerzite ma Viktor Petrovič Khavin definované derivácia ako koeficient prvého člena Taylorovho radu funkcie v bode (bola to samostatná gymnastika na určenie Taylorovho radu bez derivácií). Dlho som sa na tejto definícii smial, až som konečne pochopil, o čo ide. Derivácia nie je nič iné ako len miera toho, nakoľko je funkcia, ktorú derivujeme, podobná funkcii y=x, y=x^2, y=x^3.

Teraz mám tú česť prednášať študentom, ktorí strach matematiky. Ak sa bojíte matematiky - sme na ceste. Akonáhle sa pokúsite prečítať nejaký text a bude sa vám zdať, že je prehnane komplikovaný, tak vedzte, že je napísaný zle. Tvrdím, že neexistuje jediná oblasť matematiky, o ktorej by sa nedalo hovoriť „na prstoch“ bez straty presnosti.

Výzva pre blízku budúcnosť: Inštruoval som svojich študentov, aby pochopili, čo je lineárny-kvadratický regulátor. Nehanbite sa, premárnite tri minúty svojho života, nasledujte odkaz. Ak niečomu nerozumiete, sme na ceste. Ja (profesionálny matematik-programátor) som tiež ničomu nerozumel. A uisťujem vás, že sa to dá vyriešiť „na prstoch“. Momentálne neviem, čo to je, ale uisťujem vás, že na to prídeme.

Takže prvá prednáška, ktorú dám svojim študentom po tom, čo ku mne zdesene pribehnú so slovami, že lineárny kvadratický regulátor je strašná chyba, ktorú nikdy v živote nezvládnete, je metódy najmenších štvorcov. Viete riešiť lineárne rovnice? Ak čítate tento text, tak s najväčšou pravdepodobnosťou nie.

Takže ak sú dané dva body (x0, y0), (x1, y1), napríklad (1,1) a (3,2), úlohou je nájsť rovnicu priamky prechádzajúcej týmito dvoma bodmi:

ilustrácie

Táto priamka by mala mať rovnicu, ako je táto:

Alfa a beta sú nám neznáme, ale známe sú dva body tejto línie:

Túto rovnicu môžete napísať v maticovom tvare:

Tu by sme mali urobiť lyrickú odbočku: čo je matrica? Matica nie je nič iné ako dvojrozmerné pole. Toto je spôsob ukladania údajov, nemali by sa mu dávať žiadne ďalšie hodnoty. Je na nás, ako presne interpretovať určitú maticu. Periodicky to budem interpretovať ako lineárne zobrazenie, periodicky ako kvadratickú formu a niekedy jednoducho ako množinu vektorov. Toto všetko bude objasnené v kontexte.

Nahraďme konkrétne matice ich symbolickým znázornením:

Potom (alfa, beta) možno ľahko nájsť:

Konkrétnejšie pre naše predchádzajúce údaje:

Čo vedie k nasledujúcej rovnici priamky prechádzajúcej bodmi (1,1) a (3,2):

Dobre, tu je všetko jasné. A nájdime rovnicu prechádzajúcej priamky tri body: (x0,y0), (x1,y1) a (x2,y2):

Oh-och-och, ale máme tri rovnice pre dve neznáme! Štandardný matematik povie, že neexistuje žiadne riešenie. Čo povie programátor? A najprv prepíše predchádzajúci systém rovníc v nasledujúcom tvare:

V našom prípade sú vektory i, j, b trojrozmerné, preto (vo všeobecnom prípade) neexistuje riešenie tohto systému. Akýkoľvek vektor (alpha\*i + beta\*j) leží v rovine preklenutej vektormi (i, j). Ak b nepatrí do tejto roviny, potom neexistuje riešenie (rovnosť v rovnici nemožno dosiahnuť). Čo robiť? Hľadajme kompromis. Označme podľa e (alfa, beta) ako presne sme nedosiahli rovnosť:

A túto chybu sa pokúsime minimalizovať:

Prečo štvorec?

Hľadáme nielen minimum normy, ale minimum druhej mocniny normy. prečo? Samotný minimálny bod sa zhoduje a štvorec dáva hladkú funkciu (kvadratická funkcia argumentov (alfa,beta)), zatiaľ čo len dĺžka dáva funkciu vo forme kužeľa, nediferencovateľného v minimálnom bode. Brr. Námestie je pohodlnejšie.

Je zrejmé, že chyba je minimalizovaná, keď vektor e ortogonálne k rovine preklenutej vektormi i a j.

Ilustračné

Inými slovami: hľadáme takú priamku, aby súčet druhých mocnín vzdialeností od všetkých bodov k tejto priamke bol minimálny:

AKTUALIZÁCIA: tu mám zárubňu, vzdialenosť k čiare by sa mala merať vertikálne, nie ortografická projekcia. komentátor má pravdu.

Ilustračné

Úplne inými slovami (opatrne, zle formalizované, ale malo by to byť jasné na prstoch): vezmeme všetky možné čiary medzi všetkými pármi bodov a hľadáme priemernú čiaru medzi všetkými:

Ilustračné

Ďalšie vysvetlenie na prstoch: medzi všetky dátové body (tu máme tri) a čiaru, ktorú hľadáme, pripevníme pružinu a čiara rovnovážneho stavu je presne to, čo hľadáme.

Kvadratické minimum tvaru

Takže vzhľadom na vektor b a rovina preklenutá stĺpcami-vektormi matice A(v tomto prípade (x0,x1,x2) a (1,1,1)), hľadáme vektor e s minimálnou štvorcovou dĺžkou. Je zrejmé, že minimum je dosiahnuteľné iba pre vektor e, ortogonálne k rovine preklenutej stĺpcami-vektormi matice A:

Inými slovami, hľadáme vektor x=(alfa, beta) taký, že:

Pripomínam vám, že tento vektor x=(alfa, beta) je minimum kvadratickej funkcie ||e(alfa, beta)||^2:

Tu je užitočné pripomenúť, že maticu možno interpretovať rovnako ako kvadratickú formu, napríklad maticu identity ((1,0), (0,1)) možno interpretovať ako funkciu x^2 + y ^2:

kvadratická forma

Celá táto gymnastika je známa ako lineárna regresia.

Laplaceova rovnica s Dirichletovou okrajovou podmienkou

Teraz najjednoduchší skutočný problém: existuje určitý trojuholníkový povrch, je potrebné ho vyhladiť. Napríklad načítajme model mojej tváre:

Pôvodný príkaz je k dispozícii. Aby som minimalizoval externé závislosti, vzal som kód môjho softvérového renderera, ktorý je už na Habré. Na vyriešenie lineárneho systému používam OpenNL , je to skvelý riešiteľ, ale jeho inštalácia je veľmi náročná: musíte skopírovať dva súbory (.h + .c) do priečinka projektu. Všetko vyhladzovanie sa vykonáva pomocou nasledujúceho kódu:

Pre (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = tváre[i]; pre (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Súradnice X, Y a Z sú oddeliteľné, hladkám ich samostatne. To znamená, že riešim tri sústavy lineárnych rovníc, každú s rovnakým počtom premenných, ako je počet vrcholov v mojom modeli. Prvých n riadkov matice A má iba jednu 1 na riadok a prvých n riadkov vektora b má pôvodné súradnice modelu. To znamená, že prepojím novú pozíciu vrcholu a starú pozíciu vrcholu - nové by nemali byť príliš ďaleko od starých.

Všetky nasledujúce riadky matice A (faces.size()*3 = počet hrán všetkých trojuholníkov v mriežke) majú jeden výskyt 1 a jeden výskyt -1, pričom vektor b má nulu opačných zložiek. To znamená, že som dal pružinu na každý okraj našej trojuholníkovej siete: všetky okraje sa snažia získať rovnaký vrchol ako ich počiatočný a koncový bod.

Ešte raz: všetky vrcholy sú premenné a nemôžu sa odchýliť ďaleko od svojej pôvodnej polohy, no zároveň sa snažia byť si navzájom podobné.

Tu je výsledok:

Všetko by bolo v poriadku, model je naozaj vyhladený, no vzdialil sa od pôvodného okraja. Poďme trochu zmeniť kód:

Pre (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

V našej matici A pre vrcholy, ktoré sú na okraji, pridávam nie riadok z kategórie v_i = verts[i][d], ale 1000*v_i = 1000*verts[i][d]. čo to mení? A to mení našu kvadratickú formu chyby. Teraz jedna odchýlka od vrcholu na okraji nebude stáť jednu jednotku, ako predtým, ale 1 000 * 1 000 jednotiek. To znamená, že na krajné vrcholy sme zavesili silnejšiu pružinu, riešenie radšej silnejšie natiahne ostatné. Tu je výsledok:

Zdvojnásobme silu pružín medzi vrcholmi:
nlKoeficient(tvár[ j], 2); nlKoeficient(tvár[(j+1)%3], -2);

Je logické, že povrch sa stal hladším:

A teraz ešte stokrát silnejšie:

Čo je toto? Predstavte si, že sme drôtený krúžok ponorili do mydlovej vody. Výsledkom je, že výsledný mydlový film sa bude snažiť mať čo najmenšie zakrivenie a dotýkať sa rovnakej hranice - nášho drôteného krúžku. To je presne to, čo sme získali, keď sme upevnili okraj a požiadali o hladký povrch vo vnútri. Gratulujeme, práve sme vyriešili Laplaceovu rovnicu s Dirichletovými okrajovými podmienkami. Znie to dobre? Ale v skutočnosti stačí vyriešiť jeden systém lineárnych rovníc.

Poissonova rovnica

Dajme ďalšie skvelé meno.

Povedzme, že mám takýto obrázok:

Všetci sú dobrí, ale stolička sa mi nepáči.

Rozrezal som obrázok na polovicu:



A vyberiem si stoličku rukami:

Potom pretiahnem všetko, čo je v maske biele, na ľavú stranu obrázka a zároveň cez celý obrázok poviem, že rozdiel dvoch susedných pixelov by sa mal rovnať rozdielu dvoch susedných pixelov obrázka. pravý obrázok:

Pre (int i=0; i

Tu je výsledok:

Príklad zo skutočného života

Schválne som nerobil vylízané výsledky, lebo. Chcel som len ukázať, ako presne môžete použiť metódy najmenších štvorcov, toto je tréningový kód. Teraz uvediem príklad zo života:

Mám niekoľko fotografií vzoriek látok, ako je táto:

Mojou úlohou je vytvárať bezšvové textúry z fotografií takejto kvality. Najprv (automaticky) hľadám opakujúci sa vzor:

Ak vystrihnem tento štvoruholník tu, potom sa okraje kvôli deformáciám nebudú zbiehať, tu je príklad vzoru, ktorý sa opakuje štyrikrát:

Skrytý text

Tu je fragment, kde je šev jasne viditeľný:

Preto nebudem rezať pozdĺž priamky, tu je čiara rezu:

Skrytý text

A tu je vzorec opakovaný štyrikrát:

Skrytý text

A jeho fragment, aby to bolo jasnejšie:

Už lepšie, strih nešiel v priamej línii, obchádzal všetky druhy kučier, ale stále je šev viditeľný kvôli nerovnomernému osvetleniu na pôvodnej fotografii. Tu prichádza na pomoc metóda najmenších štvorcov pre Poissonovu rovnicu. Tu je konečný výsledok po zarovnaní osvetlenia:

Textúra sa ukázala byť dokonale hladká a to všetko automaticky z fotografie veľmi priemernej kvality. Nebojte sa matematiky, hľadajte jednoduché vysvetlenia a budete mať šťastie v strojárstve.

Aproximácia experimentálnych údajov je metóda založená na nahradení experimentálne získaných údajov analytickou funkciou, ktorá sa v uzlových bodoch najviac zhoduje s počiatočnými hodnotami (údaje získané počas experimentu alebo experimentu). V súčasnosti existujú dva spôsoby, ako definovať analytickú funkciu:

Zostrojením n-stupňového interpolačného polynómu, ktorý prejde priamo cez všetky body dané pole údajov. V tomto prípade je aproximačná funkcia reprezentovaná ako: interpolačný polynóm v Lagrangeovom tvare alebo interpolačný polynóm v Newtonovom tvare.

Zostrojením n-stupňového aproximačného polynómu, ktorý prejde blízko k bodom z daného dátového poľa. Aproximačná funkcia teda vyhladzuje všetok náhodný šum (alebo chyby), ktoré sa môžu vyskytnúť počas experimentu: namerané hodnoty počas experimentu závisia od náhodných faktorov, ktoré kolíšu podľa vlastných náhodných zákonov (chyby merania alebo prístroja, nepresnosť alebo experimentálne chyby). V tomto prípade je aproximačná funkcia určená metódou najmenších štvorcov.

Metóda najmenších štvorcov(v anglickej literatúre Ordinary Least Squares, OLS) je matematická metóda založená na definícii aproximačnej funkcie, ktorá je postavená v tesnej blízkosti bodov z daného poľa experimentálnych údajov. Blízkosť začiatočnej a aproximačnej funkcie F(x) je určená numerickou mierou, a to: súčet kvadrátov odchýlok experimentálnych dát od aproximačnej krivky F(x) by mal byť najmenší.

Fitovacia krivka vytvorená metódou najmenších štvorcov

Používa sa metóda najmenších štvorcov:

Riešiť preurčené sústavy rovníc, keď počet rovníc presahuje počet neznámych;

Hľadať riešenie v prípade obyčajných (nie preurčených) nelineárnych sústav rovníc;

Na aproximáciu bodových hodnôt pomocou nejakej aproximačnej funkcie.

Aproximačná funkcia metódou najmenších štvorcov je určená z podmienky minimálneho súčtu štvorcových odchýlok vypočítanej aproximačnej funkcie z daného poľa experimentálnych dát. Toto kritérium metódy najmenších štvorcov je napísané ako nasledujúci výraz:

Hodnoty vypočítanej aproximačnej funkcie v uzlových bodoch,

Špecifikované pole experimentálnych údajov v uzlových bodoch.

Kvadratické kritérium má množstvo „dobrých“ vlastností, ako je diferencovateľnosť, ktorá poskytuje jedinečné riešenie aproximačného problému s polynomiálnymi aproximačnými funkciami.

V závislosti od podmienok úlohy je aproximačná funkcia polynóm stupňa m

Stupeň aproximačnej funkcie nezávisí od počtu uzlových bodov, ale jej rozmer musí byť vždy menší ako rozmer (počet bodov) daného poľa experimentálnych dát.

∙ Ak je stupeň aproximačnej funkcie m=1, tak tabuľkovú funkciu aproximujeme priamkou (lineárna regresia).

∙ Ak je stupeň aproximačnej funkcie m=2, potom aproximujeme tabuľkovú funkciu kvadratickou parabolou (kvadratická aproximácia).

∙ Ak je stupeň aproximačnej funkcie m=3, tak tabuľkovú funkciu aproximujeme kubickou parabolou (kubickou aproximáciou).

Vo všeobecnom prípade, keď je potrebné zostrojiť aproximačný polynóm stupňa m pre dané tabuľkové hodnoty, podmienka pre minimálny súčet štvorcových odchýlok nad všetkými uzlovými bodmi sa prepíše do nasledujúceho tvaru:

- neznáme koeficienty aproximačného polynómu stupňa m;

Počet špecifikovaných hodnôt tabuľky.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné . Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc: otvorte zátvorky a presuňte voľné členy na pravú stranu výrazu. Výsledkom je, že výsledný systém lineárnych algebraických výrazov bude napísaný v tejto forme:

Tento systém lineárnych algebraických výrazov možno prepísať do maticovej formy:

Výsledkom bola sústava lineárnych rovníc rozmeru m + 1, ktorá pozostáva z m + 1 neznámych. Tento systém je možné riešiť pomocou ľubovoľnej metódy na riešenie lineárnych algebraických rovníc (napríklad Gaussova metóda). V dôsledku riešenia sa nájdu neznáme parametre aproximačnej funkcie, ktoré poskytujú minimálny súčet kvadrátov odchýlok aproximačnej funkcie od pôvodných údajov, t.j. najlepšia možná kvadratická aproximácia. Malo by sa pamätať na to, že ak sa zmení čo i len jedna hodnota počiatočných údajov, všetky koeficienty zmenia svoje hodnoty, pretože sú úplne určené počiatočnými údajmi.

Aproximácia počiatočných údajov lineárnou závislosťou

(lineárna regresia)

Ako príklad uveďme metódu na určenie aproximačnej funkcie, ktorá je uvedená ako lineárny vzťah. V súlade s metódou najmenších štvorcov sa podmienka pre minimálny súčet odchýlok štvorcových zapíše takto:

Súradnice uzlových bodov tabuľky;

Neznáme koeficienty aproximačnej funkcie, ktorá je daná ako lineárny vzťah.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné. Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc.

Výslednú sústavu lineárnych rovníc riešime. Koeficienty aproximačnej funkcie v analytickej forme sa určia nasledovne (Cramerova metóda):

Tieto koeficienty poskytujú konštrukciu lineárnej aproximačnej funkcie v súlade s kritériom pre minimalizáciu súčtu štvorcov aproximačnej funkcie z daných tabuľkových hodnôt (experimentálne dáta).

Algoritmus na implementáciu metódy najmenších štvorcov

1. Počiatočné údaje:

Vzhľadom na množstvo experimentálnych údajov s počtom meraní N

Udáva sa stupeň aproximačného polynómu (m).

2. Algoritmus výpočtu:

2.1. Pre zostavenie sústavy rovníc s dimenziou sa určujú koeficienty

Koeficienty sústavy rovníc (ľavá strana rovnice)

- index čísla stĺpca štvorcovej matice sústavy rovníc

Voľné členy sústavy lineárnych rovníc (pravá strana rovnice)

- index čísla riadku štvorcovej matice sústavy rovníc

2.2. Zostavenie sústavy lineárnych rovníc s dimenziou .

2.3. Riešenie sústavy lineárnych rovníc na určenie neznámych koeficientov aproximačného polynómu stupňa m.

2.4 Určenie súčtu štvorcových odchýlok aproximačného polynómu od počiatočných hodnôt cez všetky uzlové body

Nájdená hodnota súčtu kvadrátov odchýlok je minimálna možná hodnota.

Aproximácia s inými funkciami

Treba poznamenať, že pri aproximácii počiatočných údajov v súlade s metódou najmenších štvorcov sa ako aproximačná funkcia niekedy používa logaritmická funkcia, exponenciálna funkcia a výkonová funkcia.

Aproximácia denníka

Zvážte prípad, keď je aproximačná funkcia daná logaritmickou funkciou tvaru:

Metóda najmenších štvorcov (OLS, angl. Ordinary Least Squares, OLS)- matematická metóda používaná na riešenie rôznych úloh, založená na minimalizácii súčtu kvadrátov odchýlok niektorých funkcií od požadovaných premenných. Dá sa použiť na „riešenie“ preurčených sústav rovníc (keď počet rovníc prevyšuje počet neznámych), na nájdenie riešenia v prípade obyčajných (nie preurčených) nelineárnych sústav rovníc, na aproximáciu bodových hodnôt. určitej funkcie. OLS je jednou zo základných metód regresnej analýzy na odhadovanie neznámych parametrov regresných modelov zo vzorových údajov.

Encyklopedický YouTube

    1 / 5

    ✪ Metóda najmenších štvorcov. Téma

    ✪ Najmenšie štvorce, lekcia 1/2. Lineárna funkcia

    ✪ Ekonometria. Prednáška 5. Metóda najmenších štvorcov

    ✪ Mitin I. V. - Spracovanie výsledkov fyzi. experiment - Metóda najmenších štvorcov (4. prednáška)

    ✪ Ekonometria: Podstata metódy najmenších štvorcov #2

    titulky

Príbeh

Až do začiatku XIX storočia. vedci nemali isté pravidlá na riešenie sústavy rovníc, v ktorej je počet neznámych menší ako počet rovníc; Dovtedy sa používali osobitné metódy v závislosti od typu rovníc a dômyselnosti kalkulačiek, a preto rôzne kalkulačky vychádzajúce z rovnakých pozorovacích údajov dospeli k rôznym záverom. Gaussovi (1795) sa pripisuje prvá aplikácia metódy a Legendre (1805) ju nezávisle objavil a publikoval pod jej moderným názvom (fr. Methode des moindres quarres). Laplace spojil metódu s teóriou pravdepodobností a americký matematik Adrain (1808) uvažoval o jej pravdepodobnostných aplikáciách. Metóda je rozšírená a vylepšená ďalším výskumom Enckeho, Bessela, Hansena a iných.

Podstata metódy najmenších štvorcov

Nechaj x (\displaystyle x)- súprava n (\displaystyle n) neznáme premenné (parametre), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- množina funkcií z tejto množiny premenných. Problém je zvoliť také hodnoty x (\displaystyle x) aby hodnoty týchto funkcií boli čo najbližšie k niektorým hodnotám y i (\displaystyle y_(i)). V podstate hovoríme o „riešení“ preurčeného systému rovníc f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) v naznačenom zmysle maximálna blízkosť ľavej a pravej časti systému. Podstatou LSM je zvoliť ako „mieru blízkosti“ súčet štvorcových odchýlok ľavej a pravej časti. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Podstatu LSM teda možno vyjadriť takto:

∑ iei 2 = ∑ i (yi − fi (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\šípka vpravo \min _(x)).

Ak má sústava rovníc riešenie, tak minimum súčtu štvorcov sa bude rovnať nule a presné riešenia sústavy rovníc možno nájsť analyticky alebo napríklad rôznymi numerickými optimalizačnými metódami. Ak je systém predeterminovaný, teda voľne povedané, počet nezávislých rovníc je väčší ako počet neznámych premenných, potom systém nemá presné riešenie a metóda najmenších štvorcov nám umožňuje nájsť nejaký „optimálny“ vektor. x (\displaystyle x) v zmysle maximálnej blízkosti vektorov y (\displaystyle y) a f (x) (\displaystyle f(x)) alebo maximálna blízkosť vektora odchýlky e (\displaystyle e) na nulu (blízkosť sa chápe v zmysle euklidovskej vzdialenosti).

Príklad - sústava lineárnych rovníc

Najmä metóda najmenších štvorcov môže byť použitá na "riešenie" systému lineárnych rovníc

A x = b (\displaystyle Ax=b),

kde A (\displaystyle A) matica obdĺžnikovej veľkosti m × n , m > n (\displaystyle m\times n,m>n)(t.j. počet riadkov matice A je väčší ako počet požadovaných premenných).

Takáto sústava rovníc vo všeobecnosti nemá riešenie. Preto sa tento systém dá „riešiť“ len v zmysle výberu takéhoto vektora x (\displaystyle x) minimalizovať "vzdialenosť" medzi vektormi A x (\displaystyle Axe) a b (\displaystyle b). Na tento účel môžete použiť kritérium na minimalizáciu súčtu štvorcových rozdielov ľavej a pravej časti rovníc systému, tj. (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\šípka doprava \min _(x)). Je ľahké ukázať, že riešenie tohto minimalizačného problému vedie k riešeniu nasledujúcej sústavy rovníc

ATA x = AT b ⇒ x = (ATA) − 1 AT b (\displaystyle A^(T)Ax=A^(T)b\šípka doprava x=(A^(T)A)^(-1)A^ (T)b).

OLS v regresnej analýze (aproximácia údajov)

Nech je tam n (\displaystyle n) hodnoty nejakej premennej y (\displaystyle y)(môžu to byť výsledky pozorovaní, experimentov atď.) a zodpovedajúce premenné x (\displaystyle x). Výzvou je vytvoriť vzťah medzi y (\displaystyle y) a x (\displaystyle x) aproximovať nejakou funkciou známou až po niektoré neznáme parametre b (\displaystyle b), teda skutočne nájsť najlepšie hodnoty parametrov b (\displaystyle b), čo sa maximálne približuje k hodnotám f (x, b) (\displaystyle f(x,b)) na skutočné hodnoty y (\displaystyle y). V skutočnosti sa to redukuje na prípad „riešenia“ preurčeného systému rovníc vzhľadom na b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

V regresnej analýze a najmä v ekonometrii sa používajú pravdepodobnostné modely vzťahu medzi premennými.

Yt = f (x t, b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

kde ε t (\displaystyle \varepsilon _(t))- tzv náhodné chyby modelov.

Podľa toho aj odchýlky pozorovaných hodnôt y (\displaystyle y) z modelu f (x, b) (\displaystyle f(x,b)) predpokladané už v samotnom modeli. Podstatou LSM (obyčajného, ​​klasického) je nájsť takéto parametre b (\displaystyle b), pri ktorej súčet štvorcových odchýlok (chyby, pre regresné modely sa často nazývajú regresné rezíduá) e t (\displaystyle e_(t)) bude minimálny:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\klobúk (b))_(OLS)=\arg \min _(b)RSS(b)),

kde R S S (\displaystyle RSS)- Angličtina. Zvyšný súčet štvorcov je definovaný ako:

RSS (b) = e T e = ∑ t = 1 netto 2 = ∑ t = 1 n (yt − f (xt , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\súčet _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Vo všeobecnom prípade možno tento problém vyriešiť numerickými metódami optimalizácie (minimalizácie). V tomto prípade sa hovorí o nelineárne najmenšie štvorce(NLS alebo NLLS - angl. Non-Linear Least Squares). V mnohých prípadoch je možné získať analytické riešenie. Na vyriešenie problému minimalizácie je potrebné nájsť stacionárne body funkcie R S S (b) (\displaystyle RSS(b)), pričom sa rozlišuje vzhľadom na neznáme parametre b (\displaystyle b), rovnanie derivácií k nule a riešenie výslednej sústavy rovníc:

∑ t = 1 n (yt − f (xt, b)) ∂ f (xt, b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\čiastočné f(x_(t),b))(\čiastočné b))=0).

LSM v prípade lineárnej regresie

Nech je regresná závislosť lineárna:

yt = ∑ j = 1 kbjxtj + ε = xt Tb + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Nechaj r je stĺpcový vektor pozorovaní vysvetľovanej premennej a X (\displaystyle X)- to (n × k) (\displaystyle ((n\krát k)))- matica pozorovaní faktorov (riadky matice - vektory hodnôt faktorov v danom pozorovaní, po stĺpcoch - vektor hodnôt daného faktora vo všetkých pozorovaniach). Maticové zobrazenie lineárneho modelu má tvar:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Potom sa vektor odhadov vysvetľovanej premennej a vektor regresných zvyškov budú rovnať

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\klobúk (y))=Xb,\quad e=y-(\klobúk (y))=y-Xb).

podľa toho sa súčet druhých mocnín regresných zvyškov bude rovnať

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Rozlíšenie tejto funkcie vzhľadom na vektor parametra b (\displaystyle b) a prirovnaním derivátov k nule dostaneme systém rovníc (v maticovom tvare):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

V dešifrovanej maticovej forme tento systém rovníc vyzerá takto:

(∑ xt 1 2 ∑ xt 1 xt 2 ∑ xt 1 xt 3 … ∑ xt 1 xtk ∑ xt 2 xt 1 ∑ xt 2 2 ∑ xt 2 xt 3 … ∑ xt 2 xtk x3 xt 2 t∑ xt 2 t∑ xt 2 t ∑ xt 3 2 … ∑ xt 3 xtk ⋮ ⋮ ⋮ ⋱ ⋮ ∑ xtkxt 1 ∑ xtkxt 2 ∑ xtkxt 3 … ∑ xtk 2) (b 1 b 2 b 3 ⋈ x t yt 2 ⋈ t xt 2 y 1 = yt ⋮ ∑ xtkyt) , (\displaystyle (\začiatok(pmatrix)\súčet x_(t1)^(2)&\súčet x_(t1)x_(t2)&\súčet x_(t1)x_(t3)&\ldots &\súčet x_(t1)x_(tk)\\\súčet x_(t2)x_(t1)&\súčet x_(t2)^(2)&\súčet x_(t2)x_(t3)&\ldots &\ súčet x_(t2)x_(tk)\\\súčet x_(t3)x_(t1)&\súčet x_(t3)x_(t2)&\súčet x_(t3)^(2)&\ldots &\súčet x_ (t3)x_(tk)\\\vbodky &\vbodky &\vbodky &\dbodky &\vbodky \\\súčet x_(tk)x_(t1)&\súčet x_(tk)x_(t2)&\súčet x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\koniec (pmatrix))(\začiatok (pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vbodky \\b_(k)\\\koniec (pmatica))=(\začiatok (pmatica)\súčet x_(t1)y_(t)\\\súčet x_(t2)y_(t)\\ \súčet x_(t3)y_(t)\\\vbodky \\\súčet x_(tk)y_(t)\\\koniec (pmatrix))) kde všetky sumy preberajú všetky prípustné hodnoty t (\displaystyle t).

Ak je v modeli zahrnutá konštanta (ako obvykle), potom x t 1 = 1 (\displaystyle x_(t1)=1) pre všetkých t (\displaystyle t), teda v ľavom hornom rohu matice sústavy rovníc je počet pozorovaní n (\displaystyle n) a vo zvyšných prvkoch prvého riadku a prvého stĺpca - iba súčet hodnôt premenných: ∑ x t j (\displaystyle \sum x_(tj)) a prvý prvok pravej strany systému - ∑ y t (\displaystyle \sum y_(t)).

Riešenie tohto systému rovníc dáva všeobecný vzorec pre odhady najmenších štvorcov pre lineárny model:

b ^ OLS = (XTX) − 1 XT y = (1 n XTX) − 1 1 n XT y = V x − 1 C xy (\displaystyle (\klobúk (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\vľavo((\frac (1)(n))X^(T)X\vpravo)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Na analytické účely sa ukazuje ako užitočné posledné znázornenie tohto vzorca (v sústave rovníc sa pri delení n namiesto súčtu objavia aritmetické priemery). Ak údaje v regresnom modeli vycentrovaný, potom v tomto znázornení má prvá matica význam výberovej kovariančnej matice faktorov a druhá je vektorom kovariancií faktorov so závislou premennou. Ak je navyše údaj aj normalizované na SKO (teda v konečnom dôsledku štandardizované), potom prvá matica má význam výberovej korelačnej matice faktorov, druhý vektor - vektor výberových korelácií faktorov so závislou premennou.

Dôležitá vlastnosť odhadov LLS pre modely s konštantou- priamka zostrojenej regresie prechádza ťažiskom vzorových údajov, to znamená, že rovnosť je splnená:

y ¯ = b 1 ^ + ∑ j = 2 kb ^ jx ¯ j (\displaystyle (\bar (y))=(\klobúk (b_(1)))+\sum _(j=2)^(k) (\klobúk (b))_(j)(\bar (x))_(j)).

Najmä v extrémnom prípade, keď jediným regresorom je konštanta, zistíme, že odhad OLS jedného parametra (samotnej konštanty) sa rovná strednej hodnote vysvetľovanej premennej. To znamená, že aritmetický priemer, známy svojimi dobrými vlastnosťami zo zákonov veľkých čísel, je tiež odhadom najmenších štvorcov - spĺňa kritérium pre minimálny súčet odchýlok na druhú od neho.

Najjednoduchšie špeciálne prípady

V prípade párovej lineárnej regresie y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), keď sa odhadne lineárna závislosť jednej premennej od druhej, výpočtové vzorce sa zjednodušia (vystačíte si s maticovou algebrou). Sústava rovníc má tvar:

(1 x ¯ x ¯ x 2 ¯) (ab) = (y ¯ xy ¯) (\displaystyle (\začiatok(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\koniec(pmatica))(\začiatok(pmatica)a\\b\\\koniec(pmatica))=(\začiatok(pmatica)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Odtiaľ je ľahké nájsť odhady koeficientov:

( b ^ = Cov ⁡ (x, y) Var ⁡ (x) = xy ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − bx ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Napriek tomu, že vo všeobecnosti sú preferované modely s konštantou, v niektorých prípadoch je z teoretických úvah známe, že konštanta a (\displaystyle a) by sa mala rovnať nule. Napríklad vo fyzike má vzťah medzi napätím a prúdom tvar U = I ⋅ R (\displaystyle U=I\cdot R); meranie napätia a prúdu je potrebné odhadnúť odpor. V tomto prípade hovoríme o modeli y = b x (\displaystyle y=bx). V tomto prípade máme namiesto sústavy rovníc jednu rovnicu

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Preto vzorec na odhad jediného koeficientu má tvar

B ^ = ∑ t = 1 nxtyt ∑ t = 1 nxt 2 = xy ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\súčet _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Prípad polynomického modelu

Ak sú údaje preložené polynomickou regresnou funkciou jednej premennej f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), potom vnímanie stupňov x i (\displaystyle x^(i)) ako nezávislé faktory pre každého i (\displaystyle i) je možné odhadnúť parametre modelu na základe všeobecného vzorca pre odhad parametrov lineárneho modelu. K tomu stačí vo všeobecnom vzorci vziať do úvahy, že pri takomto výklade x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) a x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Preto budú mať maticové rovnice v tomto prípade tvar:

(n ∑ nxt … ∑ nxtk ∑ nxt ∑ nxt 2 … ∑ nxtk + 1 ⋮ ⋮ ⋱ ⋮ ∑ nxtk ∑ nxtk + 1 … ∑ nxtk . t. b∑ nxt 2 b∑ 2 k) (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\súčet \limity _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vbodky & \vbodky &\dbodky &\vbodky \\\súčet \limity _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ súčet \limity _(n)x_(t)^(2k)\koniec(pmatrix))(\začiatok(bmatrix)b_(0)\\b_(1)\\\vbodky \\b_(k)\koniec( bmatrix))=(\začiatok(bmatica)\súčet \limity _(n)y_(t)\\\súčet \limity _(n)x_(t)y_(t)\\\vbodky \\\súčet \limity _(n)x_(t)^(k)y_(t)\end(bmatica)).)

Štatistické vlastnosti odhadov OLS

V prvom rade si všimneme, že pre lineárne modely sú odhady najmenších štvorcov lineárne odhady, ako vyplýva z vyššie uvedeného vzorca. Pre nezaujatosť odhadov najmenších štvorcov je potrebné a postačujúce splniť najdôležitejšiu podmienku regresnej analýzy: matematické očakávanie náhodnej chyby podmienenej faktormi sa musí rovnať nule. Táto podmienka je splnená najmä vtedy, ak

  1. matematické očakávanie náhodných chýb je nulové a
  2. faktory a náhodné chyby sú nezávislé náhodné hodnoty.

Druhá podmienka – podmienka exogénnych faktorov – je zásadná. Ak táto vlastnosť nie je splnená, potom môžeme predpokladať, že takmer všetky odhady budú extrémne neuspokojivé: dokonca nebudú konzistentné (to znamená, že ani veľmi veľké množstvo údajov v tomto prípade neumožňuje získať kvalitatívne odhady). V klasickom prípade sa silnejšie predpokladá determinizmus faktorov, na rozdiel od náhodnej chyby, ktorá automaticky znamená, že exogénna podmienka je splnená. Vo všeobecnom prípade pre konzistentnosť odhadov stačí splniť podmienku exogenity spolu s konvergenciou matice V x (\displaystyle V_(x)) do nejakej nedegenerovanej matrice, keď sa veľkosť vzorky zväčšuje do nekonečna.

Aby boli okrem konzistentnosti a nezaujatosti efektívne aj odhady (zvyčajných) najmenších štvorcov (najlepšie v triede lineárnych neskreslených odhadov), je potrebné splniť ďalšie vlastnosti náhodnej chyby:

Tieto predpoklady možno formulovať pre kovariančnú maticu vektora náhodných chýb V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Lineárny model, ktorý spĺňa tieto podmienky, sa nazýva klasický. Odhady OLS pre klasickú lineárnu regresiu sú nezaujaté, konzistentné a najefektívnejšie odhady v triede všetkých lineárnych neskreslených odhadov (v anglickej literatúre sa niekedy používa skratka Modrá (Najlepší lineárny nezaujatý odhad) je najlepší lineárny nezaujatý odhad; v domácej literatúre sa častejšie uvádza Gauss - Markovova veta). Ako je ľahké ukázať, kovariančná matica vektora odhadov koeficientov sa bude rovnať:

V (b ^ OLS) = σ 2 (XTX) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Účinnosť znamená, že táto kovariančná matica je „minimálna“ (akákoľvek lineárna kombinácia koeficientov a najmä koeficienty samotné majú minimálny rozptyl), to znamená, že v triede lineárnych nezaujatých odhadov sú najlepšie odhady OLS. Diagonálne prvky tejto matice - rozptyly odhadov koeficientov - sú dôležitými parametrami kvality získaných odhadov. Nie je však možné vypočítať kovariančnú maticu, pretože rozptyl náhodnej chyby nie je známy. Dá sa dokázať, že nezaujatý a konzistentný (pre klasický lineárny model) odhad rozptylu náhodných chýb je hodnota:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Dosadením tejto hodnoty do vzorca pre kovariančnú maticu získame odhad kovariančnej matice. Výsledné odhady sú tiež nezaujaté a konzistentné. Je tiež dôležité, že odhad rozptylu chýb (a tým aj rozptylov koeficientov) a odhady parametrov modelu sú nezávislé náhodné premenné, čo umožňuje získať testovaciu štatistiku na testovanie hypotéz o modelových koeficientoch.

Je potrebné poznamenať, že ak nie sú splnené klasické predpoklady, odhady parametrov najmenších štvorcov nie sú najefektívnejšie a kde W (\displaystyle W) je nejaká symetrická pozitívne definitná matica váh. Obyčajné najmenšie štvorce sú špeciálnym prípadom tohto prístupu, keď je matica váh úmerná matici identity. Ako je známe, pre symetrické matice (alebo operátory) dochádza k rozkladu W = P T P (\displaystyle W=P^(T)P). Preto môže byť táto funkcia reprezentovaná nasledovne e TPTP e = (P e) TP e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), to znamená, že tento funkcionál môže byť reprezentovaný ako súčet druhých mocnín niektorých transformovaných "zvyškov". Môžeme teda rozlíšiť triedu metód najmenších štvorcov – LS-metód (Least Squares).

Je dokázané (Aitkenova veta), že pre zovšeobecnený lineárny regresný model (v ktorom nie sú kladené žiadne obmedzenia na kovariančnú maticu náhodných chýb) sú najefektívnejšie (v triede lineárnych neskreslených odhadov) odhady tzv. zovšeobecnené OLS (OMNK, GLS - Generalized Least Squares)- LS-metóda s váhovou maticou rovnajúcou sa inverznej kovariančnej matici náhodných chýb: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Dá sa ukázať, že vzorec pre GLS odhady parametrov lineárneho modelu má tvar

B ^ GLS = (XTV − 1 X) − 1 XTV − 1 y (\displaystyle (\klobúk (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Kovariančná matica týchto odhadov sa bude rovnať

V (b ^ GLS) = (XTV − 1 X) − 1 (\displaystyle V((\klobúk (b))_(GLS))=(X^(T)V^(-1)X)^(- jeden)).

V skutočnosti podstata OLS spočíva v určitej (lineárnej) transformácii (P) pôvodných údajov a aplikácii obvyklých najmenších štvorcov na transformované údaje. Účelom tejto transformácie je, že pre transformované dáta náhodné chyby už spĺňajú klasické predpoklady.

Vážené najmenšie štvorce

V prípade diagonálnej váhovej matice (a teda kovariančnej matice náhodných chýb) máme takzvané vážené najmenšie štvorce (WLS - Weighted Least Squares). V tomto prípade je vážený súčet štvorcov rezíduí modelu minimalizovaný, to znamená, že každé pozorovanie dostane „váhu“, ktorá je nepriamo úmerná rozptylu náhodnej chyby v tomto pozorovaní: e TW e = ∑ t = 1 netto 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). V skutočnosti sa údaje transformujú vážením pozorovaní (vydelením množstvom úmerným predpokladanej štandardnej odchýlke náhodných chýb) a na vážené údaje sa použijú normálne najmenšie štvorce.

ISBN 978-5-7749-0473-0.

  • Ekonometria. Učebnica / Ed. Eliseeva I. I. - 2. vyd. - M. : Financie a štatistika, 2006. - 576 s. - ISBN 5-279-02786-3.
  • Alexandrova N.V. História matematických termínov, pojmov, označení: slovník-príručka. - 3. vydanie - M. : LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. I.V.Mitin, Rusakov V.S. Analýza a spracovanie experimentálnych údajov - 5. vydanie - 24s.