Závislá premenná v regresnej analýze sa nazýva. Korelačno-regresná analýza v Exceli: pokyny na vykonanie. Interpretácia regresných parametrov

V prítomnosti korelácie medzi faktorom a výslednými znakmi musia lekári často určiť, o koľko sa môže zmeniť hodnota jedného znaku, keď sa zmení iný znak všeobecne akceptovanou alebo stanovenou samotným výskumníkom.

Ako sa napríklad zmení telesná hmotnosť školákov 1. ročníka (dievčat alebo chlapcov), ak ich výška vzrastie o 1 cm, na tieto účely sa používa metóda regresnej analýzy.

Najčastejšie sa metóda regresnej analýzy používa na vývoj normatívnych škál a štandardov pre telesný vývoj.

  1. Definícia regresie. Regresia je funkcia, ktorá umožňuje na základe priemernej hodnoty jedného atribútu určiť priemernú hodnotu iného atribútu, ktorý koreluje s prvým atribútom.

    Na tento účel sa použije regresný koeficient a celý riadok iné možnosti. Môžete napríklad vypočítať priemerný počet prechladnutí pri určitých hodnotách priemernej mesačnej teploty vzduchu v období jeseň-zima.

  2. Definícia regresného koeficientu. Regresný koeficient - absolútna hodnota, čím sa hodnota jedného atribútu mení v priemere, keď sa iný atribút s ním spojený o stanovenú mernú jednotku zmení.
  3. Vzorec regresného koeficientu. R y / x \u003d r xy x (σ y / σ x)
    kde R y / x - regresný koeficient;
    r xy - korelačný koeficient medzi znakmi x a y;
    (σ y a σ x) - smerodajné odchýlky znakov x a y.

    V našom príklade;
    σ x = 4,6 (štandardná odchýlka teploty vzduchu v období jeseň-zima;
    σ y = 8,65 (štandardná odchýlka počtu infekčných prechladnutí).
    R y/x je teda regresný koeficient.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, t.j. pri poklese priemernej mesačnej teploty vzduchu (x) o 1 stupeň sa priemerný počet infekčných prechladnutí (y) v jesenno-zimnom období zmení o 1,8 prípadu.

  4. Regresná rovnica. y \u003d M y + R y / x (x - M x)
    kde y je priemerná hodnota atribútu, ktorá by sa mala určiť, keď sa zmení priemerná hodnota iného atribútu (x);
    x - známa priemerná hodnota iného znaku;
    R y/x - regresný koeficient;
    M x, M y - známe priemerné hodnoty znakov x a y.

    Napríklad priemerný počet infekčných prechladnutí (y) možno určiť bez špeciálnych meraní pri akejkoľvek priemernej hodnote priemernej mesačnej teploty vzduchu (x). Takže, ak x \u003d - 9 °, R y / x \u003d 1,8 chorôb, M x \u003d -7 °, M y \u003d 20 chorôb, potom y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 ,6 = 23,6 chorôb.
    Táto rovnica sa aplikuje v prípade priameho vzťahu medzi dvoma znakmi (x a y).

  5. Účel regresnej rovnice. Na vykreslenie regresnej priamky sa používa regresná rovnica. Ten umožňuje bez špeciálnych meraní určiť akúkoľvek priemernú hodnotu (y) jedného atribútu, ak sa zmení hodnota (x) iného atribútu. Na základe týchto údajov sa vytvorí graf - regresná čiara, pomocou ktorého je možné určiť priemerný počet prechladnutí pri ľubovoľnej hodnote priemernej mesačnej teploty v rozmedzí medzi vypočítanými hodnotami počtu prechladnutí.
  6. Regresná sigma (vzorec).
    kde σ Ru/x - sigma (štandardná odchýlka) regresie;
    σ y je štandardná odchýlka znaku y;
    r xy - korelačný koeficient medzi znakmi x a y.

    Takže, ak σ y je štandardná odchýlka počtu prechladnutí = 8,65; r xy - korelačný koeficient medzi počtom prechladnutí (y) a priemernou mesačnou teplotou vzduchu v období jeseň-zima (x) je - 0,96, potom

  7. Účel sigma regresie. Udáva charakteristiku miery diverzity výsledného znaku (y).

    Napríklad charakterizuje rôznorodosť počtu prechladnutí pri určitej hodnote priemernej mesačnej teploty vzduchu v jesenno-zimnom období. Priemerný počet prechladnutí pri teplote vzduchu x 1 \u003d -6 ° sa teda môže pohybovať od 15,78 chorôb do 20,62 chorôb.
    Pri x 2 = -9° sa priemerný počet prechladnutí môže pohybovať od 21,18 chorôb do 26,02 chorôb atď.

    Regresná sigma sa používa pri konštrukcii regresnej škály, ktorá odráža odchýlku hodnôt efektívneho atribútu od jeho priemernej hodnoty vynesenej na regresnej priamke.

  8. Údaje potrebné na výpočet a vykreslenie regresnej stupnice
    • regresný koeficient - Ry/x;
    • regresná rovnica - y \u003d M y + R y / x (x-M x);
    • regresná sigma - σ Rx/y
  9. Postupnosť výpočtov a grafické znázornenie regresnej škály.
    • určiť regresný koeficient podľa vzorca (pozri odsek 3). Napríklad by sa malo určiť, o koľko sa zmení priemerná telesná hmotnosť (v určitom veku v závislosti od pohlavia), ak sa priemerná výška zmení o 1 cm.
    • podľa vzorca regresnej rovnice (pozri odsek 4) určte, aký bude priemer, napríklad telesná hmotnosť (y, y 2, y 3 ...) * pre určitú hodnotu rastu (x, x 2, x 3...).
      ________________
      * Hodnota "y" by mala byť vypočítaná pre aspoň tri známe hodnoty "x".

      Zároveň sú známe priemerné hodnoty telesnej hmotnosti a výšky (M x a M y) pre určitý vek a pohlavie

    • vypočítajte sigmu regresie, pričom poznáte zodpovedajúce hodnoty σ y a r xy a dosaďte ich hodnoty do vzorca (pozri odsek 6).
    • na základe známych hodnôt x 1, x 2, x 3 a ich zodpovedajúcich priemerných hodnôt y 1, y 2 y 3, ako aj najmenšej (y - σ ru / x) a najväčšej (y + σ ru / x) hodnoty (y) vytvárajú regresnú stupnicu.

      Pre grafické znázornenie regresnej škály sú na grafe najskôr vyznačené hodnoty x, x 2 , x 3 (os y), t.j. zostrojí sa regresná priamka, napríklad závislosť telesnej hmotnosti (y) od výšky (x).

      Potom sú v zodpovedajúcich bodoch y 1 , y 2 , y 3 označené číselné hodnoty regresnej sigmy, t.j. na grafe nájdite najmenšiu a najväčšiu hodnotu y 1 , y 2 , y 3 .

  10. Praktické využitie regresnej škály. Vyvíjajú sa normatívne stupnice a štandardy, najmä pre telesný rozvoj. Podľa štandardnej stupnice je možné individuálne posúdiť vývoj detí. Telesný vývoj sa zároveň hodnotí ako harmonický, ak sa napríklad pri určitej výške telesná hmotnosť dieťaťa pohybuje v rozmedzí jednej sigmy regresie k priemernej vypočítanej jednotke telesnej hmotnosti - (y) pre danú výšku (x) (y ± 1 σ Ry / x).

    Telesný vývoj sa považuje za disharmonický z hľadiska telesnej hmotnosti, ak je telesná hmotnosť dieťaťa pre určitú výšku v rámci druhej regresnej sigmy: (y ± 2 σ Ry/x)

    Fyzický vývoj bude výrazne disharmonický v dôsledku nadmernej aj nedostatočnej telesnej hmotnosti, ak sa telesná hmotnosť pre určitú výšku pohybuje v rámci tretej sigmy regresie (y ± 3 σ Ry/x).

Podľa výsledkov štatistická štúdia telesného vývoja 5-ročných chlapcov, je známe, že ich priemerná výška (x) je 109 cm a ich priemerná telesná hmotnosť (y) je 19 kg. Korelačný koeficient medzi výškou a telesnou hmotnosťou je +0,9, štandardné odchýlky sú uvedené v tabuľke.

Požadovaný:

  • vypočítajte regresný koeficient;
  • pomocou regresnej rovnice určte, aká bude predpokladaná telesná hmotnosť 5-ročných chlapcov s výškou rovnajúcou sa x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • vypočítať regresnú sigmu, zostaviť regresnú stupnicu, graficky prezentovať výsledky jej riešenia;
  • vyvodiť príslušné závery.

Stav problému a výsledky jeho riešenia sú uvedené v súhrnnej tabuľke.

stôl 1

Podmienky problému Výsledky riešenia problému
regresná rovnica sigma regresia regresná škála (očakávaná telesná hmotnosť (v kg))
M σ r xy R y/x X o σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
výška (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Telesná hmotnosť (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Riešenie.

Výkon. Regresná škála v rámci vypočítaných hodnôt telesnej hmotnosti vám teda umožňuje určiť ju pre akúkoľvek inú hodnotu rastu alebo vyhodnotiť individuálny rozvoj dieťa. Ak to chcete urobiť, obnovte kolmicu na regresnú čiaru.

  1. Vlasov V.V. Epidemiológia. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. verejné zdravie a zdravotníctvo. Učebnica pre stredné školy. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medik V.A., Yuriev V.K. Kurz prednášok z verejného zdravotníctva a zdravotnej starostlivosti: 1. časť. Verejné zdravotníctvo. - M.: Medicína, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. a iné Organizácia sociálneho lekárstva a zdravotníctva (Sprievodca v 2 zväzkoch). - Petrohrad, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. atď. Sociálna hygiena a organizácia zdravotníctva ( Návod) - Moskva, 2000. - 432 s.
  6. S. Glantz. Lekársko-biologická štatistika. Per z angličtiny. - M., Prax, 1998. - 459 s.

Koncept regresie. Vzťah medzi premennými X A r možno opísať rôznymi spôsobmi. Najmä akákoľvek forma spojenia môže byť vyjadrená všeobecnou rovnicou , kde r zaobchádzať ako so závislou premennou, príp funkcie od inej - nezávislej premennej x, tzv argument. Korešpondencia medzi argumentom a funkciou môže byť daná tabuľkou, vzorcom, grafom atď. Volá sa zmena funkcie v závislosti od zmeny jedného alebo viacerých argumentov regresia. Všetky prostriedky použité na opis korelácií sú obsahom regresná analýza.

Na vyjadrenie regresie, korelačných rovníc alebo regresných rovníc sa používajú empirické a teoreticky vypočítané regresné rady, ich grafy, nazývané regresné priamky, ako aj lineárne a nelineárne koeficienty. lineárna regresia.

Regresné ukazovatele vyjadrujú koreláciu obojsmerne, berúc do úvahy zmenu priemerných hodnôt atribútu Y pri zmene hodnôt X i znamenie X a naopak zobrazujú zmenu stredných hodnôt funkcie X zmenenými hodnotami r i znamenie Y. Výnimkou sú časové rady alebo série dynamiky, ktoré ukazujú zmenu znakov v čase. Regresia takýchto sérií je jednostranná.

Existuje mnoho rôznych foriem a typov korelácií. Úloha sa redukuje na identifikáciu formy spojenia v každom konkrétnom prípade a jej vyjadrenie pomocou zodpovedajúcej korelačnej rovnice, ktorá umožňuje predvídať možné zmeny jedno znamenie Y na základe známych zmien X, spojené s prvou koreláciou.

12.1 Lineárna regresia

Regresná rovnica. Výsledky pozorovaní uskutočnených na konkrétnom biologickom objekte podľa korelovaných charakteristík X A r, možno znázorniť bodmi v rovine zostrojením sústavy pravouhlých súradníc. V dôsledku toho sa získa určitý rozptylový diagram, ktorý umožňuje posúdiť formu a blízkosť vzťahu medzi rôznymi znakmi. Pomerne často tento vzťah vyzerá ako priamka alebo môže byť aproximovaný priamkou.

Lineárny vzťah medzi premennými X A r je opísaná všeobecnou rovnicou , kde a B C d,… sú parametre rovnice, ktoré určujú vzťah medzi argumentmi X 1 , X 2 , X 3 , …, X m a funkcie.

V praxi sa neberú do úvahy všetky možné argumenty, ale iba niektoré argumenty, v najjednoduchšom prípade iba jeden:

V rovnici lineárnej regresie (1) a je voľný termín a parameter b určuje sklon regresnej priamky vzhľadom na pravouhlé súradnicové osi. V analytickej geometrii sa tento parameter nazýva faktor sklonu a v biometrii - regresný koeficient. Vizuálne znázornenie tohto parametra a polohy regresných čiar Y na X A X na Y v sústave pravouhlých súradníc dáva Obr.1.

Ryža. 1 Y x X a X x Y regresných čiar v systéme

pravouhlé súradnice

Regresné čiary, ako je znázornené na obr. 1, sa pretínajú v bode O (,), čo zodpovedá aritmetickým priemerným hodnotám navzájom korelovaných znamienok Y A X. Pri vykresľovaní regresných grafov sú hodnoty nezávislej premennej X vynesené pozdĺž úsečky a hodnoty závislej premennej alebo funkcie Y sú vynesené pozdĺž zvislej osi. Čiara AB prechádzajúca bodom O (, ) zodpovedá úplnému (funkčnému) vzťahu medzi premennými Y A X keď korelačný koeficient . Čím silnejšie je spojenie medzi Y A X, čím sú regresné čiary bližšie k AB, a naopak, čím je vzťah medzi týmito hodnotami slabší, tým sú regresné čiary od AB vzdialenejšie. Pri absencii spojenia medzi znakmi sú regresné čiary navzájom v pravom uhle a .

Keďže regresné ukazovatele vyjadrujú koreláciu obojsmerne, regresná rovnica (1) by mala byť napísaná takto:

Podľa prvého vzorca sa priemerné hodnoty určia pri zmene znamienka X na mernú jednotku, na druhej - spriemerované hodnoty, keď sa funkcia zmení na mernú jednotku Y.

Regresný koeficient. Regresný koeficient ukazuje, aká je priemerná hodnota jedného znaku r zmení, keď iná merná jednotka koreluje s Y znamenie X. Tento ukazovateľ je určený vzorcom

Tu hodnoty s vynásobte veľkosťou triednych intervalov λ ak boli zistené variačnými sériami alebo korelačnými tabuľkami.

Regresný koeficient možno vypočítať tak, že sa obíde výpočet štandardných odchýlok s r A s X podľa vzorca

Ak korelačný koeficient nie je známy, regresný koeficient sa určí takto:

Vzťah medzi regresnými a korelačnými koeficientmi. Pri porovnaní vzorcov (11.1) (téma 11) a (12.5) vidíme, že ich čitateľ obsahuje rovnakú hodnotu, čo naznačuje súvislosť medzi týmito ukazovateľmi. Tento vzťah je vyjadrený rovnosťou

Korelačný koeficient sa teda rovná geometrickému priemeru koeficientov b yx A b xy. Vzorec (6) umožňuje v prvom rade zo známych hodnôt regresných koeficientov b yx A b xy určiť regresný koeficient R xy a po druhé na kontrolu správnosti výpočtu tohto korelačného ukazovateľa R xy medzi rôznymi vlastnosťami X A Y.

Podobne ako korelačný koeficient, aj regresný koeficient charakterizuje len lineárny vzťah a sprevádza ho znamienko plus pre pozitívny vzťah a znamienko mínus pre negatívny vzťah.

Stanovenie parametrov lineárnej regresie. Je známe, že súčet kvadrátov odchýlok variantu X i od priemeru je najmenšia hodnota, t.j. Táto veta tvorí základ metódy najmenších štvorcov. S ohľadom na lineárnu regresiu [pozri vzorec (1)], požiadavku tejto vety spĺňa určitá sústava rovníc tzv normálne:

Spoločné riešenie týchto rovníc vzhľadom na parametre a A b vedie k nasledujúcim výsledkom:

;

;

, odkiaľ i.

Vzhľadom na obojsmerný charakter vzťahu medzi premennými Y A X, vzorec na určenie parametra ale treba vyjadriť takto:

A . (7)

Parameter b, alebo regresný koeficient, sa určuje podľa nasledujúcich vzorcov:

Konštrukcia empirických regresných radov. V prítomnosti Vysoké číslo pozorovania regresná analýza začína konštrukciou empirických regresných radov. Empirický regresný rad je tvorený výpočtom hodnôt jedného premenného atribútu X priemerné hodnoty druhého, korelované s X znamenie Y. Inými slovami, konštrukcia empirických regresných radov sa redukuje na nájdenie skupinových priemerov u zo zodpovedajúcich hodnôt znakov Y a X.

Empirický regresný rad je dvojitý rad čísel, ktorý možno znázorniť bodmi v rovine, a potom spojením týchto bodov s priamymi úsečkami možno získať empirickú regresnú čiaru. Empirické regresné série, najmä ich zápletky, tzv regresné čiary, poskytujú vizuálnu reprezentáciu formy a tesnosti korelačnej závislosti medzi rôznymi znakmi.

Vyrovnanie empirických regresných radov. Grafy empirických regresných radov sú spravidla skôr prerušované ako hladké. Vysvetľuje to skutočnosť, že spolu s hlavnými dôvodmi, ktoré určujú všeobecný vzorec vo variabilite korelovaných znakov, je ich hodnota ovplyvnená vplyvom mnohých sekundárnych príčin, ktoré spôsobujú náhodné výkyvy v uzlových bodoch regresie. Ak chcete identifikovať hlavný trend (trend) konjugovanej variácie korelovaných prvkov, musíte nahradiť prerušované čiary hladkými, hladko prebiehajúcimi regresnými čiarami. Proces nahradenia prerušovaných čiar hladkými sa nazýva zarovnanie empirických radov A regresné čiary.

Spôsob grafického zarovnania. Toto je najjednoduchšia metóda, ktorá nevyžaduje výpočtovú prácu. Jeho podstata je nasledovná. Empirický regresný rad je vynesený ako graf v pravouhlom súradnicovom systéme. Potom sa vizuálne načrtnú stredy regresie, pozdĺž ktorých sa pomocou pravítka alebo vzoru nakreslí plná čiara. Nevýhoda tejto metódy je zrejmá: nevylučuje vplyv individuálnych charakteristík výskumníka na výsledky zarovnania empirických regresných čiar. Preto v prípadoch, kde je potrebná vyššia presnosť pri nahradení prerušovaných regresných čiar hladkými, sa používajú iné metódy zarovnania empirických radov.

Metóda kĺzavého priemeru. Podstata tejto metódy je redukovaná na sekvenčný výpočet aritmetického priemeru dvoch alebo troch susedných členov empirického radu. Táto metóda je vhodná najmä v prípadoch, keď je empirický rad reprezentovaný veľkým počtom členov, takže strata dvoch z nich - extrémnych, ktorá je pri tejto metóde vyrovnávania nevyhnutná, výrazne neovplyvní jej štruktúru.

Metóda najmenších štvorcov. Túto metódu navrhol na začiatku 19. storočia A.M. Legendre a nezávisle od neho aj K. Gauss. Umožňuje vám najpresnejšie zosúladiť empirické série. Táto metóda, ako je uvedené vyššie, je založená na predpoklade, že súčet druhých mocnín odchýlok variantu X i od ich priemeru je minimálna hodnota, teda odtiaľ názov metódy, ktorá sa používa nielen v ekológii, ale aj v technike. Metóda najmenších štvorcov je objektívna a univerzálna, používa sa v rôznych prípadoch pri hľadaní empirických rovníc regresných radov a určovaní ich parametrov.

Požiadavkou metódy najmenších štvorcov je, že teoretické body regresnej priamky musia byť získané tak, že súčet štvorcových odchýlok od týchto bodov pre empirické pozorovania r i bol minimálny, t.j.

Vypočítaním minima tohto výrazu v súlade s princípmi matematickej analýzy a jeho transformáciou určitým spôsobom možno získať systém tzv. normálne rovnice, v ktorom sú neznáme hodnoty požadovanými parametrami regresnej rovnice a známe koeficienty sú určené empirickými hodnotami vlastností, zvyčajne súčtom ich hodnôt a ich krížových produktov.

Viacnásobná lineárna regresia. Vzťah medzi viacerými premennými sa zvyčajne vyjadruje viacnásobnou regresnou rovnicou, ktorá môže byť lineárne A nelineárne. V najjednoduchšej forme je viacnásobná regresia vyjadrená rovnicou s dvoma nezávislými premennými ( X, z):

kde a je voľný člen rovnice; b A c sú parametre rovnice. Na nájdenie parametrov rovnice (10) (metódou najmenších štvorcov) sa používa nasledujúci systém normálnych rovníc:

Riadky dynamiky. Zarovnanie riadkov. Zmena znamienok v priebehu času tvorí tzv časové rady alebo riadky dynamiky. Charakteristickým znakom takýchto radov je, že časový faktor tu vždy pôsobí ako nezávislá premenná X a meniace sa znamienko je závislá premenná Y. V závislosti od regresného radu je vzťah medzi premennými X a Y jednostranný, keďže časový faktor nezávisí od variability znakov. Napriek týmto vlastnostiam možno časové rady prirovnať k regresným radom a spracovať ich rovnakými metódami.

Rovnako ako regresné rady, aj empirické časové rady sú ovplyvnené nielen hlavnými, ale aj početnými vedľajšími (náhodnými) faktormi, ktoré zakrývajú hlavný trend variability znakov, ktorý sa v jazyku štatistiky nazýva tzv. trend.

Analýza časových radov začína identifikáciou tvaru trendu. Na tento účel je časový rad znázornený ako čiarový graf v systéme pravouhlých súradníc. Súčasne sú časové body (roky, mesiace a iné jednotky času) vynesené pozdĺž osi x a hodnoty závislej premennej Y sú vynesené pozdĺž osi y. je regresná rovnica vo forme odchýlky členov radu závisle premennej Y od aritmetického priemeru radu nezávisle premennej X:

Tu je parameter lineárnej regresie.

Numerické charakteristiky radu dynamiky. Medzi hlavné zovšeobecňujúce číselné charakteristiky radu dynamiky patrí geometrický priemer a aritmetický priemer k nemu blízko. Charakterizujú priemernú rýchlosť, ktorou sa mení hodnota závislej premennej v určitých časových obdobiach:

Odhad variability členov radu dynamiky je smerodajná odchýlka. Pri výbere regresných rovníc na popis časového radu sa berie do úvahy forma trendu, ktorý môže byť lineárny (alebo redukovaný na lineárny) a nelineárny. Správnosť výberu regresnej rovnice sa zvyčajne posudzuje podľa podobnosti empiricky pozorovaných a vypočítaných hodnôt závislej premennej. Presnejšia pri riešení tohto problému je metóda regresnej analýzy rozptylu (téma 12 s. 4).

Korelácia sérií dynamiky.Často je potrebné porovnávať dynamiku paralelných časových radov, ktoré medzi sebou súvisia nejakými všeobecnými podmienkami, napríklad na zistenie vzťahu medzi poľnohospodárskou produkciou a prírastkom hospodárskych zvierat za určité časové obdobie. V takýchto prípadoch je vzťah medzi premennými X a Y charakterizovaný tým korelačný koeficient R xy (v prítomnosti lineárneho trendu).

Je známe, že trend časových radov je spravidla zastretý fluktuáciami v členoch radu závislej premennej Y. Vzniká teda dvojaký problém: meranie vzťahu medzi porovnávanými radmi bez vylúčenia trendu a meranie vzťahu medzi susednými členmi rovnakého radu s vylúčením trendu. V prvom prípade je indikátorom tesnej súvislosti medzi porovnávanými sériami dynamiky korelačný koeficient(ak je vzťah lineárny), v druhom - autokorelačný koeficient. Tieto ukazovatele majú rozdielne hodnoty, hoci sa vypočítavajú pomocou rovnakých vzorcov (pozri tému 11).

Je ľahké vidieť, že hodnotu autokorelačného koeficientu ovplyvňuje variabilita členov radu závislej premennej: čím menej sa členovia radu odchyľujú od trendu, tým vyšší je koeficient autokorelácie a naopak.

Regresná analýza

regresia (lineárne) analýza- štatistická metóda na štúdium vplyvu jednej alebo viacerých nezávislých premenných na závislú premennú. Nezávislé premenné sa inak nazývajú regresory alebo prediktory a závislé premenné sa nazývajú kritériá. Terminológia závislý A nezávislý premenné odráža iba matematickú závislosť premenných ( pozri Falošná korelácia), a nie kauzálny vzťah.

Ciele regresnej analýzy

  1. Určenie miery determinizmu variácie kriteriálnej (závislej) premennej prediktormi (nezávisle premenné)
  2. Predpovedanie hodnoty závislej premennej pomocou nezávislej premennej (premenných)
  3. Stanovenie príspevku jednotlivých nezávislých premenných k variácii závislej

Regresnú analýzu nemožno použiť na určenie, či existuje vzťah medzi premennými, pretože existencia takéhoto vzťahu je predpokladom pre aplikáciu analýzy.

Matematická definícia regresie

Prísne regresívna závislosť môže byť definovaná nasledovne. Nech , sú náhodné premenné s daným spoločným rozdelením pravdepodobnosti. Ak je pre každú množinu hodnôt definované podmienené očakávanie

(všeobecná regresná rovnica),

potom sa zavolá funkcia regresia Hodnoty Y podľa hodnôt a ich graf - regresná čiara od , alebo regresná rovnica.

Závislosť na sa prejavuje v zmene priemerných hodnôt Y pri zmene. Hoci pre každú pevnú množinu hodnôt zostáva množstvo náhodnou premennou s určitým rozptylom.

Aby sa objasnila otázka, ako presne regresná analýza odhaduje zmenu Y so zmenou, priemerná hodnota rozptylu Y sa používa pre rôzne súbory hodnôt (v skutočnosti hovoríme o miere rozptylu závislá premenná okolo regresnej priamky).

Metóda najmenších štvorcov (výpočet koeficientov)

V praxi sa regresná línia najčastejšie hľadá vo forme lineárna funkcia(lineárna regresia), ktorá najlepšie aproximuje požadovanú krivku. Robí sa to pomocou metódy najmenších štvorcov, keď sa minimalizuje súčet druhých mocnín odchýlok skutočne pozorovaných od ich odhadov (čo znamená odhady využívajúce priamku, ktorá tvrdí, že predstavuje požadovanú regresnú závislosť):

(M - veľkosť vzorky). Tento prístup je založený na známy fakt, že súčet uvedený vo vyššie uvedenom výraze má minimálnu hodnotu práve pre prípad, keď .

Na vyriešenie problému regresnej analýzy metódou najmenších štvorcov je zavedený koncept zvyškové funkcie:

Podmienka pre minimum zvyškovej funkcie:

Výsledným systémom je systém lineárne rovnice s neznámym

Ak voľné členy ľavej strany rovníc reprezentujeme maticou

a koeficienty neznámych na pravej strane matice

potom dostaneme maticová rovnica: , ktorý je jednoducho vyriešený Gaussovou metódou. Výsledná matica bude matica obsahujúca koeficienty rovnice regresnej priamky:

Pre získanie najlepších odhadov je potrebné splniť predpoklady LSM (Gauss–Markovove podmienky). V anglickej literatúre sa takéto odhady nazývajú BLUE (Best Linear Unbiased Estimators) – najlepšie lineárne nezaujaté odhady.

Interpretácia regresných parametrov

Parametre sú parciálne korelačné koeficienty; sa interpretuje ako podiel rozptylu Y vysvetleného fixovaním vplyvu zostávajúcich prediktorov, to znamená, že meria individuálny príspevok k vysvetleniu Y. V prípade korelovaných prediktorov vzniká problém neistoty v odhadoch , ktoré sa stávajú závislými od poradia, v ktorom sú prediktory zahrnuté do modelu. V takýchto prípadoch je potrebné aplikovať analytické metódy korelačnej a postupnej regresnej analýzy.

Keď už hovoríme o modeloch nelineárnej regresnej analýzy, je dôležité venovať pozornosť tomu, či hovoríme o nelinearite v nezávislých premenných (z formálneho hľadiska ľahko redukovateľné na lineárnu regresiu), alebo o nelinearite v odhadovaných parametroch ( spôsobujúce vážne problémy s výpočtom). V prípade nelinearity prvého typu je zo zmysluplného hľadiska dôležité vyčleniť vzhľad v modeli členov formy , , označujúci prítomnosť interakcií medzi prvkami atď. (pozri Multikolinearita).

pozri tiež

Odkazy

  • www.kgafk.ru - Prednáška na tému "Regresná analýza"
  • www.basegroup.ru - metódy výberu premenných v regresných modeloch

Literatúra

  • Norman Draper, Harry Smith Aplikovaná regresná analýza. Viacnásobná regresia= Aplikovaná regresná analýza. - 3. vyd. - M .: "Dialektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Udržateľné metódy odhadu štatistických modelov: Monografia. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, MDT: 519.237.5: 515.126.2, LBC 22.172 + 22.152
  • Radčenko Stanislav Grigorievič, Metodika regresnej analýzy: Monografia. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Nadácia Wikimedia. 2010.

Regresná analýza je jednou z najpopulárnejších metód štatistického výskumu. Môže sa použiť na určenie miery vplyvu nezávislých premenných na závislú premennú. Vo funkčnosti Microsoft Excel Na tento typ analýzy sú dostupné nástroje. Poďme sa pozrieť na to, čo sú a ako ich používať.

Aby ste však mohli použiť funkciu, ktorá vám umožňuje vykonávať regresnú analýzu, musíte najskôr aktivovať analytický balík. Až potom sa na páse s nástrojmi Excelu objavia nástroje potrebné na tento postup.


Teraz, keď prejdeme na kartu "údaje", na páse s nástrojmi "analýza" uvidíme nové tlačidlo - "Analýza dát".

Typy regresnej analýzy

Existuje niekoľko typov regresií:

  • parabolický;
  • moc;
  • logaritmický;
  • exponenciálny;
  • demonštrácia;
  • hyperbolický;
  • lineárna regresia.

O implementácii posledného typu regresnej analýzy v Exceli si povieme podrobnejšie neskôr.

Lineárna regresia v Exceli

Nižšie je ako príklad uvedená tabuľka, ktorá ukazuje priemernú dennú teplotu vzduchu na ulici a počet zákazníkov obchodu za príslušný pracovný deň. Zistime pomocou regresnej analýzy, ako presne môžu poveternostné podmienky v podobe teploty vzduchu ovplyvniť návštevnosť maloobchodnej prevádzky.

Všeobecná rovnica lineárnej regresie vyzerá takto: Y = a0 + a1x1 + ... + axk. V tomto vzorci Y znamená premennú, ktorej vplyv sa snažíme študovať. V našom prípade ide o počet kupujúcich. Význam X- toto rôznych faktorov ktoré ovplyvňujú premennú. Parametre a sú regresné koeficienty. To znamená, že určujú význam konkrétneho faktora. Index k označuje celkový počet rovnakých faktorov.


Analýza výsledkov analýzy

Výsledky regresnej analýzy sa zobrazia vo forme tabuľky na mieste určenom v nastaveniach.

Jedným z hlavných ukazovateľov je R-štvorec. Označuje kvalitu modelu. V našom prípade je tento koeficient 0,705 alebo približne 70,5 %. Toto je prijateľná úroveň kvality. Vzťah menší ako 0,5 je zlý.

Ďalší dôležitý ukazovateľ sa nachádza v bunke na priesečníku čiary "Y-križovatka" a stĺpec "koeficienty". Tu je uvedené, akú hodnotu bude mať Y av našom prípade je to počet kupujúcich so všetkými ostatnými faktormi nula. V tejto tabuľke daná hodnota rovná sa 58,04.

Hodnota v priesečníku grafu "Premenná X1" A "koeficienty" ukazuje úroveň závislosti Y na X. V našom prípade ide o úroveň závislosti počtu zákazníkov predajne od teploty. Koeficient 1,31 sa považuje za pomerne vysoký ukazovateľ vplyvu.

Ako vidíte, je celkom jednoduché vytvoriť tabuľku regresnej analýzy pomocou programu Microsoft Excel. S dátami získanými na výstupe však môže pracovať a pochopiť ich podstatu len vyškolený človek.

Regresná analýza— metóda na modelovanie nameraných údajov a štúdium ich vlastností. Údaje pozostávajú z párov hodnôt závislá premenná(premenná odozvy) a nezávislá premenná(vysvetľujúca premenná). Regresný model je funkciou nezávislej premennej a parametrov s pridanou náhodnou premennou. Parametre modelu sú vyladené tak, aby sa model čo najlepšie približoval údajom. Kritérium kvality aproximácie (objektívna funkcia) je zvyčajne stredná štvorcová chyba: súčet druhých mocnín rozdielu medzi hodnotami modelu a závislou premennou pre všetky hodnoty nezávislej premennej ako argument. Regresná analýza je oblasťou matematickej štatistiky a strojového učenia. Predpokladá sa, že závislá premenná je súčtom hodnôt nejakého modelu a náhodnej premennej. Čo sa týka povahy rozdelenia tejto hodnoty, sú vytvorené predpoklady, ktoré sa nazývajú hypotéza generovania údajov. Na potvrdenie alebo vyvrátenie tejto hypotézy sa vykonávajú štatistické testy, nazývané reziduálna analýza. To predpokladá, že nezávislá premenná neobsahuje chyby. Regresná analýza sa používa na prognózovanie, analýzu časových radov, testovanie hypotéz a odhaľovanie skrytých vzťahov v údajoch.

Definícia regresnej analýzy

Vzorka nemusí byť funkcia, ale vzťah. Napríklad údaje na vytvorenie regresie môžu byť: . V takejto vzorke jedna hodnota premennej zodpovedá niekoľkým hodnotám premennej.

Lineárna regresia

Lineárna regresia predpokladá, že funkcia lineárne závisí od parametrov. V tomto prípade je lineárna závislosť od voľnej premennej voliteľná,

V prípade, že lineárna regresná funkcia má tvar

tu sú zložky vektora .

Hodnoty parametrov v prípade lineárnej regresie sa zisťujú pomocou metódy najmenších štvorcov. Použitie tejto metódy je odôvodnené predpokladom Gaussovho rozdelenia náhodnej premennej.

Rozdiely medzi skutočnými hodnotami závislej premennej a rekonštruovanými sa nazývajú regresné rezíduá(zvyšky). V literatúre sa používajú aj synonymá: zvyškov A chyby. Jedným z dôležitých odhadov kvalitatívneho kritéria získanej závislosti je súčet druhých mocnín rezíduí:

Tu - Súčet štvorcových chýb.

Rozptyl zvyškov sa vypočíta podľa vzorca

Tu - Stredná štvorcová chyba, stredná štvorcová chyba.

V grafoch sú vzorky označené modrými bodkami a regresné závislosti označené plnými čiarami. Vodorovná os ukazuje voľnú premennú a zvislá osa ukazuje závislú premennú. Všetky tri závislosti sú lineárne vzhľadom na parametre.

Nelineárna regresia

Nelineárne regresné modely - Zobraziť modely

ktorý nemôže byť reprezentovaný ako bodkový produkt

kde - parametre regresného modelu, - voľná premenná z priestoru, - závislá premenná, - náhodná hodnota a je funkciou z nejakej danej množiny.

Hodnoty parametrov v prípade nelineárnej regresie sa nachádzajú pomocou jednej z metód zostupu gradientu, napríklad algoritmu Levenberg-Marquardt.

O podmienkach

Termín „regresia“ zaviedol Francis Galton koncom 19. storočia. Galton zistil, že deti vysokých alebo nízkych rodičov zvyčajne nezdedia vynikajúcu výšku a nazval tento jav „regresiou k priemernosti“. Spočiatku sa tento výraz používal výlučne v biologickom zmysle. Po práci Karla Pearsona sa tento termín začal používať v štatistike.

V štatistickej literatúre sa rozlišuje medzi regresiou zahŕňajúcou jednu voľnú premennú a s viacerými voľnými premennými − jednorozmerný A viacrozmerný regresia. Predpokladá sa, že používame niekoľko voľných premenných, to znamená, že voľná premenná je vektor. V špeciálnych prípadoch, keď je voľná premenná skalárna, bude označená . Rozlišovať lineárne A nelineárne regresia. Ak regresný model nie je lineárnou kombináciou funkcií parametrov, potom sa hovorí o nelineárnej regresii. V tomto prípade môže byť modelom ľubovoľná superpozícia funkcií z určitej množiny. Nelineárne modely sú exponenciálne, trigonometrické a iné (napríklad funkcie radiálnej bázy alebo Rosenblattov perceptrón), ktoré predpokladajú, že vzťah medzi parametrami a závislou premennou je nelineárny.

Rozlišovať parametrické A neparametrické regresia. Je ťažké nakresliť ostrú hranicu medzi týmito dvoma typmi regresií. V súčasnosti neexistuje žiadne všeobecne akceptované kritérium na rozlíšenie jedného typu modelu od druhého. Napríklad lineárne modely sa považujú za parametrické, zatiaľ čo modely, ktoré zahŕňajú spriemerovanie závislej premennej v priestore voľnej premennej, sa považujú za neparametrické. Príklad parametrického regresného modelu: lineárny prediktor, viacvrstvový perceptrón. Príklady zmiešaných regresných modelov: Funkcie radiálnej bázy. Neparametrický model - kĺzavý priemer v okne určitej šírky. Vo všeobecnosti sa neparametrická regresia líši od parametrickej regresie tým, že závislá premenná nezávisí od jednej hodnoty voľnej premennej, ale od nejakého daného okolia tejto hodnoty.

Existuje rozdiel medzi pojmami: „aproximácia funkcie“, „aproximácia“, „interpolácia“ a „regresia“. Spočíva v nasledujúcom.

Aproximácia funkcií. Je daná funkcia diskrétneho alebo spojitého argumentu. Je potrebné nájsť funkciu z nejakej parametrickej rodiny, napríklad medzi algebraickými polynómami daného stupňa. Parametre funkcií musia poskytovať minimum niektorých funkcií, napr.

Termín aproximácia je synonymom pre pojem „aproximácia funkcií“. Častejšie sa používa, keď ide o danú funkciu, ako funkcia diskrétneho argumentu. Tu je tiež potrebné nájsť takú funkciu, ktorá prechádza najbližšie ku všetkým bodom danej funkcie. Toto predstavuje koncept zvyškov sú vzdialenosti medzi bodmi spojitej funkcie a zodpovedajúcimi bodmi funkcie diskrétneho argumentu.

Interpolácia funkcie - špeciálny prípad aproximačné problémy, kedy sa vyžaduje, aby v určitých bodoch, tzv interpolačné uzly hodnoty funkcie a funkcie, ktorá ju aproximuje, sa zhodovali. Vo všeobecnejšom prípade sa na hodnoty niektorých derivátov derivátov vzťahujú obmedzenia. Teda vzhľadom na funkciu diskrétneho argumentu. Je potrebné nájsť funkciu, ktorá prechádza všetkými bodmi. V tomto prípade sa metrika zvyčajne nepoužíva, ale často sa zavádza koncept "hladkosti" požadovanej funkcie.