Определение связи между случайными величинами. Введение в корреляционный анализ. Основы регрессионного анализа Связи между случайными величинами

Характеристики связи между случайными переменными

Наряду с функцией регрессии в эконометрике также используются количественные характеристики взаимосвязи между двумя случайными величинами. К ним относятся ковариация и коэффициент корреляции.

Ковариацией случайных величин х и у называется математическое ожидание произведения отклонений этих величин от своих математических ожиданий и вычисляется по правили:

где и – математические ожидания соответственно переменных X и у.

Ковариация – это константа, отражающая степень зависимости между двумя случайными величинами и обозначаются какили

Для независимых случайных величин ковариация равна нулю, если между переменными существует статистическая связь, то соответствующая ковариация отлична от нуля. По знаку ковариации судят о характере связи: однонаправленная () или разнонаправленная ().

Заметим, что в случае, когда переменные х и у совпадают, определение (3.12) превращается в определение для дисперсии случайной переменной:

Ковариация величина размерная. Ее размерность – произведение размерностей переменных. Наличие размерности у ковариации затрудняет ее использование для оценки степени зависимости случайных переменных.

Наряду с ковариацией для оценки связи между случайными величинами используется коэффициент корреляции.

Коэффициентом корреляции двух случайных переменных называется отношение их ковариации к произведению стандартных ошибок этих величин:

Коэффициент корреляции величина безразмерная, область возможных значений которой есть отрезок [+1; -1]. Для независимых случайных величин коэффициент корреляции равен нулю, если же, это свидетельствует о наличии линейной функциональной зависимости между переменными.

По аналогии со случайными переменными для случайного вектора так же вводятся количественные характеристики. Таких характеристик две:

1) вектор ожидаемых значений компонент

здесь– случайный вектор;– математические ожидания компонент случайного вектора;

2) ковариационная матрица

(3.15)

Ковариационная матрица одновременно содержит как информацию о степени неопределенности компонент случайного вектора, так и информацию о степени взаимосвязи каждой пары компонент вектора.

В экономике понятие случайного вектора и его характеристики, в частности, нашли применение при анализе операций на фондовом рынке. Известный американский экономист Гарри Марковиц предложил следующий подход. Пусть на фондовом рынке обращаются n рисковых активов . Доходность каждого актива за некоторый период времени есть случайная величина. Вводится вектор доходностей и соответствующий ему вектор ожидаемых доходностей . Вектор ожидаемых доходностей Марковец предложил рассматривать как показатель привлекательности того или иного актива, а элементы главной диагонали ковариационной матрицы – как величину риска для каждого актива. Диагональные элементы отражают величины связи соответствующих пар доходностей, входящих в вектор. Параметрическая модель фондового рынка Марковица получила вид

Эта модель положена в основу теории оптимального портфеля ценных бумаг .

Свойства операций вычисления количественных характеристик случайных переменных

Рассмотрим основные свойства операций вычисления количественных характеристик случайных переменных и случайного вектора.

Операции вычисления математического ожидания:

1) если случайная переменная х = с, где с – константа, то

2) если x и у – случайные переменные, аи–произвольные константы, то

3) если х и у независимые случайные переменные, то

Операции вычисления дисперсии:

1) если случайная переменная х = с, где с – произвольная константа, то

2) если x

3) если х случайная переменная, а с – произвольная константа, то

4) если х и y – случайные переменные, аи – произвольные константы, то

Целью корреляционного анализа является выявление оценки силы связи между случайными величинами (признаками), которые характеризует некоторый реальный процесс.
Задачи корреляционного анализа :
а) Измерение степени связности (тесноты, силы, строгости, интенсивности) двух и более явлений.
б) Отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями. Существенные в данном аспекте факторы используют далее в регрессионном анализе.
в) Обнаружение неизвестных причинных связей.

Формы проявления взаимосвязей весьма разнообразны. В качестве самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи .
Корреляционная связь проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятностных значений независимой переменной. Связь называется корреляционной , если каждому значению факторного признака соответствует вполне определенное неслучайное значение результативного признака.
Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показываются сочетания X и Y. По расположению точек можно судить о наличии связи.
Показатели тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора.
Более совершенным показателем степени тесноты корреляционной связи является линейный коэффициент корреляции . При расчете этого показателя учитываются не только отклонения индивидуальных значений признака от средней, но и сама величина этих отклонений.

Ключевыми вопросами данной темы являются уравнения регрессионной связи между результативным признаком и объясняющей переменной, метод наименьших квадратов для оценки параметров регрессионной модели, анализ качества полученного уравнения регрессии, построение доверительных интервалов прогноза значений результативного признака по уравнению регрессии.

Пример 2


Система нормальных уравнений.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших данных система уравнений имеет вид
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = -3.46, a = 1379.33
Уравнение регрессии:
y = -3.46 x + 1379.33

2. Расчет параметров уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


1.1. Коэффициент корреляции
Ковариация .

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -3.46 x + 1379.33

Коэффициент b = -3.46 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -3.46.
Коэффициент a = 1379.33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:


Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к уменьшению среднего значения Y на 0.74 среднеквадратичного отклонения S y .
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
где
∑(y i - y cp) 2 - общая сумма квадратов отклонений;
∑(y(x) - y cp) 2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y - y(x)) 2 - остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции r xy .
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции :

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции r xy .
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = -0.74 2 = 0.5413
т.е. в 54.13 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 45.87 % изменения Y объясняются факторами, не учтенными в модели.

Список литературы

  1. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 34..89.
  2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. – 2-е изд., испр. – М.: Дело, 1998, с. 17..42.
  3. Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 5..48.

Случайной величиной называется величина, которая в результате опыта может принять то или иное заранее неизвестное значение.

Примерами могут служить: потери и подсосы воздуха, степень усвоения кислорода, неточности взвешивания компонентов шихты, колебания химического состава сырья в связи с недостаточным усреднением и т. д.

Соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения, который количественно выражается в двух формах.

Рис. 5.1 Функция распределения (а) и плотность распределения (б)

Вероятность события , зависящая от значения , называется функцией распределения случайной величины:

. (5.1) есть неубывающая функция (рис. 5.1,а). Значения ее при предельных значениях аргумента равны:и.

Плотность распределения

Чаще используется другая форма закона распределения – плотность распределения случайной величины , являющаяся производной функции распределения:

. (5.2) Тогда вероятность нахождения величины в интервалеиможно выразить через плотность распределения:

. (5.3`) Плотность распределения есть неотрицательная функция (рис. 21,б), площадь под кривой распределения равна единице:

. (5.4) Функция распределения может выражаться через плотность распределения:

. (5.5) Для решения большинства практических задач закон распределения , т. е. полная характеристика случайной величины, неудобен для использования. Поэтому чаще применяют числовые характеристики случайной величины, определяющие основные черты закона распределения . Наиболее распространенными из них являются математическое ожидание и дисперсия (или среднеквадратичное отклонение).

Математическое ожидание

Математическое ожидание случайной величины определяется следующим образом

. (5.6) где

Математическое ожидание случайной величиныобычно оценивается ее средним арифметическим, которое при увеличении числа опытовсходится к математическому ожиданию

. (5.7) где - наблюдаемые значения случайной величины.

Важно отметить, что в случае, если – непрерывно меняющаяся во времени величина (температура свода, стенки, химический состав продуктов горения), то необходимо брать в качестве значения величинызначения величины , разделенные такими интервалами во времени, чтобы их можно было рассматривать как независимые опыты. Практически это сводится к учету инерционности по соответствующим каналам. Способы оценки инерционности объектов будут рассмотрены ниже.

Дисперсия и среднеквадратическое отклонение

Дисперсия определяет рассеяние случайной величины около ее математического ожидания

. (5.8) Оценка дисперсии производится по формуле

. (5.9) а среднеквадратического отклонения по формуле

Коэффициент корреляции

Коэффициент корреляции характеризует степень линейной связи между величинамии, т. е. здесь уже имеем дело с системой случайных величин. Оценка производится по формуле

. (5.10)

Определение ошибок и доверительных интервалов для характеристик случайных величин

Для того, чтобы рассмотренными характеристиками случайных величин можно было пользоваться с определенной надежностью, необходимо кроме указанных оценок вычислить для каждой из них ошибки или доверительные интервалы, которые зависят от степени разброса, числа опытов и заданной доверительной вероятности. Ошибка для математического ожидания приближенно определяется по формуле

. (5.11) где– критерий Стьюдента; выбирается по таблицам в зависимости от заданной доверительной вероятностии числа опытов(например, прии,).

Таким образом, истинное значение математического ожидания с вероятностью находится в доверительном интервале

. (5.12) При заданной точности расчетаи надежности эти же формулы можно использовать для расчета необходимого числа независимых опытов.

Подобным образом определяется и ошибка величин и

. (5.13) Считается, что линейная зависимость междуидействительно существует, если

. или

. (5.14) Например, призависимость между исследуемыми величинами действительно имеет место, если

. (5.15) В противном случае существование зависимости между величинами инедостоверно.

Случайная величина

Определение понятия случайной величины

Форма связи между случайными величинами определяется линией регрессии, показывающей, как в среднем изменяется величина

при изменении величины, что характеризуют условным математическим ожиданиемвеличины, вычисляемым при условии, что величинаприняла определенное значение. Таким образом, кривая регрессиинаесть зависимость условного математического ожидания от известного значения

. (5.16) где,–параметры уравнения (коэффициенты).

Изменения случайной величиныобусловлены изменчивостью стохастически связанной с ней неслучайной величины, а также других факторов, влияющих на, но не зависящих от. Процесс определения уравнения регрессии складывается из двух важнейших этапов: выбора вида уравнения, т. е. задания функции, и расчета параметров уравнения регрессии.

Выбор вида уравнения регрессии

Выбирается этот вид исходя из особенностей изучаемой системы случайных величин. Одним из возможных подходов при этом является экспериментальный подбор типа уравнения регрессии по виду полученного корреляционного поля между величинамииили целенаправленный перебор структур уравнений и оценка каждой из них, например, по критерию адекватности. В случае же, когда имеется определенная априорная (доопытная) информация об объекте, более эффективным является использование для этой цели теоретических представлений о процессах и типах связей между изучаемыми параметрами. Такой подход особенно важен, когда необходимо количественное описание и определение причинно – следственных связей.

Например, лишь имея некоторые представления о теории сталеплавильных процессов, можно делать вывод о причинно – следственных связях для зависимости скорости обезуглероживания от расхода вдуваемого в конвертерную ванну кислорода или обессеривающей способности шлака от его основности и окисленности. А, исходя из представлений о гиперболическом характере зависимости содержания кислорода в металле от содержания углерода, можно заранее предположить, что линейное уравнение зависимости скорости обезуглероживания от интенсивности продувки в области низких содержаний углерода (менее 0,2%) будет неадекватно, и таким образом избежать нескольких этапов экспериментального подбора типа уравнения.

После выбора вида уравнения регрессии производится расчет его параметров (коэффициентов), для чего чаще всего используется метод наименьших квадратов , который будет рассмотрен ниже.

Определив уравнение теоретической линии регрессии, необходимо дать количественную оценку тесноты связи между двумя рядами наблюдений. Линии регрессии, проведенные на рис. 4.1, б, в, одинаковы, однако на рис. 4.1, б точки значительно ближе (теснее) расположены к линии регрессии, чем на рис. 4.1, в.

При корреляционном анализе предполагается, что факторы и отклики носят случайный характер и подчиняются нормальному закону распределения.

Тесноту связи между случайными величинами характеризуют корреляци­онным отношением р ху. Остановимся подробнее на физическом смысле данно­го показателя. Для этого введем новые понятия.

Остаточная дисперсия 5^ ост характеризует разброс экспериментально

наблюдаемых точек относительно линии регрессии и представляет собой пока­затель ошибки предсказания параметра у по уравнению регрессии (рис. 4.6):



s2 =f {2 - 12}

и вопрос о доверии к коэффициенту корреляции сводят к доверительным интервалам для случайной величины W, которые определяются стандартными таблицами или формулами.

В отдельных случаях системного анализа приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о множественной корреляции .

Пусть X , Y и Z - случайные величины, по наблюдениям над которыми мы установили их средние M x , M y ,Mz и среднеквадратичные отклонения S x , S y , S z .

Тогда можно найти парные коэффициенты корреляции R xy , R xz , R yz по приведенной выше формуле. Но этого явно недостаточно - ведь мы на каждом из трех этапов попросту забывали о наличии третьей случайной величины! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции - например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

R xy.z = {2 - 13}

И, наконец, можно поставить вопрос - а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции R x.yz , R y.zx , R z.xy , формулы для вычисления которых построены по тем же принципам - учету связи одной из величин со всеми остальными в совокупности.

На сложности вычислений всех описанных показателей корреляционных связей можно не обращать особого внимания - программы для их расчета достаточно просты и имеются в готовом виде во многих ППП современных компьютеров.

Достаточно понять главное - если при формальном описании элемента сложной системы, совокупности таких элементов в виде подсистемы или, наконец, системы в целом, мы рассматриваем связи между отдельными ее частями, - то степень тесноты этой связи в виде влияния одной СВ на другую можно и нужно оценивать на уровне корреляции.

В заключение заметим еще одно - во всех случаях системного анализа на корреляционном уровне обе случайные величины при парной корреляции или все при множественной считаются "равноправными" - т. е. речь идет о взаимном влиянии СВ друг на друга.

Так бывает далеко не всегда - очень часто вопрос о связях Y и X ставится в иной плоскости - одна из величин является зависимой (функцией) от другой (аргумента).