Теснота связи между случайными величинами. Корреляция случайных величин Дисперсия и среднеквадратическое отклонение

В компании работают 10 человек. В табл.2 приведены данные по стажу их работы и

месячному окладу.

Рассчитайте по этим данным

  • - величину оценки выборочной ковариации;
  • - значение выборочного коэффициента корреляции Пирсона;
  • - оцените по полученным значениям направление и силу связи;
  • - определите, насколько правомерно утверждение о том, что данная компания использует японскую модель управления, заключающуюся в предположении, что чем больше времени сотрудник проводит в данной компании, тем выше должен быть у него оклад.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Для расчета параметров регрессии построим расчетную таблицу.

Выборочные средние.

Выборочные дисперсии:

Оценочное уравнение регрессии будет иметь вид

y = bx + a + е,

где ei - наблюдаемые значения (оценки) ошибок еi, а и b соответственно оценки параметров б и в регрессионной модели, которые следует найти.

Для оценки параметров б и в - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a?x + b?x2 = ?y*x

Для наших данных система уравнений имеет вид

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Домножим уравнение (1) системы на (-30.7), получим систему, которую решим методом алгебраического сложения.

  • -307a -9424.9 b = -1022310
  • 307 a + 10857 b = 1127700

Получаем:

1432.1 b = 105390

Откуда b = 73.5912

Теперь найдем коэффициент «a» из уравнения (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73.5912 = 33300
  • 10a = 10707.49

Получаем эмпирические коэффициенты регрессии: b = 73.5912, a = 1070.7492

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 73.5912 x + 1070.7492

Ковариация.

В нашем примере связь между признаком Y фактором X высокая и прямая.

Следовательно, можно смело утверждать, что чем больше времени сотрудник работает в данной компании, тем выше у него оклад.

4. Проверка статистических гипотез. При решении этой задачи первым шагом необходимо сформулировать проверяемую гипотезу и альтернативную ей

Проверка равенства генеральных долей.

Проведено исследование по вопросам успеваемости студентов на двух факультетах. Результаты по вариантам приведены в табл.3. Можно ли утверждать, что на обоих факультетах одинаковый процент отличников?

Простая средняя арифметическая

Проводим проверку гипотезы о равенстве генеральных долей:

Найдём экспериментальное значение критерия Стьюдента:

Число степеней свободы

f = nх + nу - 2 = 2 + 2 - 2 = 2

Определяем значение tkp по таблице распределения Стьюдента

По таблице Стьюдента находим:

Tтабл(f;б/2) = Tтабл(2;0.025) = 4.303

По таблице критических точек распределения Стьюдента при уровне значимости б = 0.05 и данному числу степеней свободы находим tкр = 4.303

Т.к. tнабл > tкр, то нулевая гипотеза отвергается, генеральные доли двух выборок не равны.

Проверка равномерности генерального распределения.

Руководство университета хочет выяснить, как со временем менялась популярность гуманитарного факультета. Анализировалось количество абитуриентов, подавших заявление на этот факультет, по отношению к общему количеству абитуриентов в соответствующем году. (Данные приведены в табл.4). Если считать число абитуриентов репрезентативной выборкой из общего количества выпускников школ года, можно ли утверждать, что интерес школьников к специальностям данного факультета не изменяется с течением времени?

Вариант 4

Решение: Таблица для расчета показателей.

Середина интервала, xi

Накопленная частота, S

Частота, fi/n

Для оценки ряда распределения найдем следующие показатели:

Средняя взвешенная

Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.

R = 2008 - 1988 = 20 Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 2002.66 в среднем на 6.32

Проверка гипотезы о равномерном распределении генеральной совокупности.

Для того чтобы проверить гипотезу о равномерном распределении X,т.е. по закону: f(x) = 1/(b-a) в интервале (a,b) надо:

Оценить параметры a и b - концы интервала, в котором наблюдались возможные значения X, по формулам (через знак * обозначены оценки параметров):

Найти плотность вероятности предполагаемого распределения f(x) = 1/(b* - a*)

Найти теоретические частоты:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона, приняв число степеней свободы k = s-3, где s - число первоначальных интервалов выборки; если же было произведено объединение малочисленных частот, следовательно, и самих интервалов, то s - число интервалов, оставшихся после объединения. Найдем оценки параметров a* и b* равномерного распределения по формулам:

Найдем плотность предполагаемого равномерного распределения:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456

Найдем теоретические частоты:

n1 = n*f(x)(x1 - a*) = 0.77 * 0.0456(1992-1991.71) = 0.0102

n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.

Поэтому критическая область для этой статистики всегда правосторонняя: . Для независимых случайных величин коэффициент корреляции равен нулю, если же, это свидетельствует о наличии линейной функциональной зависимости между переменными.

По аналогии со случайными переменными для случайного вектора так же вводятся количественные характеристики. Таких характеристик две:

1) вектор ожидаемых значений компонент

здесь– случайный вектор;– математические ожидания компонент случайного вектора;

2) ковариационная матрица

(3.15)

Ковариационная матрица одновременно содержит как информацию о степени неопределенности компонент случайного вектора, так и информацию о степени взаимосвязи каждой пары компонент вектора.

В экономике понятие случайного вектора и его характеристики, в частности, нашли применение при анализе операций на фондовом рынке. Известный американский экономист Гарри Марковиц предложил следующий подход. Пусть на фондовом рынке обращаются n рисковых активов . Доходность каждого актива за некоторый период времени есть случайная величина. Вводится вектор доходностей и соответствующий ему вектор ожидаемых доходностей . Вектор ожидаемых доходностей Марковец предложил рассматривать как показатель привлекательности того или иного актива, а элементы главной диагонали ковариационной матрицы – как величину риска для каждого актива. Диагональные элементы отражают величины связи соответствующих пар доходностей, входящих в вектор. Параметрическая модель фондового рынка Марковица получила вид

Эта модель положена в основу теории оптимального портфеля ценных бумаг .

Свойства операций вычисления количественных характеристик случайных переменных

Рассмотрим основные свойства операций вычисления количественных характеристик случайных переменных и случайного вектора.

Операции вычисления математического ожидания:

1) если случайная переменная х = с, где с – константа, то

2) если x и у – случайные переменные, аи–произвольные константы, то

3) если х и у независимые случайные переменные, то

Операции вычисления дисперсии:

1) если случайная переменная х = с, где с – произвольная константа, то

2) если x

3) если х случайная переменная, а с – произвольная константа, то

4) если х и y – случайные переменные, аи – произвольные константы, то

Случайной величиной называется величина, которая в результате опыта может принять то или иное заранее неизвестное значение.

Примерами могут служить: потери и подсосы воздуха, степень усвоения кислорода, неточности взвешивания компонентов шихты, колебания химического состава сырья в связи с недостаточным усреднением и т. д.

Соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения, который количественно выражается в двух формах.

Рис. 5.1 Функция распределения (а) и плотность распределения (б)

Вероятность события , зависящая от значения , называется функцией распределения случайной величины:

. (5.1) есть неубывающая функция (рис. 5.1,а). Значения ее при предельных значениях аргумента равны:и.

Плотность распределения

Чаще используется другая форма закона распределения – плотность распределения случайной величины , являющаяся производной функции распределения:

. (5.2) Тогда вероятность нахождения величины в интервалеиможно выразить через плотность распределения:

. (5.3`) Плотность распределения есть неотрицательная функция (рис. 21,б), площадь под кривой распределения равна единице:

. (5.4) Функция распределения может выражаться через плотность распределения:

. (5.5) Для решения большинства практических задач закон распределения , т. е. полная характеристика случайной величины, неудобен для использования. Поэтому чаще применяют числовые характеристики случайной величины, определяющие основные черты закона распределения . Наиболее распространенными из них являются математическое ожидание и дисперсия (или среднеквадратичное отклонение).

Математическое ожидание

Математическое ожидание случайной величины определяется следующим образом

. (5.6) где

Математическое ожидание случайной величиныобычно оценивается ее средним арифметическим, которое при увеличении числа опытовсходится к математическому ожиданию

. (5.7) где - наблюдаемые значения случайной величины.

Важно отметить, что в случае, если – непрерывно меняющаяся во времени величина (температура свода, стенки, химический состав продуктов горения), то необходимо брать в качестве значения величинызначения величины , разделенные такими интервалами во времени, чтобы их можно было рассматривать как независимые опыты. Практически это сводится к учету инерционности по соответствующим каналам. Способы оценки инерционности объектов будут рассмотрены ниже.

Дисперсия и среднеквадратическое отклонение

Дисперсия определяет рассеяние случайной величины около ее математического ожидания

. (5.8) Оценка дисперсии производится по формуле

. (5.9) а среднеквадратического отклонения по формуле

Коэффициент корреляции

Коэффициент корреляции характеризует степень линейной связи между величинамии, т. е. здесь уже имеем дело с системой случайных величин. Оценка производится по формуле

. (5.10)

Определение ошибок и доверительных интервалов для характеристик случайных величин

Для того, чтобы рассмотренными характеристиками случайных величин можно было пользоваться с определенной надежностью, необходимо кроме указанных оценок вычислить для каждой из них ошибки или доверительные интервалы, которые зависят от степени разброса, числа опытов и заданной доверительной вероятности. Ошибка для математического ожидания приближенно определяется по формуле

. (5.11) где– критерий Стьюдента; выбирается по таблицам в зависимости от заданной доверительной вероятностии числа опытов(например, прии,).

Таким образом, истинное значение математического ожидания с вероятностью находится в доверительном интервале

. (5.12) При заданной точности расчетаи надежности эти же формулы можно использовать для расчета необходимого числа независимых опытов.

Подобным образом определяется и ошибка величин и

. (5.13) Считается, что линейная зависимость междуидействительно существует, если

. или

. (5.14) Например, призависимость между исследуемыми величинами действительно имеет место, если

. (5.15) В противном случае существование зависимости между величинами инедостоверно.

Случайная величина

Определение понятия случайной величины

Форма связи между случайными величинами определяется линией регрессии, показывающей, как в среднем изменяется величина

при изменении величины, что характеризуют условным математическим ожиданиемвеличины, вычисляемым при условии, что величинаприняла определенное значение. Таким образом, кривая регрессиинаесть зависимость условного математического ожидания от известного значения

. (5.16) где,–параметры уравнения (коэффициенты).

Изменения случайной величиныобусловлены изменчивостью стохастически связанной с ней неслучайной величины, а также других факторов, влияющих на, но не зависящих от. Процесс определения уравнения регрессии складывается из двух важнейших этапов: выбора вида уравнения, т. е. задания функции, и расчета параметров уравнения регрессии.

Выбор вида уравнения регрессии

Выбирается этот вид исходя из особенностей изучаемой системы случайных величин. Одним из возможных подходов при этом является экспериментальный подбор типа уравнения регрессии по виду полученного корреляционного поля между величинамииили целенаправленный перебор структур уравнений и оценка каждой из них, например, по критерию адекватности. В случае же, когда имеется определенная априорная (доопытная) информация об объекте, более эффективным является использование для этой цели теоретических представлений о процессах и типах связей между изучаемыми параметрами. Такой подход особенно важен, когда необходимо количественное описание и определение причинно – следственных связей.

Например, лишь имея некоторые представления о теории сталеплавильных процессов, можно делать вывод о причинно – следственных связях для зависимости скорости обезуглероживания от расхода вдуваемого в конвертерную ванну кислорода или обессеривающей способности шлака от его основности и окисленности. А, исходя из представлений о гиперболическом характере зависимости содержания кислорода в металле от содержания углерода, можно заранее предположить, что линейное уравнение зависимости скорости обезуглероживания от интенсивности продувки в области низких содержаний углерода (менее 0,2%) будет неадекватно, и таким образом избежать нескольких этапов экспериментального подбора типа уравнения.

После выбора вида уравнения регрессии производится расчет его параметров (коэффициентов), для чего чаще всего используется метод наименьших квадратов , который будет рассмотрен ниже.