Что является оценкой генеральной дисперсии

18.08.202318.08.2023 admin 0 Comments

Оценка дисперсии случайной ошибки модели регрессии

При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой выборочной оценки.

Несмещённой оценкой дисперсии (или исправленной дисперсией) случайной ошибки линейной модели парной регрессии называется величина, рассчитываемая по формуле:

где n – это объём выборочной совокупности;

еi– остатки регрессионной модели:

Для линейной модели множественной регрессии несмещённая оценка дисперсии случайной ошибки рассчитывается по формуле:

где k – число оцениваемых параметров модели регрессии.

Оценка матрицы ковариаций случайных ошибок Cov(ε) будет являться оценочная матрица ковариаций:

где In – единичная матрица.

Оценка дисперсии случайной ошибки модели регрессии распределена по ε2(хи-квадрат) закону распределения с (n-k-1) степенями свободы.

Для доказательства несмещённости оценки дисперсии случайной ошибки модели регрессии необходимо доказать справедливость равенства

Доказательство. Примем без доказательства справедливость следующих равенств:

где G2(ε) – генеральная дисперсия случайной ошибки;

S2(ε) – выборочная дисперсия случайной ошибки;

– выборочная оценка дисперсии случайной ошибки.

что и требовалось доказать.

Следовательно, выборочная оценка дисперсии случайной ошибки является несмещённой оценкой генеральной дисперсии случайной ошибки модели регрессии G2(ε).

При условии извлечения из генеральной совокупности нескольких выборок одинакового объёма n и при одинаковых значениях объясняющих переменных х, наблюдаемые значения зависимой переменной у будут случайным образом колебаться за счёт случайного характера случайной компоненты β. Отсюда можно сделать вывод, что будут варьироваться и зависеть от значений переменной у значения оценок коэффициентов регрессии и оценка дисперсии случайной ошибки модели регрессии.

Для иллюстрации данного утверждения докажем зависимость значения МНК-оценки от величины случайной ошибки ε.

МНК-оценка коэффициента β₁ модели регрессии определяется по формуле:

В связи с тем, что переменная у зависит от случайной компоненты ε (y_i=β₀+β₁x_i+ε_i), то ковариация между зависимой переменной у и независимой переменной х может быть представлена следующим образом:

Для дальнейших преобразования используются свойства ковариации:

Исходя из указанных свойств ковариации, справедливы следующие равенства:

Следовательно, ковариация между зависимой и независимой переменными Cov(x,y) может быть записана как:

В результате МНК-оценка коэффициента β₁ модели регрессии примет вид:

Таким образом, МНК-оценка может быть представлена как сумма двух компонент:

Однако на практике подобное разложение МНК-оценки невозможно, потому что истинные значения коэффициентов модели регрессии и значения случайной ошибки являются неизвестными. Теоретически данное разложение можно использовать при изучении статистических свойств МНК-оценок.

Аналогично доказывается, что МНК-оценка коэффициента модели регрессии и несмещённая оценка дисперсии случайной ошибки могут быть представлены как сумма постоянной составляющей (константы) и случайной компоненты, зависящей от ошибки модели регрессии ε.

Источник

Генеральная и выборочная дисперсии.

1.Понятия генеральной и выборочной дисперсий и методы их расчета.

2.Оценка генеральной дисперсии по исправленной выборочной.

1.Для того чтобы охарактеризовать рассеяние значений признака генеральной совокупности вокруг своего среднего значения, вводят числовую характеристику, называемую дисперсией.

Пусть изучается дискретная генеральная совокупность относительно количественного признака .

Определение 1. Генеральной дисперсией называют среде арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения признака генеральной совокупности объема различны и равны , то

Если же значения признака имеют соответственно частоты , причем , то

Пример.Генеральная совокупность задана таблицей распределения

	2	4	5	6
	8	9	10	3

Найти генеральную среднюю.

Решение.

Найдем генеральную среднюю.

Найдем генеральную дисперсию.

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются числовой характеристикой, называемой средним квадратическим отклонением.

Определение 2. Генеральным средним квадратическим отклонением называют корень квадратный из генеральной дисперсии и обозначают в виде

Пусть для изучения генеральной совокупности относительно количественного признака произведена выборка объема .

Определение 3. Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемых значений выборки от выборочной средней .

Если все значения признака выборки объема различны, то

Если же значения признака имеют соответственно частоты , причем , то

Пример.Выборочная совокупность задана таблицей распределения

	1	2	3	4
	20	15	10	5

Найти выборочную дисперсию.

Решение.

Найдем выборочную среднюю.

Найти выборочную дисперсию.

Определение 4. Выборочным средним квадратическим отклонением называют корень квадратный из выборочной дисперсии и обозначают в виде

Записанные выше формулы вычисления выборочной и генеральной дисперсии можно упрости, используя следующую теорему.

Теорема:Дисперсия равна разности между средним квадратов значений признака и квадратом общей средней, то есть

, где

и .

Пример.Вычислим дисперсию, пользуясь теоремой, для статистического распределения заданного в предыдущем примере. Найдем выборочное среднее квадратическое отклонение.

Решение.

Общая средняя уже известна .

Найдем среднюю квадратов значений признака:

Тогда и — это среднее отклонение от среднего значения выборки, то есть от числа .

2.Пусть из генеральной совокупности в результате независимых наблюдений над количественным признаком извлечена повторная выборка объема , где — это значения признака и соответствующие им частоты, причем .

Требуется по данным выборки оценить (приближенно найти) неизвестную генеральную дисперсию . Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к ошибкам, давая заниженное значение генеральной дисперсии. Для избежания таких ошибок вводят числовую характеристику, называемую исправленной дисперсией, которую вычисляют по формуле

Итак, в качестве оценки генеральной дисперсии принимают исправленную дисперсию.

Для оценки же среднего квадратического отклонения генеральной совокупности используют исправленное среднее квадратическое отклонение, которое равно корню квадратному из исправленной дисперсии и обозначается в виде

Пример.Найти выборочную и исправленную дисперсии для следующего статистического распределения

	1	2	5	8	9
	3	4	6	4	3

Решение.

Найдем выборочную среднюю.

Найдем выборочную дисперсию по определению.

Тогда .

Источник

5. Размах вариации. Среднее линейное отклонение.
Генеральная и выборочная дисперсия

На предыдущем уроке по математической статистике мы изучили центральные показатели статистической совокупности, а именно моду, медиану, среднюю, и теперь переходим к показателям вариации. Они показывают, КАК варьируются статистические данные, а именно – насколько далеко «разбросаны» варианты относительно средних значений, да и просто друг от друга. В данной статье будут рассмотрены самые популярные показатели, и для опытных читателей сразу оглавление:

и, чтобы не «лепить» километровую простыню, разделю материал на две веб страницы:

Итак, прямо сейчас мы сформулируем определения этих показателей, узнаем соответствующие формулы и, конечно, потренируемся в конкретных вычислениях. Да не просто в конкретных, а в рациональных.

Но прежде систематизируем информацию о том, какие статистические данные могут оказаться в нашем распоряжении:

– они могут быть первичными (не обработанными), грубо говоря – это неупорядоченный список чисел, либо вторичными – это уже сформированный дискретный (Урок 2) или интервальный вариационный ряд (Урок 3).

– рассматриваемая статистическая совокупность может быть генеральной либо выборочной, и чаще, конечно, перед нами выборка.

…что-то не понятно по терминам? Срочно изучать основы предмета (Урок 1)! – это быстро и интересно, ну а я, сколько нужно, вас тут подожду 🙂

Размах вариации

Он уже встречался. Это разность между самым большим и самым малым значением статической совокупности:

при этом не имеет значения, генеральная ли нам дана совокупность или выборочная, сгруппированы ли данные или нет.

Очевидно, что все варианты исследуемой совокупности (той или иной) заключены в отрезке , а размах – есть не что иное, как его длина.

Такой вот простой, надёжный и понятный показатель. Но, несмотря на его элементарность, рассмотрим технику вычисления, и, конечно, это отличный повод размяться:

Дана статистическая совокупность
15, 17, 13, 10, 21, 17, 23, 9, 14, 19

Найти размах вариации

Решить задачу можно несколькими способами.

Способ первый, суровый – продолжаю вас готовить к борьбе с киборгами :)) Это когда под рукой нет вычислительной техники. Или когда она есть, но вы сами понимаете, как важно «прокачать» свои человеческие способности.

Если чисел не так много (наш случай), то максимальное и минимальное значения легко углядеть устно: и размах равен: единиц.

Если чисел больше (20-30 и даже больше), то надёжен следующий алгоритм:

1) Ищем минимальное значение. Сначала самым маленьким будет первое число: 15. Второе число (17) больше, и поэтому его пропускаем. Третье число (13) меньше, чем 15, и теперь 13 – самое малое число. И так далее, пока не закончится список.

2) Ищем максимальное значение. Сначала самым большим будет первое число: 15. Второе число (17) больше и теперь оно становится самым большим. И так далее – до конца списка.

Способ второй, более быстрый (обычно). Использование программного обеспечения, при этом числа можно просто отсортировать (по возрастанию либо убыванию) или использовать специальные функции:

Запишем ответ ед. и с нетерпением перейдём к другим показателям, которые характеризуют степень рассеяния вариант относительно центра совокупности, прежде всего, относительно средней.

О смысле и важности этих показателей я рассказал в курсе теории вероятностей (статья о дисперсии дискретной случайной величины), но коротко повторю и сейчас. Рассмотрим двух студентов, каждый из которых в среднем учится на 3,5 балла. Но есть один нюанс. Один стабильно получает тройки-четвёрки, а другой то пятёрки, то двойки. И поэтому важно знать меру рассеяния оценок относительно средней величины. Чем она меньше – тем стабильнее учится студент.

Эту меру можно оценить следующим образом: из каждой оценки (пусть их будет штук) вычитаем среднее значение . Величина называется отклонением (значения ) от средней.

Теперь эти отклонения нужно просуммировать, но тут появляется проблема: среди разностей есть как положительные, так и отрицательные, и при их суммировании будет происходить взаимоуничтожение отклонений. Более того, итоговая сумма равна нулю: , и мы не получаем желаемого результата.

Вопрос можно решить с помощью модуля, который уничтожает минусы: , после чего осталось разделить сумму на объём совокупности и получить:

среднее линейное отклонение

– есть среднее арифметическое абсолютных отклонений всех значений статистической совокупности от средней. Это формула для несгруппированных статистических данных.

Если же в нашем распоряжении есть сформированный дискретный либо интервальный вариационный ряд, то формула будет такой:

, где – варианты (для дискретного ряда) либо середины частичных интервалов (для интервального ряда), а – соответствующие частоты.

Напоминаю, что маленькая буква обычно используется для выборочной совокупности, а большая – для генеральной: – объём ген. совокупности, – частоты.

И начнём мы с малого:

В результате 10 независимых измерений некоторой величины, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице

Требуется вычислить среднее линейное отклонение

Решение: очевидно, что перед нами первичные данные и выборочная совокупность (теоретически измерений можно провести бесконечно много). На первом шаге вычислим выборочную среднюю:

Теперь находим модули отклонений от средней:

…
и так далее до:

Вычисления удобно проводить на калькуляторе или в Экселе, а результаты заносить в таблицу:

На завершающем этапе рассчитываем сумму модулей:
и среднее линейное отклонение:
ед. – оно означает, что измеренные значения в среднем отличаются от примерно на 0,6 ед.

Но помимо этого, для оценки рассеяния вариант относительно средней существует более совершенный и распространённый подход. Он состоит в том, чтобы использовать не модули, а возведение отклонений в квадрат: (чтобы ликвидировать встречающиеся отрицательные значения).

Генеральная и выборочная дисперсия

Дисперсия с латыни так и переводится – рассеяние.

…не сломать бы язык 🙂 …так… Выборочная дисперсия – это среднее арифметическое квадратов отклонений всех вариант выборки от её средней:
– для несгруппированных данных, и:

– для сформированного вариационного ряда, где – кратные (одинаковые по значению) варианты в дискретном случае либо середины частичных интервалов – в интервальном, и – соответствующие частоты.

Еще раз не спеша и ОСМЫСЛЕННО прочитайте определение и выполните

Сформулировать и записать (на бумагу!) определение генеральной дисперсии и соответствующие формулы.

Свериться можно, как обычно, в конце урока.

После чего следует

продолжение Примера 13

По тем же исходным данным вычислить выборочную дисперсию

Без проблем. Вместо модулей рассчитываем квадраты отклонений:

заполняем табличку:

и порядок:
квадратных (!) единиц – коль скоро, мы возводили в квадрат. И, чтобы вернуться в размерность задачи, из дисперсии следует извлечь корень. Но мы не будем торопить события, лучше посмотрим, как выполнять вычисления в Экселе:

Ответ:

Разобранная задача де-факто встречается в лабораторных работах по физике (да и не только) – когда некоторая величина замеряется раз 10 и затем рассчитывается среднее значение.

А теперь представьте, что вся ваша группа выполняет лабу по физике, и каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех получились несколько разные выборочные значения , но все они без какой-либо закономерности (в общем случае) будут варьироваться вокруг истинного значения показателя (роль генеральной средней может играть некий теоретический эталон). Это свойство (отсутствие закономерности) называется несмещённостью оценки генеральной средней, и справедливо оно, как мы увидим ниже, не для всех показателей.

Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти показатели ниже, тот качественнее проводит опыты (плавнее выполняет действия, точнее снимает показания с приборов, засекает время и т.п.). В идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм ситуации порождает генеральное линейное отклонение и генеральную дисперсию, которые обусловлены человеческим фактором, погрешностью приборов и так далее – вплоть до магнитных бурь.

В случае с полученными линейными отклонениями – всё то же самое, они будут безо всякой закономерности варьироваться вокруг генерального значения . Но вот с дисперсией всё не так. Полученные значения выборочной дисперсии будут давать систематически заниженную оценку генеральной дисперсии . И поэтому выборочную дисперсию следует «поправить» по формуле:

– желающие могут найти обоснование этого факта и этой формулы в специализированной литературе по математической статистике.

Показатель так и называется – исправленная выборочная дисперсия, и вот она уже является несмещённой оценкой генеральной дисперсии.

Таким образом, каждый студент должен поправить свою дисперсию, в частности, для Примера 13:

Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой поправкой можно пренебречь, так как при дробь стремится к единице и .

И иногда дисперсию можно вовсе не поправлять. Так, в разобранном примере от нас требовалось просто вычислить выборочную дисперсию и всё. А если хочется что-то додумать, то пусть этого захочет преподаватель 🙂 Но вот если дисперсия будет «участвовать» в дальнейших действиях, то, конечно, приводим её к виду .

Более того, встречаются задачи, где вообще не понятно – выборочная ли дана совокупность или генеральная, и тогда разумно проявить аккуратность и использовать обозначения без подстрочных индексов, в частности, и .

Теперь случай, когда дан готовый вариационный ряд. У меня опять есть подходящая советская задача про телефонную станцию, но я скорректирую условие в соответствии с современными реалиями:

В результате выборочного исследования звонков, статистик МТС получил следующие данные (за некоторый временной промежуток):

…у ОпСоСов, как известно, своя статистика – с округлением до ближайшей целой минуты :), впрочем, это тоже устареет…, как метко заметил современник, дети дружно играли во дворе – каждый в своём смартфоне(

Найти размах вариации, среднее линейное отклонение и выборочную дисперсию. Дать несмещённую оценку генеральной дисперсии и пояснить, что это означает.

Решить данную задачу в Экселе (данные и гайд уже там) либо на бумаге с помощью калькулятора.

Краткое решение и ответ совсем близко, поскольку 1-я часть урока подошла к концу, и я жду вас во 2-й части, где мы рассмотрим формулу для вычисления дисперсии, среднее квадратическое отклонение и коэффициент вариации.

Задание. Генеральная дисперсия – это среднее арифметическое квадратов отклонений всех вариант генеральной совокупности от её средней:
, где – объём генеральной совокупности.
Для сформированного вариационного ряда формула принимает вид:
, где – либо варианты дискретного ряда, либо середины частичных интервалов интервального ряда, а – соответствующие частоты.

Пример 14. Решение: найдём размах вариации: мин.

Вычислим объём совокупности , произведения , их сумму и выборочную среднюю мин.
Рассчитаем , произведения и их суммы:

Среднее линейное отклонение:
мин.
Выборочная дисперсия:
мин. в квадрате.
Несмещённой оценкой генеральной дисперсии является исправленная выборочная дисперсия:
мин. в квадрате.
Несмещённость означает, что если в схожих условиях проводить аналогичные выборки, то полученные значения будут безо всякой закономерности варьироваться вокруг генерального значения .