Что является оценкой генеральной дисперсии
Оценка дисперсии случайной ошибки модели регрессии
При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой выборочной оценки.
Несмещённой оценкой дисперсии (или исправленной дисперсией) случайной ошибки линейной модели парной регрессии называется величина, рассчитываемая по формуле:
где n – это объём выборочной совокупности;
еi– остатки регрессионной модели:
Для линейной модели множественной регрессии несмещённая оценка дисперсии случайной ошибки рассчитывается по формуле:
где k – число оцениваемых параметров модели регрессии.
Оценка матрицы ковариаций случайных ошибок Cov(ε) будет являться оценочная матрица ковариаций:
где In – единичная матрица.
Оценка дисперсии случайной ошибки модели регрессии распределена по ε2(хи-квадрат) закону распределения с (n-k-1) степенями свободы.
Для доказательства несмещённости оценки дисперсии случайной ошибки модели регрессии необходимо доказать справедливость равенства
Доказательство. Примем без доказательства справедливость следующих равенств:
где G2(ε) – генеральная дисперсия случайной ошибки;
S2(ε) – выборочная дисперсия случайной ошибки;

что и требовалось доказать.
Следовательно, выборочная оценка дисперсии случайной ошибки 
При условии извлечения из генеральной совокупности нескольких выборок одинакового объёма n и при одинаковых значениях объясняющих переменных х, наблюдаемые значения зависимой переменной у будут случайным образом колебаться за счёт случайного характера случайной компоненты β. Отсюда можно сделать вывод, что будут варьироваться и зависеть от значений переменной у значения оценок коэффициентов регрессии и оценка дисперсии случайной ошибки модели регрессии.
Для иллюстрации данного утверждения докажем зависимость значения МНК-оценки 
МНК-оценка коэффициента β1 модели регрессии определяется по формуле:
В связи с тем, что переменная у зависит от случайной компоненты ε (yi=β0+β1xi+εi), то ковариация между зависимой переменной у и независимой переменной х может быть представлена следующим образом:
Для дальнейших преобразования используются свойства ковариации:
Исходя из указанных свойств ковариации, справедливы следующие равенства:
Следовательно, ковариация между зависимой и независимой переменными Cov(x,y) может быть записана как:
В результате МНК-оценка коэффициента β1 модели регрессии примет вид:
Таким образом, МНК-оценка 
Однако на практике подобное разложение МНК-оценки невозможно, потому что истинные значения коэффициентов модели регрессии и значения случайной ошибки являются неизвестными. Теоретически данное разложение можно использовать при изучении статистических свойств МНК-оценок.
Аналогично доказывается, что МНК-оценка 

Генеральная и выборочная дисперсии.
1.Понятия генеральной и выборочной дисперсий и методы их расчета.
2.Оценка генеральной дисперсии по исправленной выборочной.
1.Для того чтобы охарактеризовать рассеяние значений признака 
Пусть изучается дискретная генеральная совокупность относительно количественного признака 
Определение 1. Генеральной дисперсией 

Если все значения признака генеральной совокупности 



Если же значения признака 



Пример.Генеральная совокупность задана таблицей распределения
![]() | 2 | 4 | 5 | 6 |
![]() | 8 | 9 | 10 | 3 |
Найти генеральную среднюю.
Решение.
Найдем генеральную среднюю.

Найдем генеральную дисперсию.

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются числовой характеристикой, называемой средним квадратическим отклонением.
Определение 2. Генеральным средним квадратическим отклонением называют корень квадратный из генеральной дисперсии и обозначают в виде

Пусть для изучения генеральной совокупности относительно количественного признака 

Определение 3. Выборочной дисперсией 

Если все значения признака 


Если же значения признака 



Пример.Выборочная совокупность задана таблицей распределения
![]() | 1 | 2 | 3 | 4 |
![]() | 20 | 15 | 10 | 5 |
Найти выборочную дисперсию.
Решение.
Найдем выборочную среднюю.

Найти выборочную дисперсию.

Определение 4. Выборочным средним квадратическим отклонением называют корень квадратный из выборочной дисперсии и обозначают в виде

Записанные выше формулы вычисления выборочной и генеральной дисперсии можно упрости, используя следующую теорему.
Теорема:Дисперсия равна разности между средним квадратов значений признака и квадратом общей средней, то есть



Пример.Вычислим дисперсию, пользуясь теоремой, для статистического распределения заданного в предыдущем примере. Найдем выборочное среднее квадратическое отклонение.
Решение.
Общая средняя уже известна 
Найдем среднюю квадратов значений признака:

Тогда 


2.Пусть из генеральной совокупности в результате 






Требуется по данным выборки оценить (приближенно найти) неизвестную генеральную дисперсию 

Итак, в качестве оценки генеральной дисперсии принимают исправленную дисперсию.
Для оценки же среднего квадратического отклонения генеральной совокупности используют исправленное среднее квадратическое отклонение, которое равно корню квадратному из исправленной дисперсии и обозначается в виде

Пример.Найти выборочную и исправленную дисперсии для следующего статистического распределения
![]() | 1 | 2 | 5 | 8 | 9 |
![]() | 3 | 4 | 6 | 4 | 3 |
Решение.
Найдем выборочную среднюю.

Найдем выборочную дисперсию по определению.

Тогда 
5. Размах вариации. Среднее линейное отклонение.
Генеральная и выборочная дисперсия
На предыдущем уроке по математической статистике мы изучили центральные показатели статистической совокупности, а именно моду, медиану, среднюю, и теперь переходим к показателям вариации. Они показывают, КАК варьируются статистические данные, а именно – насколько далеко «разбросаны» варианты относительно средних значений, да и просто друг от друга. В данной статье будут рассмотрены самые популярные показатели, и для опытных читателей сразу оглавление:
и, чтобы не «лепить» километровую простыню, разделю материал на две веб страницы:
Итак, прямо сейчас мы сформулируем определения этих показателей, узнаем соответствующие формулы и, конечно, потренируемся в конкретных вычислениях. Да не просто в конкретных, а в рациональных.
Но прежде систематизируем информацию о том, какие статистические данные могут оказаться в нашем распоряжении:
– они могут быть первичными (не обработанными), грубо говоря – это неупорядоченный список чисел, либо вторичными – это уже сформированный дискретный (Урок 2) или интервальный вариационный ряд (Урок 3).
– рассматриваемая статистическая совокупность может быть генеральной либо выборочной, и чаще, конечно, перед нами выборка.
…что-то не понятно по терминам? Срочно изучать основы предмета (Урок 1)! – это быстро и интересно, ну а я, сколько нужно, вас тут подожду 🙂
Размах вариации
Он уже встречался. Это разность между самым большим и самым малым значением статической совокупности:
при этом не имеет значения, генеральная ли нам дана совокупность или выборочная, сгруппированы ли данные или нет.
Очевидно, что все варианты 


Такой вот простой, надёжный и понятный показатель. Но, несмотря на его элементарность, рассмотрим технику вычисления, и, конечно, это отличный повод размяться:
Дана статистическая совокупность
15, 17, 13, 10, 21, 17, 23, 9, 14, 19
Найти размах вариации
Решить задачу можно несколькими способами.
Способ первый, суровый – продолжаю вас готовить к борьбе с киборгами :)) Это когда под рукой нет вычислительной техники. Или когда она есть, но вы сами понимаете, как важно «прокачать» свои человеческие способности.
Если чисел не так много (наш случай), то максимальное и минимальное значения легко углядеть устно: 

Если чисел больше (20-30 и даже больше), то надёжен следующий алгоритм:
1) Ищем минимальное значение. Сначала самым маленьким будет первое число: 15. Второе число (17) больше, и поэтому его пропускаем. Третье число (13) меньше, чем 15, и теперь 13 – самое малое число. И так далее, пока не закончится список.
2) Ищем максимальное значение. Сначала самым большим будет первое число: 15. Второе число (17) больше и теперь оно становится самым большим. И так далее – до конца списка.
Способ второй, более быстрый (обычно). Использование программного обеспечения, при этом числа можно просто отсортировать (по возрастанию либо убыванию) или использовать специальные функции:
Запишем ответ 
О смысле и важности этих показателей я рассказал в курсе теории вероятностей (статья о дисперсии дискретной случайной величины), но коротко повторю и сейчас. Рассмотрим двух студентов, каждый из которых в среднем учится на 3,5 балла. Но есть один нюанс. Один стабильно получает тройки-четвёрки, а другой то пятёрки, то двойки. И поэтому важно знать меру рассеяния оценок относительно средней величины. Чем она меньше – тем стабильнее учится студент.
Эту меру можно оценить следующим образом: из каждой оценки 




Теперь эти отклонения нужно просуммировать, но тут появляется проблема: среди разностей 

Вопрос можно решить с помощью модуля, который уничтожает минусы: 

среднее линейное отклонение

Если же в нашем распоряжении есть сформированный дискретный либо интервальный вариационный ряд, то формула будет такой:



Напоминаю, что маленькая буква 


И начнём мы с малого:
В результате 10 независимых измерений некоторой величины, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице
Требуется вычислить среднее линейное отклонение
Решение: очевидно, что перед нами первичные данные и выборочная совокупность (теоретически измерений можно провести бесконечно много). На первом шаге вычислим выборочную среднюю:
Теперь находим модули отклонений от средней: 
…
и так далее до:
Вычисления удобно проводить на калькуляторе или в Экселе, а результаты заносить в таблицу:
На завершающем этапе рассчитываем сумму модулей:




Но помимо этого, для оценки рассеяния вариант относительно средней существует более совершенный и распространённый подход. Он состоит в том, чтобы использовать не модули, а возведение отклонений в квадрат: 
Генеральная и выборочная дисперсия
Дисперсия с латыни так и переводится – рассеяние.
…не сломать бы язык 🙂 …так… Выборочная дисперсия – это среднее арифметическое квадратов отклонений всех вариант выборки от её средней:




Еще раз не спеша и ОСМЫСЛЕННО прочитайте определение и выполните
Сформулировать и записать (на бумагу!) определение генеральной дисперсии и соответствующие формулы.
Свериться можно, как обычно, в конце урока.
После чего следует
продолжение Примера 13
По тем же исходным данным вычислить выборочную дисперсию
Без проблем. Вместо модулей рассчитываем квадраты отклонений:
заполняем табличку: 
и порядок:

Ответ:
Разобранная задача де-факто встречается в лабораторных работах по физике (да и не только) – когда некоторая величина замеряется раз 10 и затем рассчитывается среднее значение.
А теперь представьте, что вся ваша группа выполняет лабу по физике, и каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех получились несколько разные выборочные значения 

Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти показатели ниже, тот качественнее проводит опыты (плавнее выполняет действия, точнее снимает показания с приборов, засекает время и т.п.). В идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм ситуации порождает генеральное линейное отклонение 

В случае с полученными линейными отклонениями 




Показатель 
Таким образом, каждый студент должен поправить свою дисперсию, в частности, для Примера 13:
Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой поправкой можно пренебречь, так как при 


И иногда дисперсию можно вовсе не поправлять. Так, в разобранном примере от нас требовалось просто вычислить выборочную дисперсию и всё. А если хочется что-то додумать, то пусть этого захочет преподаватель 🙂 Но вот если дисперсия будет «участвовать» в дальнейших действиях, то, конечно, приводим её к виду 
Более того, встречаются задачи, где вообще не понятно – выборочная ли дана совокупность или генеральная, и тогда разумно проявить аккуратность и использовать обозначения без подстрочных индексов, в частности, 

Теперь случай, когда дан готовый вариационный ряд. У меня опять есть подходящая советская задача про телефонную станцию, но я скорректирую условие в соответствии с современными реалиями:
В результате выборочного исследования звонков, статистик МТС получил следующие данные (за некоторый временной промежуток): 
…у ОпСоСов, как известно, своя статистика – с округлением до ближайшей целой минуты :), впрочем, это тоже устареет…, как метко заметил современник, дети дружно играли во дворе – каждый в своём смартфоне(
Найти размах вариации, среднее линейное отклонение и выборочную дисперсию. Дать несмещённую оценку генеральной дисперсии и пояснить, что это означает.
Решить данную задачу в Экселе (данные и гайд уже там) либо на бумаге с помощью калькулятора.
Краткое решение и ответ совсем близко, поскольку 1-я часть урока подошла к концу, и я жду вас во 2-й части, где мы рассмотрим формулу для вычисления дисперсии, среднее квадратическое отклонение и коэффициент вариации.
Задание. Генеральная дисперсия – это среднее арифметическое квадратов отклонений всех вариант генеральной совокупности от её средней: 

Для сформированного вариационного ряда формула принимает вид: 


Пример 14. Решение: найдём размах вариации: 
Вычислим объём совокупности 


Рассчитаем 


Среднее линейное отклонение:

Выборочная дисперсия:

Несмещённой оценкой генеральной дисперсии является исправленная выборочная дисперсия:

Несмещённость означает, что если в схожих условиях проводить аналогичные выборки, то полученные значения 

Ответ:
Автор: Емелин Александр
(Переход на главную страницу)

cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5

























