Число параметров уравнения регрессии

Определение параметров уравнения регрессии

Для определения параметров уравнения регрессии применяют метод наименьших квадратов (МНК). Метод был предложен К. Гауссом (1777 – 1855) и А. М. Лежандром (1752 – 1833) независимо друг от друга.

Сущность метода наименьших квадратов заключается в том, что отыскиваются такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических будет наименьшей из всех возможных, т.е.

Число параметров уравнения регрессии, (8.5)

где у – фактические значения результативного признака;

Число параметров уравнения регрессии– теоретические значения результативного признака.

Для нахождения минимума функции следует приравнять к нулю частные производные по Число параметров уравнения регрессиии Число параметров уравнения регрессии:

Число параметров уравнения регрессиии Число параметров уравнения регрессии.(8.6)

Рассмотрим, как определяются параметры уравнения регрессии для различных видов аналитических функций.

1. Уравнение прямой:

Число параметров уравнения регрессии,(8.7)

где Число параметров уравнения регрессии– теоретическое значение результативного признака;

Число параметров уравнения регрессии–значениефакторного признака;

Число параметров уравнения регрессиии Число параметров уравнения регрессии–параметры уравнения прямой;

Число параметров уравнения регрессии–коэффициент регрессии(пропорциональности), характеризующий изменение среднего значения результативного признака при изменении факторного признака на единицу собственного измерения.

Число параметров уравнения регрессии,(8.8)

Число параметров уравнения регрессии(8.9)

После преобразования получим систему нормальных уравнений:

Число параметров уравнения регрессии(8.10)

Число параметров уравнения регрессии(8.11)

гдеn– число пар взаимосвязанных признаков.

По эмпирическим данным необходимо рассчитать все приведенные в формулах суммы и подставив их в систему уравнений, найти параметры искомой прямой.

Систему можно решить методом определителей:

Число параметров уравнения регрессии; (8.12)

Число параметров уравнения регрессии; (8.13)

Число параметров уравнения регрессии. (8.14)

Значения параметров Число параметров уравнения регрессиии Число параметров уравнения регрессииподставляют в уравнение регрессии и находят теоретические значения результативного признака, которые показывают, каким теоретически должен быть средний размер результативного признака при данном размере факторного признака.

Пример 8.1. Построим линейное уравнение регрессии по данным табл. 8.1 и определим зависимость объема продукции от стоимости основных производственных фондов.

Расчетная таблица для определения параметров

Линейного уравнения регрессии

Номер пред-приятияОбъем продукции, млн. руб. Число параметров уравнения регрессииСтоимость основных производственных фондов, млн. руб. Число параметров уравнения регрессии Число параметров уравнения регрессии Число параметров уравнения регрессии Число параметров уравнения регрессии Число параметров уравнения регрессии
12,04,520,2554,00144,0012,48
12,74,722,0959,69161,2912,71
13,24,924,0164,68174,2412,94
14,05,227,0472,80196,0013,29
13,86,036,0082,80190,4414,23
15,06,542,2597,50225,0014,81
15,56,846,24105,40240,2515,16
14,87,251,84106,56219,0415,62
16,47,962,41129,56268,9616,44
18,09,081,00162,00324,0017,72
Итого145,462,7413,13934,992143,22145,4

1. Линейное уравнениерегрессии:

Число параметров уравнения регрессии.

2. Система нормальных уравнений:

Число параметров уравнения регрессии

3. Определение параметров линейного уравнения регрессии:

Число параметров уравнения регрессии

Поделим каждое уравнение на соответствующие коэффициенты при Число параметров уравнения регрессии: первое уравнение – на 10, второе – на 62,7:

Число параметров уравнения регрессии

Вычтем из второго уравнения первое. Получим:

Число параметров уравнения регрессии;

Число параметров уравнения регрессии; Число параметров уравнения регрессии.

Число параметров уравнения регрессии;

Число параметров уравнения регрессии.

Линейное уравнение регрессии в числовом виде:

Число параметров уравнения регрессии.

Коэффициент регрессии ( Число параметров уравнения регрессии) показывает, что при увеличении стоимости основных производственных фондов на 1 млн. руб. объем продукции в среднем будет увеличиваться на 1,167 млн. руб.

Измерение тесноты связи

Для измерения тесноты связи при линейной зависимости используются: линейный коэффициент корреляции, коэффициент детерминации и коэффициент эластичности.

1. Линейный коэффициент корреляции. В 1889 г. Френсис Гальтон высказал мысль о коэффициенте, который мог бы измерить тесноту связи. В начале 90-х годов XІX в. К. Пирсон, Ф. Эджворт и Велдон получили формулу коэффициента корреляции.

Линейным коэффициентом корреляцииназывается среднее произведение отклонений вариантов взаимосвязанных признаков от их средних величин, разделенное на произведение их средних квадратических отклонений.

Число параметров уравнения регрессии.(8.21)

Число параметров уравнения регрессии,(8.22)

где Число параметров уравнения регрессии; Число параметров уравнения регрессии; Число параметров уравнения регрессии;

Число параметров уравнения регрессии; Число параметров уравнения регрессии.

Число параметров уравнения регрессии;(8.23)

Число параметров уравнения регрессии;

Число параметров уравнения регрессии.(8.24)

Число параметров уравнения регрессии.(8.25)

Четвертая формула.Коэффициент корреляции можно выразить через коэффициент регрессии:

Число параметров уравнения регрессии.(8.26)

Решим в общем виде систему нормальных уравнений:

Число параметров уравнения регрессии(8.27)

Поделим каждое уравнение на n:

Число параметров уравнения регрессии(8.28)

Поделим второе уравнение на Число параметров уравнения регрессии:

Число параметров уравнения регрессии(8.29)

Вычтем из второго уравнения первое:

Число параметров уравнения регрессии.(8.30)

Определим параметр Число параметров уравнения регрессии(коэффициент регрессии):

Число параметров уравнения регрессии;(8.31)

Число параметров уравнения регрессии.(8.32)

Выразим коэффициент корреляцииrчерез коэффициент регрессии Число параметров уравнения регрессии:

Число параметров уравнения регрессии.(8.33)

Выведем дополнительные формулы для определения параметров уравнения регрессии. Для этого:

— выразим коэффициент регрессии Число параметров уравнения регрессиичерез коэффициент корреляции r:

Число параметров уравнения регрессии.(8.34)

— из первого уравнения системы уравнений (8.29) найдем параметрЧисло параметров уравнения регрессии:

Число параметров уравнения регрессии.(8.35)

Параметры линейного уравнения регрессии можно определить по формулам:

Число параметров уравнения регрессии;(8.36)

Число параметров уравнения регрессии.(8.37)

Линейный коэффициент корреляции изменяется в пределах:

Число параметров уравнения регрессии. (8.38)

Если r = 0 – связь между признаками отсутствует;

r = Число параметров уравнения регрессии1 – связь между признаками функциональная;

Источник

Корреляция и регрессия

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

1. Параметры уравнения регрессии.
Выборочные средние.

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε) где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895

Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Число параметров уравнения регрессии

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Число параметров уравнения регрессиитакая, что сумма квадратов разностей Число параметров уравнения регрессииминимальна.

Число параметров уравнения регрессии

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Число параметров уравнения регрессии, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Число параметров уравнения регрессиивокруг регрессии Число параметров уравнения регрессииявляется дисперсия.

Число параметров уравнения регрессии

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Число параметров уравнения регрессии

В матричном виде это выгладит

Число параметров уравнения регрессии

Число параметров уравнения регрессии

Случайная величина Число параметров уравнения регрессииможет быть интерпретирована как сумма из двух слагаемых:

Число параметров уравнения регрессии

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Число параметров уравнения регрессии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Число параметров уравнения регрессии

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Число параметров уравнения регрессии

В этой формуле Число параметров уравнения регрессии— коэффициент взаимной детерминации между Число параметров уравнения регрессиии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Число параметров уравнения регрессии

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *