Эффективная оценка параметров классической линейной регрессионной модели оценка

Оценка результатов линейной регрессии

Введение

Модель линейной регрессии

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов. И аналитическое решение, которое можно получить, применив этот метод, выглядит так:
Эффективная оценка параметров классической линейной регрессионной модели оценка
где b с крышкой — оценка вектора коэффициентов, y — вектор значений зависимой величины, а X — матрица размера k x n+1 (n — количество предикторов, k — количество наблюдений), у которой первый столбец состоит из единиц, второй — значения первого предиктора, третий — второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:

Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species — количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее — самое интересное — информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:
Эффективная оценка параметров классической линейной регрессионной модели оценка
при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b — реальный вектор коэффициентов, а эпсилон с крышкой — вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:
Эффективная оценка параметров классической линейной регрессионной модели оценка
где
Эффективная оценка параметров классической линейной регрессионной модели оценка— стандартная ошибка оценки коэффициента, а t(k-n-1) — распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F — функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:
Эффективная оценка параметров классической линейной регрессионной модели оценка
где Yi — реальные значения Y в каждом наблюдении, Yi с крышкой — значения, предсказанные моделью, Y с чертой — среднее по всем реальным значениям Yi.
Эффективная оценка параметров классической линейной регрессионной модели оценка

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама. Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет — то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:

Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет распределение Фишера c n и k-n-1 степенями свободы:
Эффективная оценка параметров классической линейной регрессионной модели оценка
Значение F-статистики и p-значение для нее находятся в последней строке вывода функции summary.lm().

Заключение

В этой статье были описаны стандартные методы оценки значимости коэффициентов и некоторые критерии оценки качества построенной линейной модели. К сожалению, я не касался вопроса рассмотрения распределения остатков и проверки его на нормальность, поскольку это увеличило бы статью еще вдвое, хотя это и достаточно важный элемент проверки адекватности модели.
Очень надеюсь что мне удалось немного расширить стандартное представление о линейной регрессии, как об алгоритме который просто оценивает некоторый вид зависимости, и показать, как можно оценить его результаты.

Источник

Оценка параметров линейной регрессии

Линейная регрессия сводится к нахождению уравнения вида:

Эффективная оценка параметров классической линейной регрессионной модели оценка(или Эффективная оценка параметров классической линейной регрессионной модели оценка).(3)
Эффективная оценка параметров классической линейной регрессионной модели оценка

Рис. 2.1. График линии регрессии

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x. На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии (рис. 2.1).

Построение линейной регрессии сводится к оценке ее параметров а и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений Эффективная оценка параметров классической линейной регрессионной модели оценкаот теоретических Эффективная оценка параметров классической линейной регрессионной модели оценкаминимальна:

Эффективная оценка параметров классической линейной регрессионной модели оценкаили Эффективная оценка параметров классической линейной регрессионной модели оценка.(4)

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.

Эффективная оценка параметров классической линейной регрессионной модели оценка

Эффективная оценка параметров классической линейной регрессионной модели оценка(5)

Преобразуем, получаем систему нормальных уравнений:

Эффективная оценка параметров классической линейной регрессионной модели оценка(6)

Эффективная оценка параметров классической линейной регрессионной модели оценка(7)

Эффективная оценка параметров классической линейной регрессионной модели оценка. (8)

Выражение (7) можно записать в другом виде:

Эффективная оценка параметров классической линейной регрессионной модели оценка(9)

где Эффективная оценка параметров классической линейной регрессионной модели оценкаковариация признаков, Эффективная оценка параметров классической линейной регрессионной модели оценкадисперсия фактора x.

Параметр b называется коэффициентом регрессии.Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально a – значение y при x = 0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

Эффективная оценка параметров классической линейной регрессионной модели оценка.(12)

Величина Эффективная оценка параметров классической линейной регрессионной модели оценкахарактеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели факторов.

2.3. Предпосылки МНК (условия Гаусса-Маркова)

Связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса-Маркова):

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: Эффективная оценка параметров классической линейной регрессионной модели оценка.

2. Дисперсия случайных отклонений постоянна: Эффективная оценка параметров классической линейной регрессионной модели оценка.

3. Случайные отклонения εi и εj являются независимыми друг от друга для Эффективная оценка параметров классической линейной регрессионной модели оценка:

Эффективная оценка параметров классической линейной регрессионной модели оценка

Выполнимость этого условия называется отсутствием автокорреляции.

4. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова: оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, при выполнении условий ГауссаМаркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi.

Именно понимание важности условий ГауссаМаркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

2.4. Оценка существенности параметров линейной
регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза Эффективная оценка параметров классической линейной регрессионной модели оценкао том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения Эффективная оценка параметров классической линейной регрессионной модели оценкараскладывается на две части – объясненную и необъясненную:

Эффективная оценка параметров классической линейной регрессионной модели оценка(13)

Необъясненная (остаточная) СКО

или, соответственно:

Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и Эффективная оценка параметров классической линейной регрессионной модели оценка.

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Но на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Для общей СКО требуется Эффективная оценка параметров классической линейной регрессионной модели оценканезависимых отклонений, т. к. Эффективная оценка параметров классической линейной регрессионной модели оценкачто позволяет свободно варьировать Эффективная оценка параметров классической линейной регрессионной модели оценказначений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому Эффективная оценка параметров классической линейной регрессионной модели оценка.

Факторную СКО можно выразить так:

Эффективная оценка параметров классической линейной регрессионной модели оценка

Эта СКО зависит только от одного параметра b, поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и Эффективная оценка параметров классической линейной регрессионной модели оценка

Для определения Эффективная оценка параметров классической линейной регрессионной модели оценкавоспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Эффективная оценка параметров классической линейной регрессионной модели оценка(14)

Таким образом, можем записать Эффективная оценка параметров классической линейной регрессионной модели оценка. Из этого баланса определяем, что Эффективная оценка параметров классической линейной регрессионной модели оценка

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений,или дисперсию на одну степень свободы:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (15)

Эффективная оценка параметров классической линейной регрессионной модели оценка. (16)

Эффективная оценка параметров классической линейной регрессионной модели оценка. (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F-критерий для проверки нулевой гипотезы, которая в данном случае записывается как Эффективная оценка параметров классической линейной регрессионной модели оценка

Эффективная оценка параметров классической линейной регрессионной модели оценка(18)

Если Эффективная оценка параметров классической линейной регрессионной модели оценкасправедлива, то дисперсии не отличаются друг от друга. Для Эффективная оценка параметров классической линейной регрессионной модели оценканеобходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Снедекором и различных числах степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

При нахождении табличного значения F-критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная Эффективная оценка параметров классической линейной регрессионной модели оценка

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. Эффективная оценка параметров классической линейной регрессионной модели оценка(α;1; Эффективная оценка параметров классической линейной регрессионной модели оценка). В этом случае Эффективная оценка параметров классической линейной регрессионной модели оценкаотклоняется и делается вывод о существенности превышения Dфакт над Dостат., т. е. о существенности статистической связи между y и x.

Если Эффективная оценка параметров классической линейной регрессионной модели оценка, то вероятность Эффективная оценка параметров классической линейной регрессионной модели оценкавыше заданного уровня (например: 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, Эффективная оценка параметров классической линейной регрессионной модели оценкане отклоняется.

Величина F-критерия связана с коэффициентом детерминации.

Эффективная оценка параметров классической линейной регрессионной модели оценка, (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (20)

Эффективная оценка параметров классической линейной регрессионной модели оценка— остаточная дисперсия на одну степень свободы (то же, что и Эффективная оценка параметров классической линейной регрессионной модели оценка).

Величина стандартной ошибки совместно с t-распределением Стьюдента при Эффективная оценка параметров классической линейной регрессионной модели оценкастепенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t-критерия Стьюдента

Эффективная оценка параметров классической линейной регрессионной модели оценка, (21)

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы Эффективная оценка параметров классической линейной регрессионной модели оценка. Здесь проверяется нулевая гипотеза в виде Эффективная оценка параметров классической линейной регрессионной модели оценкатакже предполагающая несущественность статистической связи между y и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Но общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если Эффективная оценка параметров классической линейной регрессионной модели оценка(α; Эффективная оценка параметров классической линейной регрессионной модели оценка), то гипотеза Эффективная оценка параметров классической линейной регрессионной модели оценкадолжна быть отклонена, а статистическая связь y с х считается установленной. В случае Эффективная оценка параметров классической линейной регрессионной модели оценка(α; Эффективная оценка параметров классической линейной регрессионной модели оценка) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

Существует связь между Эффективная оценка параметров классической линейной регрессионной модели оценкаи F:

Эффективная оценка параметров классической линейной регрессионной модели оценка

Отсюда следует, что

Эффективная оценка параметров классической линейной регрессионной модели оценка. (22)

Доверительный интервал для b определяется как

Эффективная оценка параметров классической линейной регрессионной модели оценка(23)

где Эффективная оценка параметров классической линейной регрессионной модели оценка– рассчитанное (оцененное) по МНК значение коэффициента регрессии.

Стандартная ошибка параметра Эффективная оценка параметров классической линейной регрессионной модели оценкаопределяется по формуле:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (24)

Процедура оценивания существенности a не отличается от таковой для параметра b. При этом фактическое значение t-критерия вычисляется по формуле:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (25)

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r|. В этом случае гипотеза об отсутствии корреляционной связи между y и х Эффективная оценка параметров классической линейной регрессионной модели оценкапроверяется на основе статистики

Эффективная оценка параметров классической линейной регрессионной модели оценка, (26)

которая при справедливости Эффективная оценка параметров классической линейной регрессионной модели оценкаприблизительно распределена по закону Стьюдента с ( Эффективная оценка параметров классической линейной регрессионной модели оценка) степенями свободы. Если Эффективная оценка параметров классической линейной регрессионной модели оценка, то гипотеза Эффективная оценка параметров классической линейной регрессионной модели оценкаотвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии Эффективная оценка параметров классической линейной регрессионной модели оценка. Кроме того, Эффективная оценка параметров классической линейной регрессионной модели оценка, поэтому Эффективная оценка параметров классической линейной регрессионной модели оценка. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Но при малых выборках и значениях r, близких к Эффективная оценка параметров классической линейной регрессионной модели оценка, следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое
z-преобразование Фишера:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (27)

Эффективная оценка параметров классической линейной регрессионной модели оценка. (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r.

Для z выдвигается нуль-гипотеза Эффективная оценка параметров классической линейной регрессионной модели оценка, состоящая в том, что корреляция отсутствует. В этом случае значения статистики

Эффективная оценка параметров классической линейной регрессионной модели оценка, (29)

которая распределена по закону Стьюдента с ( Эффективная оценка параметров классической линейной регрессионной модели оценка) степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

2.5. Нелинейные модели регрессии
и их линеаризация

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (30)

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (31)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

Эффективная оценка параметров классической линейной регрессионной модели оценка(32)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Эффективная оценка параметров классической линейной регрессионной модели оценка.

Если Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка, то имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценкапарабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, неявляющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (33)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля.

Другим примером зависимости (33) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае Эффективная оценка параметров классической линейной регрессионной модели оценкаа результативный признак в (33) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (33) сводится к замене фактора Эффективная оценка параметров классической линейной регрессионной модели оценка, и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (34)

К такому же линейному уравнению сводится полулогарифмическая кривая:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (35)

которая может быть использована для описания кривых Энгеля. Здесь ln(x) заменяется на z и получается уравнение (34).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

Эффективная оценка параметров классической линейной регрессионной модели оценка(36)

Эффективная оценка параметров классической линейной регрессионной модели оценка. (37)

Возможна и такая зависимость:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (38)

В регрессиях типа (36) – (38) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (36) приводится к виду:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (39)

Замена переменной Эффективная оценка параметров классической линейной регрессионной модели оценкасводит его к линейному виду:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (40)

где Эффективная оценка параметров классической линейной регрессионной модели оценка. Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (36) оцениваются по МНК из уравнения (40). Уравнение (37) приводится к виду:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (41)

который отличается от (39) только видом свободного члена, и линейное уравнение выглядит так:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (42)

где Эффективная оценка параметров классической линейной регрессионной модели оценка. Параметры А и b получаются обычным МНК, затем параметр a в зависимости (37) получается как антилогарифм А. При логарифмировании (38) получаем линейную зависимость:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (43)

где Эффективная оценка параметров классической линейной регрессионной модели оценка, а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (38) получается как антилогарифм коэффициента В.

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

Эффективная оценка параметров классической линейной регрессионной модели оценка(44)

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х. Преобразуя (44) путем логарифмирования, получаем линейную регрессию:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (45)

где Эффективная оценка параметров классической линейной регрессионной модели оценка.

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (46)

Проводя замену Эффективная оценка параметров классической линейной регрессионной модели оценка, получим:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (47)

Наконец, следует отметить зависимость логистического типа:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (48)

Графиком функции (48) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты Эффективная оценка параметров классической линейной регрессионной модели оценка, Эффективная оценка параметров классической линейной регрессионной модели оценкаи точку перегиба Эффективная оценка параметров классической линейной регрессионной модели оценка, а также точку пересечения с осью ординат Эффективная оценка параметров классической линейной регрессионной модели оценка

Эффективная оценка параметров классической линейной регрессионной модели оценка

Рис. 2.2. Кривая насыщения

Уравнение (48) приводится к линейному виду заменами переменных Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка.

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

Эффективная оценка параметров классической линейной регрессионной модели оценка(49)

Здесь Эффективная оценка параметров классической линейной регрессионной модели оценка— общая дисперсия результативного признака y, Эффективная оценка параметров классической линейной регрессионной модели оценка— остаточная дисперсия, определяемая по уравнению нелинейной регрессии Эффективная оценка параметров классической линейной регрессионной модели оценка.

Следует обратить внимание на то, что разности в соответствующих суммах Эффективная оценка параметров классической линейной регрессионной модели оценкаи Эффективная оценка параметров классической линейной регрессионной модели оценкаберутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. Индекс корреляции (49) можно записать так:

Эффективная оценка параметров классической линейной регрессионной модели оценка(50)

Величина R находится в границах Эффективная оценка параметров классической линейной регрессионной модели оценкаи чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака.

Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (33). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (50) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (50), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

Эффективная оценка параметров классической линейной регрессионной модели оценка, (51)

Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, Эффективная оценка параметров классической линейной регрессионной модели оценка, для полиномов (30) Эффективная оценка параметров классической линейной регрессионной модели оценка, т. е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а Эффективная оценка параметров классической линейной регрессионной модели оценка– число степеней свободы для остаточной СКО.

Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина Эффективная оценка параметров классической линейной регрессионной модели оценкане превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (52)

Здесь в знаменателе находится ошибка разности Эффективная оценка параметров классической линейной регрессионной модели оценка, определяемая по формуле:

Эффективная оценка параметров классической линейной регрессионной модели оценка. (53)

Если Эффективная оценка параметров классической линейной регрессионной модели оценка, то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

В заключение в таблице 2.2 приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии.

Вид уравнения регрессииКоэффициент эластичности
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка
Эффективная оценка параметров классической линейной регрессионной модели оценка Эффективная оценка параметров классической линейной регрессионной модели оценка

Контрольные вопросы

1. В чем состоит суть метода наименьших квадратов?

2. В каком случае остаточная сумма квадратов равна нулю?

3. Объясненная (факторная) сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное…

4. Остаточная сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное…

5. На чем основан классический метод к оцениванию параметров регрессии?

6. Какое уравнение регрессии нельзя свести к линейному виду:

a) Эффективная оценка параметров классической линейной регрессионной модели оценка

b) Эффективная оценка параметров классической линейной регрессионной модели оценка

c) Эффективная оценка параметров классической линейной регрессионной модели оценка

7. Какие значения может принимать коэффициент корреляции Эффективная оценка параметров классической линейной регрессионной модели оценка?

8. Какое из следующих уравнений нелинейно по оцениваемым параметрам:

a) Эффективная оценка параметров классической линейной регрессионной модели оценка

b) Эффективная оценка параметров классической линейной регрессионной модели оценка

c) Эффективная оценка параметров классической линейной регрессионной модели оценка

9. Для функции Эффективная оценка параметров классической линейной регрессионной модели оценкасредний коэффициент эластичности имеет вид:

a) Эффективная оценка параметров классической линейной регрессионной модели оценка

b) Эффективная оценка параметров классической линейной регрессионной модели оценка

c) Эффективная оценка параметров классической линейной регрессионной модели оценка

3. ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ
РЕГРЕССИИ

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *