P-Значение должно быть меньше 0,05 – при 95% уровне надежности; при 99% P-Значение должно быть меньше 0,01 ? при 99% уровне надежности уровне.
Коэффициенты регрессии и свободного члена при переходе от столбца Нижние и Верхние (при заданном уровне надежности) не должны менять свой знак. Если смена знака происходит, то коэффициенты данного уравнения признаются статистически незначимыми.
Исходя из этого краткого алгоритма, мы отметили жирным шрифтом в ВЫВОДЕ ИТОГОВ (см. табл. 2.5) именно те пункты, на которые следует обратить внимание. При этом те пункты, которые не являются статистически значимыми при данном уровне надежности, мы не только выделили жирным шрифтом, но еще и подчеркнули.
Таблица 2.5. ВЫВОД ИТОГОВ и принятие решения о статистической значимости уравнения регрессии и значимости его коэффициентов
Таким образом, взяв за основу данные из таблицы 2.5 и действуя по алгоритму № 4, мы дадим ответы на все четыре пункта последнего:
1.1. Поскольку коэффициент детерминации R2 для данного уравнения регрессии оказался равен 0,71511, то отсюда можно сделать вывод, что оно в 71,51% случаях в состоянии объяснить ежемесячные колебания курса доллара.
1.2. Значимость F равна 5,4E-60 или =0, а, следовательно, уравнение регрессии статистически значимо как при 95% уровне надежности, так и при 99% уровне надежности.
2.1. P-Значение для коэффициента свободного члена уравнения равно 0,023323, а следовательно этот коэффициент статистически значим лишь при 95% уровне надежности, но не значим при 99% уровне надежности, поскольку он больше 0,01. P-Значение для коэффициента регрессии равно 0, а, следовательно, этот коэффициент статистически значим как при 95% уровне надежности, так и при 99% уровне надежности .
2.2. Коэффициент свободного члена (константа) уравнения при переходе от столбца Нижние 99,0% к столбцу Верхние 99,0% меняет знак с минуса на плюс, а потому статистически не значим при 99% уровне надежности. При 95% уровне надежности смены знаков не происходит, а потому свободный член уравнения при данном уровне надежности статистически значим. Коэффициент регрессии статистически значим как при 95%, так и при 99% уровне надежности, поскольку и в том и другом случае смены знака у данного коэффициента не происходит. Следовательно, на основании таблицы 5 можно сделать вывод, что в целом уравнение регрессии и все его коэффициенты статистически значимы при 95% уровне надежности.
Как мы уже говорили ранее, уравнение регрессии – в отличие от обычных уравнений, оценивающих функциональную, то есть жестко детерминированную связь между переменными – дает прогноз зависимой переменной с учетом воздействия случайного фактора. Поэтому фактические значения результативного признака практически всегда отличаются от его расчетных (теоретических) значений. При этом случайная компонента (остаток) находится следующим образом.
Сначала находится прогнозируемый курс доллара, например, на апрель 2010 г. С учетом того, что порядковый номер апреля 2010 равен 215 (при июне 1992 г. =1), предсказываемый на этот месяц курс доллара может быть найден следующим образом:
Y расч.=0,1622*215++ 1,9958=36,8616
e = Y факт. – Y расч.= -7,573
Следовательно, прогноз, сделанный по данному уравнению регрессии, в апреле 2010 г. оказался выше фактического курса доллара на 7 руб. 57,3 коп. Вполне очевидно, что это слишком большая величина отклонения, чтобы данное уравнение регрессии можно было бы использовать для прогноза валютного курса. В свою очередь, чем ближе теоретические значения подходят к фактическим данным, тем лучше качество прогностической модели. Поскольку разница между фактическим и предсказываемым значением курса доллара (yфакт. – yрасч.) может быть как величиной положительной, так и отрицательной, то ошибка аппроксимации (подгонки модели к фактическим данным) следует определять как в абсолютных цифрах по модулю, так и в процентах модулю.
При этом среднюю абсолютную ошибку по модулю находят по формуле (2.20):
Для нашего уравнения регрессии средняя абсолютная ошибка по модулю по данной формуле была рассчитана таким образом:
Иначе говоря, прогноз по данной статистической модели в среднем по каждому наблюдению отклонялся от фактического значения курса доллара на 5 руб. 62,3 коп. по модулю.
Среднюю относительную ошибку по модулю в процентах вычисляют по формуле (2.21):
При этом средняя относительная ошибка по модулю в процентах находится в нашем случае таким образом:
Следовательно, прогноз по данной статистической модели в среднем по каждому наблюдению отклонялся от фактического значения курса доллара на 38,98 %. В то время как о хорошем качестве уравнения регрессии можно говорить лишь в том случае, если средняя относительная ошибка по модулю составит не более 5-7%. (См. учебник «Эконометрика» под ред. И.И. Елисеевой. ? 2-е изд., пер. и доп. ? М,: Финансы и статистика, 2006, стр. 107).
Для того чтобы окончательно убедиться в непригодности для прогноза данного уравнения регрессии, построим таблицу 2.6, в которой дадим прогнозы и фактический курс доллара за период с января 2009 г. по апрель 2010 г.
Таблица 2.6. Прогноз, фактический курс доллара и остатки с января 2009 г. по апрель 2010 г.
Судя по табл. 2.6, с января 2009 г. по апрелю 2010 г. отклонения от прогноза (остатки), сделанного по уравнению регрессии Y расч.=0,1622*215++ 1,9958, колебались в диапазоне от 98,5 коп. до 7 руб. 57,3 коп., что свидетельствует о невысокой точности данной прогностической модели. Более того, если построить график остатков по линейной прогностической модели, то легко обнаружить, что на нем наблюдается несколько локальных трендов (см. рис. 2.2). А это признак – как мы об этом уже говорили – нестационарности полученных остатков.
Рис. 2.2. Нестационарность остатков, полученных в линейной статистической модели
Источник: по данным Банка России
2.3. Решение уравнений регрессии в Excel графическим способом
Попробуем повысить точность нашего прогноза, используя алгоритм действий № 1 «Как строить диаграммы в Microsoft Excel». С этой целью обведем с помощью мышки столбец с ежемесячными данными (на конец месяца) по курсу пары рубль – доллар за период с июня 1992 г. по апрель 2010 г. и столбец с соответствующими обозначениями месяцев. Выбрав опцию График, строим соответствующую диаграмму, а затем щелкаем с помощью мышки по линии графика и выбираем в появившемся окне опцию ДОБАВИТЬ ЛИНИЮ ТРЕНДА (см. рис. 2.3).
Рис. 2.3. Построение линии тренда на основе графика динамики курса доллара
Далее появляется мини-окно ФОРМАТ ЛИНИИ ТРЕНДА, в котором мы можем выбрать соответствующие ПАРАМЕТРЫ ЛИНИИ ТРЕНДА (рис. 2.3), необходимые для построения прогностических моделей. При этом воспользуемся всеми имеющимися в Excel форматами тренда за одним единственным исключением: из полиномиальных трендов возьмем тренды не выше третьей степени. В научной литературе обычно не рекомендуют использовать для аппроксимации фактических данных более сложные полиномы, поскольку они плохо поддаются интерпретации и ? несмотря на высокий коэффициент детерминации (по включенной в статистическую модель базе данных) ? обладают низкой прогностической ценностью.
Рис. 2.4. Определение характера и параметров линии тренда
Сначала построим самый простой линейный тренд. С этой целью выберем в мини-окне ФОРМАТ ЛИНИИ ТРЕНДА в опции ПАРАМЕТРЫ ЛИНИИ ТРЕНДА формат тренда ? ЛИНЕЙНАЯ. При этом поставим галочку в опциях ПОКАЗЫВАТЬ УРАВНЕНИЕ НА ДИАГРАМММЕ, ПОМЕСТИТЬ НА ДИАГРАММУ ВЕЛИЧИНУ ДОСТОВЕРНОСТИ АППРОКСИМАЦИИ (R^2). В результате получим диаграмму на рис. 2.5, показывающую линейный тренд, то есть линейную зависимость роста курса доллара от времени (от порядкового номера месяца, при июне 1992 год =1).
Рис. 2.5. Ежемесячный курс доллара и его тренд: по оси абсцисс вместо названий месяцев даны их порядковые номера (июнь 1992 г. =1, июль 1992 г. =2 … апрель 2010 г. =215)
Поочередно, задавая различные параметры тренда и сравнивая коэффициенты детерминации, составим таблицу 2.7, в которой разместим – по мере роста коэффициента детерминации ? прогностические модели с различным форматом тренда. Причем, наиболее высокий коэффициент детерминации у нас получился у уравнения регрессии, полученного путем аппроксимации по степенному тренду. В этом случае R? оказался равен 0,919136, то есть данное уравнение регрессии объясняет 91,91 % всех ежемесячных колебаний курса доллара. Соответственно, доля случайной компоненты оказалась равна = 100% -91,91 %=8,09%.
Для того чтобы правильно интерпретировать уравнения регрессии, полученные графическим способом, необходимо иметь в виду, что в процессе построения тренда программа Excel автоматически задает в качестве зависимой переменной y – ежемесячный курс доллара, а в качестве независимой х – порядковый номер месяца. Например, экономическая интерпретация уравнения регрессии со степенной функцией y = 0,0443609x1,2807295 следующая: курс доллара в период с июня 1992 г. по апрель 2010 г. ежемесячно рос со средней скоростью 28,07 % при исходном уровне 4,44 коп.
Таблица 2.7 «Параметры тренда и величина коэффициента детерминации R2»
Как мы уже убедились, графический способ решения уравнения регрессии в программе Excel позволяет довольно существенно экономить время. Однако у этого способа есть и один весьма существенный недостаток, обусловленный тем, что в данном случае не проводится оценка статистической значимости, как в целом уравнения регрессии, так и его коэффициентов.
Таким образом, графический способ решения уравнения регрессии целесообразно использовать на этапе предварительного отбора уравнений регрессии, имеющих наиболее высокий коэффициент детерминации. После отбора уравнения регрессии с высоким коэффициентом детерминации, в Excel его нужно решить, используя в Пакете анализа опцию РЕГРЕССИЯ – см. алгоритм действий № 3. Однако решение уравнение регрессии, аппроксимирующего фактические данные степенным трендом, имеет определенную специфику. В отличие от линейного тренда уравнение регрессии решается не относительно имеющихся исходных данных, а по отношению к их логарифмам. Объясняется это тем, что уравнение регрессии со степенным трендом относится по оцениваемым параметрам к нелинейным моделям, но его можно привести к линейному виду.
В результате уравнение регрессии для степенного тренда (см. табл. 2.7) приобретет следующий вид (2.22):
Следует иметь в виду, что приведение нелинейной функции к линейному виду с помощью логарифмирования используется очень часто, хотя это и приводит к некоторым коллизиям. Вот что пишут по этому поводу Е. М. Четыркин и И.Л. Калихман: «Однако такое преобразование приводит к тому, что оценка параметров базируется не на минимизации суммы квадратов отклонений, а на минимизации суммы квадратов отклонений в логарифмах. …Следствием этого является некоторое смещение оценок параметров, получаемых обычным (линейным) МНК». (см. Четыркин Е. М., Калихман И.Л. Вероятность и статистика. – М.: Финансы и статистика, 1982, стр. 255).
Далее параметры этого уравнения регрессии находятся согласно формулам (2.1.4) и (2.1.5), либо решаются с помощью соответствующей компьютерной программы.
Поэтому прежде чем приступить к выполнению алгоритма действий № 3 «Как решить уравнение регрессии в Excel», нужно взять натуральные логарифмы (логарифмы, основанием которых служит число e= 2,71828), как от независимой переменной х – порядковый номер месяца, так и от зависимой переменной у – курс доллара. В Excel для этих целей можно воспользоваться функцией LN. Далее поступаем в полном соответствии с алгоритмом действий № 3, а данные, полученные после решения уравнения регрессии, занесем в таблицу 2.8.
Таблица 2.8. ВЫВОД ИТОГОВ уравнения регрессии, полученного после логарифмирования исходных данных
Согласно алгоритму действий № 4 «Оценка статистической значимости уравнения регрессии и его коэффициентов», проведем проверку статистической значимости данного уравнения регрессии. При этом выделим в таблице 2.8 все важнейшие пункты жирным шрифтом. В результате мы пришли к выводу, что у нас получилось статистически значимым как уравнение регрессии, так и его коэффициенты, как при 95% , так и 99% уровнях надежностях. Правда, поскольку данное уравнение регрессии мы решили относительно натуральных логарифмов, взятых от исходных данных, то в результате оно приобрело следующий вид:
Ln Y=-3,1154+1,28073 lnX
Согласно последнему уравнению регрессии, прогноз курса доллара рассчитывается на основе логарифмов, взятых от исходных данных. Например, прогноз относительно апреля 2010 г. вычисляется следующим образом:
Ln Y=-3,1154+1,28073* 5,370638= 3,762939; где 5,370638=ln(215) – натуральному логарифму от порядкового номера апреля 2010 г. =215.
Отсюда находим (в Excel потенцирование натуральных логарифмов производится с помощью функции EXP), прогноз курса доллара на апрель 2010 равен:
Y=EXP(3,762939)= 43,07482
После проведения соответствующих преобразований, вышеуказанное уравнение регрессии приобретет следующий вид:
Y=EXP(-3,1154 + 1,28073 lnX)= 0,044361*X^1,28073