Линейный множественный регрессивный анализ


ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ

Кафедра ПМиИОЭ

Контрольная работа

По курсу

Эконометрика

(вариант 8)

Задача 1

В исходной таблице (вариант 8) представлены статистические данные о размерах жилой площади и стоимости квартир:

Жилая площадь, хЦена кв., у
2015,9
40,527
1613,5
2015,1
2821,1
46,328,7
45,927,2
47,528,3
87,252,3
17,722
31,128
48,745
65,851
21,434,4

Требуется:

1. Построить поле корреляции и сформулировать гипотезу о виде уравнения регрессии (линейное, показательное, гиперболическое и т. п.).

2. Построить наиболее подходящее уравнение регрессии.

3. Оценить величину влияния фактора на исследуемый показатель с помощью коэффициента корреляции и детерминации.

4. Оценить качество построенной модели с точки зрения адекватности и точности. Для этого оценить математическое ожидание значений остаточного ряда, проверить случайность уровней остатков ряда, их независимость и соответствие нормальному закону. Для оценки точности использовать среднюю относительную ошибку аппроксимации.

5. С помощью коэффициента эластичности определить силу влияния фактора на результативный показатель.

6. Проверить значимость коэффициента регрессии и провести его интервальную оценку.

7. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличилось на 10 % от среднего уровня. Определить доверительный интервал прогноза для уровня значимости .

8. Сделать выводы по полученным результатам.

Решение:

Для удобства вычислений в ходе решения будем достраивать исходную таблицу данных до вспомогательной (см. Приложение 1), округляя и занося в расчетную таблицу промежуточные результаты.

1. Построим поле корреляции:

Визуальный анализ полученного графика показывает, что точки поля корреляции располагаются вдоль некоторой воображаемой прямой линии, но не очень плотно, рассеиваясь около нее. Поэтому делаем предположение о линейном виде уравнения регрессии. Нельзя сказать, что прослеживается тесная зависимость, но заметно, что с увеличением размера жилой площади х наблюдается тенденция к увеличению стоимости квартир у. Можно предположить, что связь размера жилой площади и ее стоимости положительная, не очень тесная, и на цену квартир оказывают влияние и другие факторы (район места ее расположения, этаж, наличие коммуникаций, состояние квартиры и т. п.).

2. Построим в соответствии с выбранным линейным видом уравнение регрессии:

Чтобы определить параметры линейной модели с помощью метода наименьших квадратов, решим систему уравнений на основе исходных и расчетных данных:

Рассчитав на основе исходных данных необходимые значения (графы 3, 5 таблицы Приложения 1), получаем систему:

Решив полученную систему уравнений при помощи надстройки “Поиск решения” приложения MSExcel, находим:

B0 = 9,308595

B1 = 0,52076

Составим уравнение парной линейной регрессии:

В декартовой системе координат ХОУ на поле корреляции строим график линии регрессии по найденному уравнению (рис.1).

3. Для оценки влияния фактора на исследуемый показатель вычислим линейный коэффициент корреляции и коэффициент детерминации.

Используя надстройку приложения MSExcel “Пакет анализа” – инструмент “Корреляция”, находим величину линейного коэффициента корреляции.

Столбец 1Столбец 2
Столбец 11
Столбец 20,85595711

По величине коэффициента корреляции , принадлежащей интервалу (0,7; 1), оценим качественную характеристику связи как сильную прямую.

Находим парный коэффициент детерминации:

Изменение У примерно на 74 % определяется вариацией фактора х, на 26 % – влиянием других факторов. То есть изменения величины стоимости жилой площади на 74% обусловлены колебаниями ее размеров, и на 26 % – колебаниями и изменениями других факторов и условий.

4. Оценим качество построенной модели

Производим расчеты данных для граф 6-10 вспомогательной таблицы (Приложение 1).

Оценим качество построенной модели с точки зрения адекватности. Для этого проверим выполнение следующих требований:

1) Уровни ряда остатков имеют случайный характер. Для проверки выполнения данного требования воспользуемся критерием поворотных точек (пиков).

-3,829-3,4095-4,145-4,629-2,797-4,7313-6,0229-5,7565-2,44023,46932,487910,31837,409213,9416
++++++++

Число поворотных точек р = 8

Поскольку р > 5, требование считаем выполненным.

2) Математическое ожидание уровня ряда остатков равно нулю.

Поскольку полученное значение близко к 0, требование считаем выполненным.

3) Дисперсия каждого отклонения одинакова для всех х. Для проверки выполнения данного требования используем критерий Гольдфельда-Квандта. Исходные значения х расположим в возрастающем порядке:

Жилая площадь, хЦена кв., у.
1613,5
17,722
2015,9
2015,1
21,434,4
2821,1
31,128
40,527
45,927,2
46,328,7
47,528,3
48,745
65,851
87,252,3

Делим полученную таблицу на 2 равные части

Жилая площадь, хЦена кв., уЖилая площадь, хЦена кв., у
1613,540,527
17,72245,927,2
2015,946,328,7
2015,47,528,3
21,434,448,745
2821,165,851
31,12887,252,3

По каждой группе строим уравнение регрессии:

Жилая площадь, хЦена кв., у
1613,5256216
17,722313,29389,4
2015,9400318
2015,1400302
21,434,4457,96736,16
2821,1784590,8
31,128967,21870,8
154,21503578,463423,16

Чтобы определить параметры линейной модели с помощью метода наименьших квадратов, решим систему уравнений:

Решив полученную систему уравнений при помощи надстройки “Поиск решения” приложения MSExcel, находим:

B0 = 7,01310810173176

B1 = 0,65439846490193

Составим уравнение парной линейной регрессии:

На его основе найдем расчетные значения результативного показателя, а также ряд остатков и остаточные суммы квадратов для первой группы:

Жилая площадь, хЦена кв, у()2
1613,525621617,477-3,97715,816529
17,722313,29389,418,58883,411211,636285
2015,940031820,093-4,19317,581249
2015,140030220,093-4,99324,930049
21,434,4457,96736,1621,008613,3914179,3296
2821,1784590,825,325-4,22517,850625
31,128967,21870,827,35240,64760,4193858
154,21503578,463423,16176,09780,0622267,5637

Рассчитаем аналогичные параметры для второй группы данных:

Жилая площадь, хЦена кв, у()2
40,5271640,251093,528,6765-1,67652,81065225
45,927,22106,811248,4831,9003-4,700322,0928201
46,328,72143,691328,8132,1391-3,439111,8274088
47,528,32256,251344,2532,8555-4,555520,7525803
48,7452371,692191,533,571911,4281130,60147
65,8514329,643355,843,78067,219452,1197364
87,252,37603,844560,5656,5564-4,256418,116941
381,9259,522452,1715122,9259,4800,0197258,3216

Решив полученную систему уравнений

При помощи надстройки “Поиск решения” приложения MSExcel, находим:

B0 = 4,49765806824428

B1 = 0,59705785159018

Составим уравнение парной линейной регрессии:

По критерию Гольдфельда-Квандта найдем расчетное значение

(табличные значения критерия Фишера – в Приложении 5).

Поскольку <, то условие гомоскедастичности выполнено.

4) Значения уровней ряда остатков независимы друг от друга. Проверку на отсутствие автокорреляции осуществим с помощью d-критерия Дарбина-Уотсона:

Поскольку d< d1 0,31<1,08 (табличные значения критерия – в Приложении 2), то гипотеза об отсутствии автокорреляции отвергается, и имеется значительная автокорреляция.

5) Уровни ряда остатков распределены по нормальному закону. Проверку выполнения требования проведем по RS-критерию:

Для объема генеральной совокупности, равного 14, и уровня вероятности ошибки в 5 %, табличные значения нижней и верхней границ RS-критерия равны соответственно 2,92 и 4,09 (табличные значения критерия – в Приложении 3). Поскольку рассчитанное значение критерия не попадает в интервал табличных значений, гипотеза о нормальном распределении отвергается.

Оценим качество построенной модели с точки зрения точности. Для этого используем среднюю относительную ошибку аппроксимации, рассчитав данные для графы 11 вспомогательной таблицы (Приложение 1).

В среднем смоделированные значения стоимости квартир отклоняются от фактических на 19,8 %. Подбор модели к фактическим данным можно оценить как не очень точный, отклонения фактических значений от теоретических заметные.

5. С помощью коэффициента эластичности определим силу влияния фактора на результативный показатель.

Рассчитаем средние значения фактора и результативного показателя:

Средний коэффициент эластичности показывает, что в среднем при повышении размера жилой площади на 1% от своего среднего значения ее стоимость увеличивается на 0,682% от своего среднего значения.

6. Проверим значимость коэффициента регрессии и проведем его интервальную оценку.

Значимость коэффициента b1 определим с помощью t-критерия Стьюдента (табличные значения критерия приведены в Приложении 4). Рассчитаем опытное значение критерия:

При этом среднеквадратическое отклонение коэффициента b1 найдем по формуле:

,

Где остаточное среднеквадратическое отклонение найдем:

Поскольку , то и коэффициент b1 , как и все уравнение регрессии, является значимым.

Таким образом, можно считать, что предполагаемая зависимость стоимости квартиры от ее размера подтвердилась и статистически установлена.

Проверим значимость выбранного коэффициента с помощью критерия Фишера:

Наблюдаемое значение F-критерия превышает табличное: 34,083 > 4,75, т. е. выполнено неравенство , а значит, в 95 % случаев уравнение регрессии статистически значимо и отражает существенную зависимость между размером цены квартиры от ее жилой площади. Уравнение можно признать надежным и значимым, доказывающим наличие исследуемой зависимости.

Доверительный интервал для Рассчитывается по формуле:

При выбранной надежности g=0,95 получим:

, откуда .

Таким образом, с надежностью 95% можно утверждать, что истинное значение параметра b1 будет заключено в пределах от 0,3227 до 0,7193.

7. Рассчитаем прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от среднего уровня.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза численных значений стоимости жилой площади. Но как уже говорилось, точность модели невысока.

В случае увеличения фактора на 10 % от своего среднего значения размер данного увеличения составит:

Прогнозное значение фактора при этом составит:

Точечный прогноз:

Т. е. по модели предсказываем, что если жилая площадь квартиры, увеличившись на 10 % от своего среднего значения, составит 42,12 условных единиц, то ожидаемая (прогнозная) величина ее стоимости составит 31,25 условных единиц.

Доверительный интервал для среднего размера стоимости квартиры при условии, что ее жилая площадь составляет х = 42,12 условных единиц с надежностью g=0,95:

Где стандартная ошибка для средних значений:

Т. е. средний размер стоимости жилой площади размером 42,1223 условные единицы находится в границах от 27,2719 до 35,2375 условные единицы.

Доверительный интервал для индивидуальных значений размера стоимости квартир с жилой площадью 42,1223 условные единицы с надежностью g=0,95:

,

Где стандартная ошибка для индивидуальных значений:

Таким образом, если размер жилой площади будет находиться на уровне 42,1223 условные единицы, то возможный размер ее стоимости в 95% случаев может находиться внутри интервала от 16.046 до 46.463 условные единицы. Этот интервал определяет границы, за пределами которых могут оказаться не более 5% значений стоимости квартир, которые могли быть зафиксированы при размере их жилой площади в 42,1223 условные единицы.

Выводы, сделанные ранее подтвердились. Интервальный прогноз не отличается высокой точностью, но вполне пригоден для практического использования.

8. Полученные результаты позволяют сделать следующие выводы:

Статистически значимый коэффициент регрессии b1 и коэффициент корреляции rух свидетельствуют о наличии сильной зависимости стоимости квартиры от размера ее жилой площади. Можно считать, что наличие этой зависимости статистически доказано, направление и общая тенденция отражена уравнением регрессии верно и согласуется с экономической теорией. Высокое значение коэффициента детерминации R2 указывает, что на формирование стоимости квартир существенное влияние оказывает именно размер их жилой площади и в значительно меньшей мере (порядка 26 %) – другие экономические факторы.

С другой стороны, относительная ошибка аппроксимации свидетельствует, что модель подобрана не точно: в среднем теоретические (смоделированные данные) отличаются от фактических на 19,8 %. В целом применение полученного уравнения регрессии возможно в случае повышения его прогностической силы и практической ценности за счет увеличения объема выборки.

Задача 2

В исходной таблице (вариант 8) представлены статистические данные о различных параметрах уровня жизни населения в 2004 г.:

СтраныХ1Х3Х6Х8Х9У
1Россия553020,42812484,98
2Австралия1004771,41218730,56
3Австрия933778,71467438,42
4Азербайджан2012,412,15214160,34
5Армения204,310,97213460,22
6Белоруссия722820,43812060,79
7Бельгия854879,7837229,82
8Болгария651817,39215670,57
9Великобритания673969,7919134,51
10Венгрия734024,57310664,73
11Германия883576,21387336,63
12Греция832444,49910832,84
13Грузия213611,35514062,64
14Дания983879,2897734,07
15Ирландия9931578710239,27
16Испания892654,81037228,46
17Италия842772,116911830,27
18Казахстан6119,213,41019169,04
19Канада984479,91237725,42
20Киргизия4623,511,22013453,13
21Нидерланды863772,41765928,00
22Португалия732748,61508338,79
23США115291009910332,04
24Финляндия623663,9829438,58
25Франция913677,5848518,51
26Чехия824534,76511457,62
27Япония402083,56011920,80
1966837,41385,2240528541181,05
72,8131,0151,389,07105,743,74

Х1 – потребление мяса и мясопродуктов на душу населения (кг),

Х3 – потребление сахара на душу населения (кг),

Х6 – оценка ВВП по паритету покупательной способности в 1994 г. на душу населения (в % к США),

Х8 – потребление фруктов и ягод на душу населения (кг),

Х9 – потребление хлебных продуктов на душу населения (кг),

У – смертность населения по причине болезни органов кровообращения на 100000 населения.

Требуется:

1) Рассчитать параметры линейного уравнения множественной регрессии.

2) Определить сравнительную оценку влияния факторов на результативный показатель с помощью коэффициентов эластичности.

3) Оценить статистическую значимость параметров регрессионной модели с помощью t-критерия. Адекватность модели проверить с помощью F-критерия.

4) Оценить качество построенного уравнения с помощью средней ошибки аппроксимации.

5) Используя метод многошагового регрессионного анализа, построить регрессионную модель только со значимыми факторами и оценить ее параметры.

6) Определить прогнозное значение результата, если прогнозные значения факторов составляют 80 % от их максимальных значений.

7) Рассчитать ошибки и доверительный интервал прогноза для уровня значимости и .

8) Сделать выводы по полученным результатам.

Решение:

1. Рассчитаем параметры линейного уравнения множественной регрессии

Для удобства в ходе решения будем достраивать исходную таблицу данных до вспомогательной (см. Приложение 6), округляя и занося в ее промежуточные результаты. Уравнение множественной линейной регрессии для нашего случая имеет общий вид:

Параметры данного уравнения найдем с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 7):

B0 = 40,0007992

B1 = 0,071828228

B2 = 0,295651645

B3 = -0,500054859

B4 = -0,500054859

B5 = 0,15192311

Получаем уравнение линейной множественной регрессии:

2. Определим сравнительную оценку влияния факторов на результативный показатель с помощью коэффициентов эластичности.

Т. к. факторы имеют различную природу и размерность, непосредственная оценка их влияния затруднена. Поэтому для каждого из них необходимо рассчитать свой коэффициент эластичности.

Для расчета коэффициентов найдем средние значения факторов и результативного показателя:

Подставим полученные значения в формулу:

Таким образом, смертность населения по причине болезни органов кровообращения на 100000 населения увеличивается примерно на 0,12 % при увеличении потребления мяса и мясопродуктов на душу населения на 1 %, на 0,21% при увеличении на 1% потребления сахара на душу населения и на 0,37% при увеличении потребления хлебных продуктов на душу населения на 1%.

А при увеличении оценки ВВП по паритету покупательной способности в 1994 г. на душу населения на 1% результативный показатель, наоборот, уменьшится на 0,59%. Увеличение же потребления фруктов и ягод на душу населения на 1% повлечет снижение смертности примерно на 1,02%.

3. Оценим статистическую значимость параметров регрессионной модели с помощью t – критерия.

Расчетные значения критерия для пяти заданных параметров получили с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 7):

Поскольку , то коэффициенты b1 , b2 , b3 , b4 , b5 не являются значимыми для построенной модели.

Адекватность модели проверим с помощью F – критерия.

Величина множественного коэффициента детерминации R2 =0,799, также рассчитана с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 7). Построенную модель на основе этого параметра можно признать достаточно качественной. А изменение результативного показателя примерно на 80 % обусловлено влиянием факторов, включенных в модель.

Наблюдаемое значение F-критерия превышает табличное: 16,65 > 4,52, т. е. выполнено неравенство , а значит, в 95 % случаев уравнение регрессии статистически значимо и отражает существенную зависимость между факторами и результативным показателем.

Уравнение можно признать надежным и значимым, доказывающим наличие исследуемой зависимости.

4. Оценим качество построенного уравнения с помощью средней ошибки аппроксимации.

Проведем необходимые дополнительные расчеты с вспомогательной таблицей (графа 11 Приложения 6). На основе полученных данных найдем значение средней ошибки аппроксимации:

Полученное значение средней ошибки аппроксимации подтверждает удовлетворительную точность построенной модели.

5. Используя метод многошагового регрессионного анализа, построим регрессионную модель только со значимыми факторами и оценим ее параметры.

Поскольку модель со всеми заданными факторами уже построена, и значимость каждого фактора рассчитана, можем перейти к следующему шагу анализа, исключив из модели самый незначимый фактор.

Исключаем фактор Х6 – оценка ВВП по паритету покупательной способности в 1994 г. на душу населения (в % к США). Строим новую модель с оставшимися факторами:

Параметры данного уравнения найдем с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 8):

B0 =11,3789103724081

B1 = -0,140477614195711

B2 = 0,334073328849854

B4 = -0,0590948468841696

B5 = 0,354719169807746

Получаем уравнение линейной множественной регрессии:

Расчетные значения критерия для заданных параметров получили с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 8):

Поскольку , то коэффициенты b1 , b2 , b4 не являются значимыми для построенной модели. Исключаем самый незначимый фактор:

Исключаем фактор Х1 – потребление мяса и мясопродуктов на душу населения (кг).

Строим новую модель с оставшимися факторами:

Параметры данного уравнения найдем с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 9):

B0 = 5,45597214112287

B2 = 0,200539077387593

B4 = -0,0847616134509301

B5 = 0,374792925415136

Получаем уравнение линейной множественной регрессии:

Расчетные значения критерия для заданных параметров получили с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 8):

Поскольку , то коэффициенты b2 , b4 не являются значимыми для построенной модели. Исключаем самый незначимый фактор:

Исключаем фактор Х8 – потребление фруктов и ягод на душу населения (кг). Строим новую модель с оставшимися факторами:

Параметры данного уравнения найдем с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 10):

B0 = -14,5137453627595

B2 = 0,272342209805998

B5 = 0,471219957359132

Получаем уравнение линейной множественной регрессии:

Расчетные значения критерия для заданных параметров получили с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 10):

Поскольку

,

То коэффициент b2 не является значимым для построенной модели. Исключаем незначимый фактор:

Исключаем фактор Х3 – потребление сахара на душу населения (кг). Строим новую модель с оставшимся фактором:

Параметры данного уравнения найдем с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 11):

B0 = 0,166147

B5 = 0,412251

Получаем уравнение линейной парной регрессии:

Расчетное значение критерия для параметра b5 получили с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 11):

Поскольку

,

То коэффициент b5 является значимым для построенной модели. Таким образом, посредством пошагового регрессионного анализа, осуществленного методом исключения факторов, получили модель, содержащую только один значимый фактор Х9 – потребление хлебных продуктов на душу населения (кг).

6. Определим прогнозное значение результата, если прогнозные значения факторов составляют 80 % от их максимальных значений.

Поскольку в уравнении регрессии остался лишь один значимый фактор, именно на основе данных о потреблении хлебных продуктов на душу населения будем рассчитывать прогнозное значение результативного показателя.

Если прогнозное значение фактора составит 80% от своего максимального значения

,

Тогда точечное прогнозное значение результативного показателя составит

Т. е. еслипотребление хлебных продуктов на душу населения составит 152,8 кг, то прогнозное значение смертности населения по причине болезни органов кровообращения на 100000 населения составит примерно 63.

7. Рассчитаем ошибки и доверительный интервал прогноза для уровня значимости и .

Доверительный интервал для среднего размера смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг с надежностью g=0,95:

Где стандартная ошибка для средних значений:

Т. е. средний размер смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг, находится в интервале от 53 до 72 человек. Доверительный интервал для индивидуальных значений размера смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг с надежностью g=0,95:

,

Где стандартная ошибка для индивидуальных значений:

Таким образом, если потребление хлебных продуктов будет находиться на уровне 152,8 кг, то возможный размер смертности населения по причине болезни органов кровообращения на 100000 населения в 95% случаев может находиться внутри интервала от 35 до 90 человек.

Рассчитаем те же показатели для уровня значимости

Доверительный интервал для среднего размера смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг с надежностью g=0,90:

Т. е. средний размер смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг, находится в интервале от 55 до 70 человек.

Доверительный интервал для индивидуальных значений размера смертности населения по причине болезни органов кровообращения на 100000 населения при условии, что потребление хлебных продуктов составляет х = 152,8 кг с надежностью g=0,90:

Таким образом, если потребление хлебных продуктов будет находиться на уровне 152,8 кг, то возможный размер смертности населения по причине болезни органов кровообращения на 100000 населения в 90% случаев может находиться внутри интервала от 40 до 85 человек.

8. Полученные результаты позволяют сделать следующие выводы:

На основе сравнительной оценки влияния факторов на результативный показатель посредством расчета коэффициентов эластичности удалось установить, что смертность населения по причине болезни органов кровообращения на 100000 населения увеличивается примерно на 0,12 % при увеличении потребления мяса и мясопродуктов на душу населения на 1 %, на 0,21% при увеличении на 1% потребления сахара на душу населения и на 0,37% при увеличении потребления хлебных продуктов на душу населения на 1%.

А при увеличении оценки ВВП по паритету покупательной способности в 1994 г. на душу населения на 1% результативный показатель, наоборот, уменьшится на 0,59%. Увеличение же потребления фруктов и ягод на душу населения на 1% повлечет снижение смертности примерно на 1,02%.

Величина множественного коэффициента детерминации R2 =0,799 свидетельствует о том, что изменение результативного показателя примерно на 80% обусловлено влиянием факторов, включенных в модель. Оценка качества построенного уравнения с помощью средней ошибки аппроксимации подтверждает удовлетворительную точность построенной модели.

Оценка адекватности построенной модели с помощью F-Критерия Фишера подтвердила, что в 95 % случаев уравнение регрессии статистически значимо и отражает существенную зависимость между факторами и результативным показателем. А значит, уравнение можно признать надежным и значимым, доказывающим наличие исследуемой зависимости.

Посредством пошагового регрессионного анализа, осуществленного методом исключения факторов, получили модель, содержащую только один значимый фактор – потребление хлебных продуктов на душу населения. С его использованием построили новое уравнение регрессии, с помощью которого рассчитали прогнозное точечное значение результативного показателя и доверительный интервал для уровня значимости и .

Задача 3

В исходной таблице (графы 2 и 3 Приложения 13) представлены статистические данные об объеме продаж продовольственных товаров с 1 января 1990 г. в относительных единицах.

Требуется:

1. Представить временной ряд графически, провести его сглаживание методом простой скользящей средней, оценить наличие тренда.

2. Построить уравнение неслучайной составляющей (тренда) временного ряда, проверить значимость построенного уравнения по F-критерию при уровне значимости .

3. Дать точечную, интервальную оценки прогноза среднего и индивидуального значений с надежностью На 1 и 2 шага вперед.

4. Построить авторегрессионную модель временного ряда, дать точечный, интервальный прогноз среднего и индивидуального значений с надежностью На 1 и 2 шага вперед.

5. Сделать выводы по полученным результатам.

Решение:

1. Представим временной ряд графически:

Проведем его сглаживание методом простой скользящей средней. Выбрав величину скользящей средней, равную 3, доработаем исходную таблицу данных – найдем средние значения для каждых трех исходных (графа 4 Приложения 13).

На основе средних значений строим диаграмму сглаженных данных:

По графику можно сделать предположение о наличии тренда линейного типа. Для наглядности еще более сгладим исходные данные, построив с помощью инструмента “Скользящее среднее” надстройки “Анализ данных” приложения MS Excel график пятичленной скользящей средней.

Предположение о наличии тренда подтверждается, очевидно, также имеет место сезонная компонента.

2. Построим уравнение неслучайной составляющей (тренда) временного ряда

Для определения параметров модели временного ряда из линейного уравнения

Воспользуемся инструментом “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычислений – в Приложении 14).

Получаем уравнение тренда временного ряда следующего вида:

Проверим значимость построенного уравнения по F – критерию при уровне значимости

Величина коэффициента детерминации R2 =0,324 также рассчитана с помощью инструмента “Регрессия” надстройки “Анализ данных” приложения MS Excel (результаты вычисления – в Приложении 14). Судя по этому параметру, изменение результативного показателя примерно на 32 % обусловлено влиянием временного фактора. Построенную модель на основе парного коэффициента корреляции =0,57 можно признать умеренно качественной.

Наблюдаемое значение F-критерия меньше табличного: 250,476 > 16,2, т. е. выполнено неравенство , а значит, в 95 % случаев уравнение регрессии статистически незначимо и не отражает зависимости между временем и объемом продаж продовольственных товаров, что подтверждается экономической теорией.

3. Дать точечную, интервальную оценки прогноза среднего и индивидуального значений с надежностью на 1 и 2 шага вперед.

Чтобы сделать точечный прогноз на 1 и 2 шага вперед, подставим соответствующие значения фактора в полученное уравнение регрессии:

Доверительный интервал для среднего размера объема продаж продовольственных товаров на 01.12.1995 г. (t=36) с надежностью g=0,95:

Где стандартная ошибка для средних значений:

,

Т. е. средний размер объема продаж продовольственных товаров на 01.12.1995 г. (t=36) примерно находится в интервале от 249 до 292 относительных единиц.

Доверительный интервал для индивидуальных значений размера объема продаж продовольственных товаров на 01.12.1995 г. (t=36) с надежностью g=0,95:

Где стандартная ошибка для индивидуальных значений:

Таким образом, размер объема продаж продовольственных товаров на 01.12.1995 г. (t=36) в 95% случаев может находиться внутри интервала примерно от 205 до 335 относительных единиц.

Для прогноза на 2 шага вперед:

Доверительный интервал для среднего размера объема продаж продовольственных товаров на 01.01.1996 г. (t=37) с надежностью g=0,95:

Где стандартная ошибка для средних значений:

,

Т. е. средний размер объема продаж продовольственных товаров на 01.01.1996 г. (t=37) примерно находится в интервале от 250 до 294 относительных единиц.

Доверительный интервал для индивидуальных значений размера объема продаж продовольственных товаров на 01.01.1996 г. (t=37) с надежностью g=0,95:

Где стандартная ошибка для индивидуальных значений:

Таким образом, размер объема продаж продовольственных товаров на 01.01.1996 г. (t=37) в 95% случаев может находиться внутри интервала примерно от 207 до 304 относительных единиц.

4. Построим авторегрессионную модель временного ряда.

Для построения авторегрессионной модели 1-го порядка вида

Определим ее параметры с помощью МНК из системы уравнений:

Воспользовавшись надстройкой “Поиск решения” приложения MSExcel, находим коэффициенты модели:

Получаем модель:

Дадим точечный прогноз по полученной авторегрессионной модели на 1 и 2 шага вперед:

Дадим интервальный прогноз среднего и индивидуального значений по полученной авторегрессионной модели с надежностью На 1 и 2 шага вперед.

Доверительный интервал для среднего размера объема продаж продовольственных товаров по полученной авторегрессионной модели на 01.12.1995 г. (t=36) с надежностью g=0,95:

Где стандартная ошибка для средних значений:

,

Доверительный интервал для индивидуальных значений размера объема продаж продовольственных товаров по полученной авторегрессионной модели на 01.12.1995 г. (t=36) с надежностью g=0,95:

Где стандартная ошибка для индивидуальных значений:

Итак, с надежностью 0,95 среднее значение объема продаж продовольственных товаров на момент t=36 будет заключено в пределах от 233,17 до 275,99 относительных единиц, а его индивидуальное значение – от 189,44 до 319,72 относительных единиц.

Для прогноза на 2 шага вперед:

Доверительный интервал для среднего размера объема продаж продовольственных товаров по полученной авторегрессионной модели на 01.12.1995 г. (t=37) с надежностью g=0,95:

Где стандартная ошибка для средних значений

Доверительный интервал для индивидуальных значений размера объема продаж продовольственных товаров по полученной авторегрессионной модели на 01.01.1996 г. (t=37) с надежностью g=0,95:

Где стандартная ошибка для индивидуальных значений:

Итак, с надежностью 0,95 среднее значение объема продаж продовольственных товаров на момент t=37 будет заключено в пределах от 212,28 до 254,64 относительных единиц, а его индивидуальное значение – от 169,06 до 299,86 относительных единиц.

5. Выводы по полученным результатам:

Проведя сглаживание временного ряда методом простой скользящей средней, по графику сделали предположение о наличии тренда линейного типа. Вычислив параметры модели, получаем уравнение тренда

Величина коэффициента детерминации R2 =0,324 свидетельствует о том, что изменение У на 32% обусловлено влиянием времени. Построенную модель на основе коэффициента корреляции можно признать умеренно качественной.

Проверив значимость построенного уравнения по F-критерию, приходим к выводу, что в 95% случаев уравнение регрессии статистически незначимо и не отражает зависимости между временем и объемом продаж продовольственных товаров, что подтверждается экономической теорией.

Точечный прогноз на 1 шаг вперед на основе полученной модели примет значение

Интервальный прогноз позволяет установить, что размер объема продаж на 01.12.1995 г. в 95% случаев может находиться в интервале от 205 до 335 относительных единиц, а средний размер объема продаж – в интервале от 249 до 292 относительных единиц.

Точечный прогноз на 2 шага вперед на основе полученной модели примет значение

Интервальный прогноз позволяет установить, что размер объема продаж на 01.01.1996 г. в 95% случаев может находиться внутри интервала примерно от 207 до 304 относительных единиц, а средний размер объема продаж – внутри интервала от 207 до 304 относительных единиц.

Поскольку построенное ранее уравнение линейного тренда не является значимым, для прогнозирования значений временного ряда построили авторегрессионную модель

Даем точечный прогноз на 1 шаг вперед

И интервальный на уровне значимости 0,05 для среднего и индивидуального значений –

И

А такжеточечный прогноз на 2 шага вперед

,

И интервальный на уровне значимости 0,05 для среднего и индивидуального значений –

и .

Линейный множественный регрессия модель

Приложение 1

Жилая пло

Щадь, x

Цена квартиры, у()2()2
1234567891011
2015,9400252,8131819,729-3,82914,66124-0,241
40,5271640,257291093,530,4095-3,409511,624690,41950,175980-0,126
1613,5256182,2521617,645-4,14517,18103-0,73550,540960-0,307
2015,1400228,0130219,729-4,62921,42764-0,4840,234256-0,307
2821,1784445,21590,823,897-2,7977,8232091,8323,356224-0,133
46,328,72143,69823,691328,8133,4313-4,731322,3852-1,93433,741517-0,165
45,927,22106,81739,841248,4833,2229-6,022936,27532-1,29161,668231-0,221
47,528,32256,25800,891344,2534,0565-5,756533,137290,26640,070969-0,203
87,252,37603,842735,294560,5654,7402-2,44025,9545763,316310,99785-0,047
17,722313,29484389,418,53073,469312,036045,909534,922190,158
31,128967,21784870,825,51212,48796,189646-0,98140,9631460,089
48,7452371,6920252191,534,681710,318106,46737,830461,315160,229
65,8514329,6426013355,843,59087,409254,89625-2,90918,4628630,145
21,434,4457,961183,36736,1620,458413,942194,36826,532442,672250,405
∑ 536,1409,526030,6314014,3518546,06409,6341-0,1341544,427717,7706169,1216|2,776|

Приложение 2

В таблице приведены значения критерия Дарбина-Уотсона для уровня значимости 5% (m – число независимых переменных уравнения регрессии).

Число наблюдений (n)M = 1M = 2M = 3M = 4M = 5
D1D2D1D2D1D2D1D2D1D2
152030501001,081,201,351,501,651,361,411,491,591,690,951,101,281,461,631,541,541,571,631,720,821,001,211,421,611,751,681,651,671,740,690,901,141,381,591,971,831,741,721,760,560,791,071,341,572,211,991,831,471,78

Приложение 3

Критические границы отношения R/S

Объем выборки (n)Нижние границыВерхние границы
Вероятность ошибки
0,0000,0050,010,0250,050,100,100,050,0250,010,0050,000
345678910111213141516171819201,7321,7321,8261,8261,8211,8211,8971,8971,9151,9151,9271,9271,9361,9361,9441,9441,9491,9491,7351,831,982,112,222,312,392,462,532,592,642,702,742,792,832,872,902,941,7371,872,022,152,262,352,442,512,582,642,702,752,802,842,882,922,962,991,7451,932,092,222,332,432,512,592,662,722,782,832,882,932,973,013,053,091,7581,982,152,282,402,502,592,672,742,802,862,922,973,013,063,103,143,181,7822,042,222,372,492,592,682,762,842,902,963,023,073,123,173,213,253,291,9972,4092,7122,9493,1433,3083,4493,573,683,783,873,954,024,094,154,214,274,321,9992,4292,7533,0123,2223,3993,5523,6853,803,914,004,094,174,244,314,374,434,492,0002,4392,7823,0563,2823,4713,6343,7773,9034,024,124,214,294,374,444,514,574,632,0002,4452,8033,0953,3383,5433,7203,8754,0124,1344,2444,344,444,524,604,674,744,802,0002,4472,8133,1153,3693,5853,7723,9354,0794,2084,3254,4314,534,624,704,784,854,912,0002,4492,8283,1624,4653,7424,0002,2434,4724,6904,8995,0995,2925,4775,6575,8316,0006,164

Приложение 4

Таблица значений функции распределения Стьюдента (для интервальных оценок)

Значение доверительной вероятности
0.90.910.920.930.940.950.960.970.980.99

Степени

Свободы

16.3147.0267.9169.05810.57912.70615.89421.20531.82163.656
22.9203.1043.3203.5783.8964.3034.8495.6436.9659.925
32.3532.4712.6052.7632.9513.1823.4823.8964.5415.841
42.1322.2262.3332.4562.6012.7762.9993.2983.7474.604
52.0152.0982.1912.2972.4222.5712.7573.0033.3654.032
61.9432.0192.1042.2012.3132.4472.6122.8293.1433.707
71.8951.9662.0462.1362.2412.3652.5172.7152.9983.499
81.8601.9282.0042.0902.1892.3062.4492.6342.8963.355
91.8331.8991.9732.0552.1502.2622.3982.5742.8213.250
101.8121.8771.9482.0282.1202.2282.3592.5272.7643.169
111.7961.8591.9282.0072.0962.2012.3282.4912.7183.106
121.7821.8441.9121.9892.0762.1792.3032.4612.6813.055
131.7711.8321.8991.9742.0602.1602.2822.4362.6503.012
141.7611.8211.8871.9622.0462.1452.2642.4152.6242.977
151.7531.8121.8781.9512.0342.1312.2492.3972.6022.947
161.7461.8051.8691.9422.0242.1202.2352.3822.5832.921
171.7401.7981.8621.9342.0152.1102.2242.3682.5672.898
181.7341.7921.8551.9262.0072.1012.2142.3562.5522.878
191.7291.7861.8501.9202.0002.0932.2052.3462.5392.861
201.7251.7821.8441.9141.9942.0862.1972.3362.5282.845
211.7211.7771.8401.9091.9882.0802.1892.3282.5182.831

Приложение 5

Приложение 6

СтраныХ1Х3Х6Х8Х9У
1234567891011
1Россия553020,42812484,9861,124423,85560,2807
2Австралия1004771,41218730,5637,1498-6,5898-0,2156
3Австрия933778,71467438,4227,767010,6530,2773
4Азербайджан2012,412,15214160,3459,85390,48610,0081
5Армения204,310,97213460,2256,75723,46280,0575
6Белоруссия722820,43812060,7961,0272-0,2372-0,0039
7Бельгия854879,7837229,8230,3919-0,5719-0,0192
8Болгария651817,39215670,5763,94346,62660,0939
9Великобритания673969,7919134,5134,22980,28020,0081
10Венгрия734024,57310664,7360,05244,67760,0723
11Германия883576,21387336,6328,01028,61980,2353
12Греция832444,49910832,8446,083-13,243-0,4033
13Грузия213611,35514062,6467,1154-4,4754-0,0714
14Дания983879,2897734,0729,30724,762770,1398
15Ирландия9931578710239,2742,2326-2,9626-0,0754
16Испания892654,81037228,4636,3877-7,9277-0,2786
17Италия842772,116911830,2733,8748-3,6048-0,1191
18Казахстан6119,213,41019169,0472,2562-3,2162-0,0466
19Канада984479,91237725,4230,3257-4,9057-0,193
20Киргизия4623,511,22013453,1364,7713-11,6413-0,2191
21Нидерланды863772,41765928,0027,77800,2220,0079
22Португалия732748,61508338,7939,7452-0,9552-0,0246
23США115291009910332,0421,297110,74290,3353
24Финляндия623663,9829438,5836,44712,13290,0553
25Франция913677,5848518,5130,3382-11,8282-0,639
26Чехия824534,76511457,6258,3873-0,7673-0,0133
27Япония402083,56011920,8024,3958-3,5958-0,1729
1966837,41385,2240528541181,051181,050|4,0665|
72,8131,0151,389,07105,743,74

Приложение 7

ВЫВОД ОСТАТКА
НаблюдениеПредсказанное YОстаткиСтандартные остатки
161,1243766823,855623323,016807918
237,14984362-6,589843625-0,83335875
327,7670296310,652970371,347186151
459,853892860,4861071450,061473635
556,757239363,462760640,437904455
661,02722122-0,237221218-0,029999252
730,3918804-0,571880402-0,072320614
863,943415266,6265847370,838005071
934,229803470,2801965290,035433956
1060,052382084,677617920,59153662
1128,010190938,6198090671,090070375
1246,08296956-13,24296956-1,674720249
1367,11544881-4,47544881-0,565970095
1429,307230124,7627698750,602305028
1542,23264038-2,962640379-0,374658706
1636,38774388-7,927743882-1,002551063
1733,87478691-3,604786915-0,455865251
1872,25617196-3,216171959-0,406720583
1930,32568691-4,905686906-0,62037847
2064,77131443-11,64131443-1,472173209
2127,778012160,221987840,028072822
2239,74521202-0,955212022-0,120797145
2321,2970653610,742934641,35856313
2436,447110562,132889440,269727505
2530,33822718-11,82822718-1,495810398
2658,38731137-0,767311368-0,097035025
2724,39579286-3,595792864-0,454727853

Приложение 8

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R0,758496844
R-квадрат0,575317462
Нормированный R-квадрат0,498102455
Стандартная ошибка12,49675211
Наблюдения27
Дисперсионный анализ
DfSSMSFЗначимость F
Регрессия44654,3618271163,5904577,4508503490,000593913
Остаток223435,713892156,1688133
Итого268090,075719
Коэффи-циентыСтандартная ошибкаT-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%
Y-пересечение11,3789103726,901483470,4229844940,676412608-44,4113514367,16917217-44,4113514367,16917217
Переменная X 1-0,1404776140,136338345-1,030360270,314036187-0,4232260350,142270807-0,4232260350,142270807
Переменная X 20,3340733290,3306033121,0104960140,323243144-0,3515559721,01970263-0,3515559721,01970263
Переменная X 3-0,0590948470,084157252-0,7021955420,489920557-0,2336263040,11543661-0,2336263040,11543661
Переменная X 40,354719170,1385884342,5595149530,0178746730,067304350,642133990,067304350,64213399

Приложение 9

Приложение 10

Приложение 11

Приложение 12

СтраныХ9Х92У
1Россия1241537684,9851,2852633,694741135,0160,3965
2Австралия87756930,5636,03197-5,4719729,9209-0,179
3Австрия74547638,4230,672717,74728860,06250,202
4Азербайджан1411988160,3458,293522,0464784,20250,334
5Армения1341795660,2255,407774,81223423,13610,08
6Белоруссия1201440060,7949,6362511,15375124,32250,1835
7Бельгия72518429,8229,84821-0,028210,0009-0,001
8Болгария1562433670,5764,477296,09271437,08810,0863
9Великобритания91828134,5137,68098-3,1709810,0489-0,092
10Венгрия1061123664,7343,8647420,86526435,55690,322
11Германия73532936,6330,260466,36953840,57690,1739
12Греция1081166432,8444,68924-11,8492140,4035-0,361
13Грузия1401960062,6457,881274,75872922,65760,076
14Дания77592934,0731,909472,1605354,66560,0634
15Ирландия1021040439,2742,21574-2,945748,7025-0,075
16Испания72518428,4629,84821-1,388211,9321-0,049
17Италия1181392430,2748,81175-18,5418343,7316-0,613
18Казахстан1913648169,0478,90607-9,8660797,4169-0,143
19Канада77592925,4231,90947-6,4894742,1201-0,255
20Киргизия1341795653,1355,40777-2,277775,1984-0,043
21Нидерланды5934812824,488953,51105112,32010,1254
22Португалия83688938,7934,382974,40702919,44810,1136
23США1031060932,0442,62799-10,588112,1481-0,33
24Финляндия94883638,5838,91773-0,337730,1156-0,009
25Франция85722518,5135,20747-16,6975278,89-0,902
26Чехия1141299657,6247,1627510,45725109,41160,1815
27Япония1191416120,849,224-28,424807,6964-1,367
32629239,0679|6,76|

Приложение 13

Дата,

T

Объем

Продаж,

2()2
1234567891011
11/1/9317831684-17289200,0143-22,0143484,4401
21/2/931853422532930186-16256202,037-17,037290,3616
31/3/931963841636260189-15225204,0597-8,0596664,9636
41/4/931873496936652193-14196206,0824-19,0824364,0464
51/5/931973880936839210-13169208,105-11,105123,4321
61/6/932466051648462225-12144210,127735,872271286,6569
71/7/932315336156826240-11121212,150418,84958355,3225
81/8/932445953656364231-10100214,173129,82689889,8289
91/9/932194796153436221-981216,19582,8042027,84
101/10/931993960143581202-864218,2185-19,2185369,4084
111/11/931873496937213198-749220,2412-33,24121104,8976
121/12/932084326438896201-636222,2639-14,2639203,3476
131/1/942084326443264213-525224,2866-16,2866265,3641
141/2/942234972946384228-416226,3092-3,3092410,9561
151/3/942546451656642240-39228,331925,66807658,9489
161/4/942435904961722247-24230,354612,64538160,0225
171/5/942435904959049247-11232,377310,62269112,7844
181/6/94255650256196526300234,420,6424,36
191/7/94292852647446027811236,422755,577313089,1364
201/8/94288829448409628124238,445449,554622455,2025
211/9/94262686447545626139240,468121,53193463,5409
221/10/942345475661308233416242,4908-8,4907672,0801
231/11/942044161647736219525244,5134-40,51341641,0601
241/12/942184752444472217636246,5361-28,5361814,5316
251/1/952305290050140215749248,5588-18,5588344,4736
261/2/951973880945310230864250,5815-53,58152870,8164
271/3/952636916951811232981252,604210,3958108,16
281/4/95235552256180525310100254,6269-19,6269385,3369
291/5/95262686446157026111121256,64965,3504228,6225
301/6/95285812257467028412144258,672326,32773693,2689
311/7/95305930258692530213169260,69544,305041962,49
321/8/95316998569638029814196262,717653,282352838,7584
331/9/95273745298626827415225264,74038,25966468,2276
341/10/95234547566388223716256266,763-32,7631073,2176
351/11/95203412094750217289268,7857-65,78574328,3241
6308204192027635708204030414,23

Приложение 14

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R0,569585
R-квадрат0,324427
Нормированный R-квадрат0,303955
Стандартная ошибка30,35875
Наблюдения35
Дисперсионный анализ
DfSSMSFЗначимость F
Регрессия114605,8414605,8415,847430,000355
Остаток3330414,56921,6534
Итого3445020,4
КоэффициентыСтандартная ошибкаT-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%
Y-пересечение197,991610,4870818,879582,96E-19176,6555219,3277176,6555219,3277
Переменная X 12,0226890,5081013,9808830,0003550,9889513,0564280,9889513,056428
ВЫВОД ОСТАТКА
НаблюдениеПредсказанноеYОстатки
1200,0143-22,0143
2202,037-17,037
3204,0597-8,05966
4206,0824-19,0824
5208,105-11,105
6210,127735,87227
7212,150418,84958
8214,173129,82689
9216,19582,804202
10218,2185-19,2185
11220,2412-33,2412
12222,2639-14,2639
13224,2866-16,2866
14226,3092-3,30924
15228,331925,66807
16230,354612,64538
17232,377310,62269
18234,420,6
19236,422755,57731
20238,445449,55462
21240,468121,53193
22242,4908-8,49076
23244,5134-40,5134
24246,5361-28,5361
25248,5588-18,5588
26250,5815-53,5815
27252,604210,3958
28254,6269-19,6269
29256,64965,35042
30258,672326,32773
31260,69544,30504
32262,717653,28235
33264,74038,259664
34266,763-32,763
35268,7857-65,7857


Зараз ви читаєте: Линейный множественный регрессивный анализ