Прогноз среднего значения цены

Задача 1

Магазин торгует подержанными автомобилями. Статистика их потребительских цен накапливается в базе данных. В магазин пригоняют на продажу очередную партию небольших однотипных автомобилей. Как назначить их цену? Статистический подход позволяет дать прогноз среднего значения цены и доверительных интервалов для него.

Цена автомобиля зависит от множества факторов. К числу объясняющих переменных можно отнести, например, модель автомобиля, фирму-производитель, регион производства (Европа, США, Япония), объем двигателя, фирму-производитель, регион производства (Европа, США, Япония), объем производителя, количество цилиндров, время разгона до 100 км/час, пробег, потребление горючего, год выпуска и т. д. Первые из названных переменных очень важны при ценообразовании, но они – качественные. Традиционный регрессионный анализ, рассматриваемый в этом задании, предназначен для количественных данных. Поэтому, не претендуя на высокую точность, не будем включать их в эконометрическую модель. Сделаем выборку, например, только для автомобилей одной фирмы-производителя. Пусть, например, оказалось, что продано n= 16 таких автомобилей. Для упрощения выберем из базы данных цены yi (i = 1……16) проданных автомобилей и только две объясняющие переменные: возраст хi1 (i = 1, …..16) в годах и мощность двигателя хi2 (i = 1, ….16) в лошадиных силах. Выборка представлена в таблице:

I номерYi, цена, тыс. у. е.Хi1 возраст, летХi2 , мощность двигателя
1115,0155
267,087
39,85,0106
4114,089
512,34,0133
68,76,094
79,35,0124
810,65,0105
911,84,0120
1010,64,0107
115,27,053
128,25,080
136,56,067
145,77,073
157,96,0100
1610,54,0118

1. Построить поля рассеяния между ценой y и возрастом автомобиля х1 , между ценой y и мощностью автомобиля x2 . На основе их визуального анализа выдвинуть гипотезу о виде статистической зависимости y от х1 и y от х2 . Найти точечные оценки независимых параметров

А0 а1 модели y = а0 + а1 х1 + ε и

β1 β2 модели y = β0 + а1 х1 + δ

2. Проанализировать тесноту линейной связи между ценой и возрастом автомобиля, а также ценой и мощностью двигателя х2 . Для этого рассчитать коэффициенты парной корреляции ryx1 и ryx2 и проверить их отличие от нуля при уровне значимости α = 0,1.

3. Проверить качество оценивания моделей на основе коэффициента детерминации, F – и t – критериев при уровне значимости α = 0,05 и α = 0,10.

4. Проверить полученные результаты с помощью средств MicrocoftExcel.

5. С помощью уравнений регрессии рассчитать доверительные интервалы для среднего значения цены, соответствующие доверительной вероятности 0,9. Изобразить графически поля рассеяния, линии регрессии и доверительные полосы.

На продажу поступила очередная партия однотипных автомобилей. Их возраст х1 равен 3 года. Мощность двигателя х2 = 165 л. с. Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по моделям y = а0 + а1 х1 + ε и y = β0 + а1 х1 + δ с доверительной вероятностью 0,9.

Решение:

На основе поля рассеяния, построенного на основе табл. 1, выдвигаем гипотезу о том, что зависимость цены y от возрастаавтомобиля x1 описывается линейной моделью вида

Y = а0 + а1 х1 + ε

Где а0 и а1 – неизвестные постоянные коэффициенты, а ε – случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.

Рисунок 1 – Поле рассеяния “возраст автомобиля-цена”

Аналогично, на основе анализа поля рассеяния (рис. 2), также построенного на основе таблицы 1, выдвигаем гипотезу о том, что зависимость цены y от мощности автомобиля x2 описывается линейной моделью вида

Y = β0 + β1 х1 + δ

Где β0 и β1 – неизвестные постоянные коэффициенты, а ε – случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.

Рисунок 2 – Поле рассеяния “мощность автомобиля-цена”

На основе табл. 1 исходных данных для вычисления оценок параметров моделей составляется вспомогательная табл. 1.1. Воспользуемся формулами и левой частью таблицы 1.1. для нахождения оценок а0 и а1 .

Так как n = 16, получаем

= 145/16=9.0625

= 84.0/16=5.25

= 27.5625

= 365

= 460

IYiXi1Xi12Xi1 yiYi2IYiXi2Xi22Xi2 yi
1115.02555121111155240251705
267.049423626877569522
39,85.0254996,0439,8106112361038,8
4114.01644121411897921979
512,34.01649,2151,29512,3133176891635,9
68,76.03652,275,6968,7948836817,8
79,35.02546,586,4979,3124153761153,2
810,65.02553112,36810,6105110251113
911,84.01647,2139,24911,8120144001416
1010,64.01642,4112,361010,6107114491134,2
115,27.04936,427,04115,2532809275,6
128,25.0254167,24128,2801600656
136,56.0363942,25136,5674489435,5
145,77.04939,932,49145,7735329416,1
157,96.03647,462,41157,910010000790
1610,54.01642110,251610,5118139241239
Сумма145,184.0460726,21393,15145,1161116767715327,1

Следовательно,

А1 =

А0 = 9,0625- (-1,844) * 5.25 = 18,74

Таким образом,

Аналогично находятся оценки коэффициентов второй регрессионной модели y = β0 + β1 х1 + δ. При этом используется правая часть таблицы

= 1611/16=100,6875

= 10137.97

= 153271,1

= 167677

β1 =

β 0 = 9,0625- 0,0099 * 100.6875= 2.0355

Окончательно получаем:

Подставляем соответствующие значения в формулу:

Ryx =

Ryx1 = = 0,915

Ryx2 = = 0.8

В нашей задаче t0.95;14 = 1,761

Для ryx1 получаем

= = 0,955 <1.761

Условие не выполняется, следовательно, коэффициент парной корреляции не значим, гипотеза отвергается, между переменными отсутствует линейная связь

= = 4.98>1.761

Условие выполняется, следовательно, коэффициент парной корреляции значимый, гипотеза подтверждается, между переменными существует сильная линейная связь

Коэффициент парной корреляции ryx связан с коэффициентом а1 уравнения регрессии

следующим образом

Ryx = a1 Sx /Sy

Где Sx, Sy – выборочные среднеквадратичные отклонения случайных переменных х и y соответственно, рассчитывающиеся по формулам:

Sx1 = √ Sx12

Sx12 = 1/n ∑(xi – )2

Sy = √ Sy2

Sy2 = 1/n ∑(yi – )2

Ryx1 = 0,915

Ryx2 = 0,8

R2 = ryx12 = 0,8372

Вариация на 83,72 % объясняется вариацией возраста автомобиля

R2 = ryx22 = 0,64

Вариация на 64 % объясняется вариацией мощности двигателя автомобиля

Рассчитаем фактическое значение F – статистики Фишера по формуле:

F=

F== 0,768 для зависимости y от х1

F== 0,285для зависимости y от х2

Fт = 4,6

Поэтому для зависимостей y от х1 и y от х2 выполняется неравенство

Fт <Fф

Гипотеза отклоняется и признается статистическая значимость уравнения... регрессии.

Для оценки статистической значимости коэффициентов регрессии используется t-критерий Стьюдента.

Для зависимости y от х1 :

= √F = √0,768 = 0,876

Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1

Для зависимости y от х2 :

= √F = √0,285 = 0,533

Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1

Проверка с помощью MicrosoftExcel

Оценка параметра а1-1,87237Оценка параметра а018,89868
Среднеквадратическое отклонение0,200234Среднеквадратическое отклонение а01,073633
Коэффициент детерминации R20,861987Среднеквадратическое отклонение y0,872798
F-Статистика87,43972Число степеней свободы14
Регрессионная сумма квадратов66,60951Остаточная сумма квадратов10,66487
Оценка параметра а10,0698523Оценка параметра а02,0354973
Среднеквадратическое отклонение0,013746Среднеквадратическое отклонение а01,4271948
Коэффициент детерминации R20,648444Среднеквадратическое отклонение y1,3929996
F-Статистика25,822959Число степеней свободы14
Регрессионная сумма квадратов50,108105Остаточная сумма квадратов27,16627

Рассчитаемдоверительный интервал среднего значения цены для y = a0 + a1 x1 /

: ŷв. н. = ŷ(х0 ) ± t1-α/2,n-2 Sŷ ,

Где ув, ун – соответственно верхняя и нижняя границы

Доверительногоинтервала;

ŷ(х0 ) – точечный прогноз;

T1-α/2,n-2 -квантиль распределения Стьюдента;

(1-α/2) – доверительная верояность;

(n-2) – число степеней свободы;

: ŷв. н. = ŷ(х0 ) ± t1-α/2,n-2 Sŷ ,

Ta = 2,57

Доверительный интервал для уn :

Нижняя граница интервала:

= 18,74-1,844*5 = 9,52

Верхняя граница интервала:

= 18,74-1,844*7 = 5,832

Sx12 = 1/n ∑(xi – )2 = 19/16 = 1,1875

Sx1 = 1,089

Xi1Xi1 – хср1(xi1 – хср1)2Х2Х1 х2
5.0-0,250,0625155775
7.01,753,062587609
5.0-0,250,0625106530
4.0-1,251,562589356
4.0-1,251,5625133532
6.00,750,562594564
5.0-0,250,0625124620
5.0-0,250,0625105525
4.0-1,251,5625120480
4.0-1,251,5625107428
7.01,753,062553371
5.0-0,250,062580400
6.00,750,562567402
7.01,753,062573511
6.00,750,5625100600
4.0-1,251,5625118472
198175

Myx = S1,089*√1/16 + 1,5625/19 = 0,414

5,832 – 2,57*0,414 ≤ yn ≤ 5,832 + 2,57*0,414

На продажу поступила очередная партия однотипных автомобилей. Их возраст xp1 = 3 года. Мощность двигателя xp2 = 165 л. с.

Рассчитаем точечный и интервальный прогноз среднего значения цены поступивших автомобилей по первой парной регрессионной модели

Y = β0 + β1 х1 + δ

Подставляем xp1 в уравнение регрессии:

Получим точечный интервальный прогноз среднего цены.

(xp1 ) = 18,74 – 1,844*3 = 13,208 тыс. у. е.

Подставляем точечный интервальный прогноз среднего цены (xp1 ) = 12,3 тыс. и xp1 = 3 года в уравнения границ доверительного интервала регрессии. Получим интервальный прогноз с доверительной вероятностью 0,9

ŷв. н. = 13,208±2,57*0,414 или ŷн = 12,14 тыс. у. е.,

ŷв = 14,27 тыс. у. е.

Задача 2

Найти по методу наименьших квадратов оценки коэффициентов множественной регрессионной модели

Y = а0 + а1 х1 + а2 х2 +ε

Проверить качество оценивания моделей на основе коэффициента детерминации и F-критерия. Пояснить их содержательный смысл.

Проверить полученные в заданиях результаты с помощью средств MicrocoftExcel.

Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по множественной модели y = а0 + а1 х1 + а2 х2 +ε с доверительной вероятностью 0,9. Как в задаче 1, возраст поступивших автомобилей х1 = 3 года, мощность двигателя х2 = 165 л. с.

На основе полученных в задачах 1-2 статистических характеристик провести содержательную интерпретацию зависимости цены автомобиля от возраста и мощности двигателя.

Сумма произведений ∑х1 х2 равна: 8175

ХТ Х = ХТ Y =

Найдем матрицу (Хт Х), обратную матрице ХТ Х.

Для этого сначала вычислим определитель.

ХТ Х = 16*460*167667+1611*84*8175+1611*84*8175-1611*460*1611-84*84*167677-16*8175*8175 = 1234102720+1106273700+1106273700-1193847660-1183128912-1069290000 = 383548

Определим матрицу алгебраических дополнений

Задача 3

В таблице представлены ежегодные данные объема продаж автомагазина. Построить график во времени. Выдвинуть гипотезу о наличии тренда. Оценить неизвестные параметры линейной трендовой модели z = а0 а1 t +ε с методом наименьших квадратов.

Таблица 2 Ежегодные объемы продаж

T годы123456789101112
Zt, продажи, тыс. у.е.350314300293368393339443467457488424

Для найденного уравнения тренда построить доверительную полосу при уровне доверия 0,9. Изобразить графически точечный и интервальный прогноз среднего объема продаж.

В таблице 3 объемы продаж zt в тыс. у. е. детализированы по месяцам. Построить график объема продаж во времени. Выдвинуть гипотезу о наличии линейного тренда и сезонных колебаний объема продаж:

Z1 = а0 а1 t + а2 cos (2πt/12) + а3 sin (2πt/12) + εt

Оценить параметры этой модели методом наименьших квадратов.

По уравнению трендово-сезонной модели найти точечный прогноз среднего объема продаж на 12 месяцев и интервальный прогноз среднего объема продаж на 1 месяц вперед при доверительной вероятности 0,9.

Ежемесячные объемы продаж

T, годыZtTYt tT2
12345
135013501
231427284
330039009
42934117216
53685184025
63936235836
73397237349
84438354464
94679373681
10457104570100
11488115368121
12424125088144
7846367832027650

∑t = ½*12 (12+1) = 78

∑t2 = 1/6 *12 (12+1) (24+1)= 650

А0 = 515294/1716=283,61

А1 == 22716/1716=15,804

Следовательно, уравнение тренда (регрессии) будет иметь вид:

Y= 283,61+15,84t

Доверительный интервал для линейного тренда находится по формуле:

ŷв. н. = ŷ(х0 ) ± t1-α/2,n-2 Sŷ ,

Где ув, ун – соответственно верхняя и нижняя границы

Доверительногоинтервала;

ŷ(х0 ) – точечный прогноз;

T1-α/2,n-2 -квантиль распределения Стьюдента;

(1-α/2) – доверительная верояность;

(n-2) – число степеней свободы;

ŷв. н. = ŷ(х0 ) ± t1-α/2,n-2 Sŷ ,

Ta = 2,35

Доверительный интервал для уn :

Нижняя граница интервала:

Y= 300.29+13.24t = 300,29+13,24*293 = 4179,61

Верхняя граница интервала:

Y= 300.29+13.24t= 300,29+13,24*488= 6761,41

Sx12 = 1/n ∑(xi – )2 = 51804,7/12 = 4317,06

Sx1 = 65,704

Zср = 386.33

ZZi – zср(zi – zi ср)2
350-36.331319,87
314-72.335231,63
300-86.337452,89
293-93.338710,49
368-18.33335,99
3936.6744,49
339-47.332240,13
44356.673211,49
46780.676507,65
45770.674994,25
488101.6710336,79
42437.671419,03
46362462451804,7

Myx = S65,704*√1/12+ 24624/51804,7 = 36,71

65,704 – 2,35*36,71 ≤ yn ≤ 65,704 + 2,35*36,71

Точечный прогноз среднего значения продаж по линейному тренду находится следующим образом:

ŷв. н. = 283,61+15,84*13 = 489,53

Окончательно получаем интервальный прогноз продаж

ŷв. н. = 489,5 ±2,353*36,71

Или ŷв= 489,5 ±2,353*36,71 = 575,89

Или ŷн= 489,5 ±2,353*36,71 = 403,12

Задача 4

Для регрессионных моделей:

Y = а0 + а1 х1 + а2 х2 +ε

Z1 = а0 а1 t + а2 cos (2πt/12) + а3 sin (2πt/12) + εt

Проверить наличие или отсутствие автокорреляции, используя критерий Дарбина-Уотсона при уровне значимости α = 0,05.

Для регрессионной модели y = а0 + а1 х1 + а2 х2 +ε

Проверить наличие или отсутствие мультиколлинеарности, используя критерии xи-квадрат (χ2 ) при уровне значимости α = 0,05.


Зараз ви читаєте: Прогноз среднего значения цены