Статистическое моделирование 2

Задача 1

Район

Потребительские расходы на душу населения, тыс. руб., y

Денежные доходы на душу населения, тыс. руб.,x

Республика Башкортостан

461

632

Удмуртская Республика

524

738

Курганская область

298

515

Оренбургская область

351

640

Пермская область

624

942

Свердловская область

584

888

Челябинская область

425

704

Республика Алтай

277

603

Алтайский край

321

439

Кемеровская область

573

985

Новосибирская область

576

735

Омская область

588

760

Томская область

497

830

Тюменская область

863

2093

Fтабл. = 4,75 (α=0,05)

σy=152,47

σx=382,79

ТРЕБУЕТСЯ

1. Рассчитайте параметры уравнения линейной регрессии.

2. Оцените тесноту связи с помощью показателей корреляции и детерминации.

3. Определите среднюю ошибку аппроксимации. Сделайте вывод.

4. Оцените статистическую надежность регрессионного моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.

5. Оцените полученные результаты, оформите выводы.

РЕШЕНИЕ.

1. А) Вводим данные в таблицу (EXCEL) – столбцы № x, y :

Район

Y

X

Yx

Y-yx

Ai

1

Республика Башкортостан

461

632

430,82

30,18

6,55

2

Удмуртская Республика

524

738

466,86

57,14

10,90

3

Курганская область

298

515

391,04

-93,04

31,22

4

Оренбургская область

351

640

433,54

-82,54

23,52

5

Пермская область

624

942

536,22

87,78

14,07

6

Свердловская область

584

888

517,86

66,14

11,33

7

Челябинская область

425

704

455,3

-30,3

7,13

8

Республика Алтай

277

603

420,96

-143,96

51,97

9

Алтайский край

321

439

365,2

-44,2

13,77

10

Кемеровская область

573

985

550,84

22,16

3,87

11

Новосибирская область

576

735

465,84

110,16

19,13

12

Омская область

588

760

474,34

113,66

19,33

13

Томская область

497

830

498,14

-1,14

0,23

14

Тюменская область

863

2093

927,56

-64,56

7,48

Итого

6962,00

11504,00

6934,52

Среднее значение

497,29

821,71

495,32

15,75

σ

152,47

382,79

σ2

23246,63

146524,63

Вычисление параметров линейного уравнения регрессии. С помощью инструмента Регрессия (Данные Анализ данных Регрессия) получаем следующие результаты.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,859604

R-квадрат

0,738919

Нормированный R-квадрат

0,717162

Стандартная ошибка

84,14752

Наблюдения

14

Дисперсионный анализ

Df

SS

MS

F

Значимость F

Регрессия

1

240483,2

240483,2

33,9627

8,11E-05

Остаток

12

84969,65

7080,804

Итого

13

325452,9

Коэффициенты

Стандартная ошибка

T-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

215,9377

53,2585

4,054521

0,001597

99,89739

331,978

Денежные доходы на душу населения, тыс. руб.,x

0,342392

0,058752

5,827752

8,11E-05

0,214382

0,470401

Записываем уравнение парной линейной регрессии

Yx = 215,94+0,34x

Экономический смысл уравнения : с увеличением денежных доходов x на 1тыс. руб. – потребительские расходы y в среднем возрастает на 0,34 тыс. руб.

– Множественный коэффициент корреляции R=0,86

По формуле

Rxy =b = 0,34*382,79/152,47=0,85.

Cвязь между переменными x и y прямая, сильная, тесная, т. е. величина потребительских расходов значительно зависит от денежных доходов.

– Коэффициент детерминации R2 = 0,74, т. е. в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Другими словами точность подбора уравнения регрессии 74% – высокая.

3. Для определения средней ошибки аппроксимации рассчитываем столбцы yx, y-yx, Ai:

Ai =I I *100, =15,75

Получаем значение средней ошибки аппроксимации =15,8%

Это означает, что, в среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.

А) по критерию Фишера

1. Выдвигаем нулевую гипотезу о статистической незначимости параметров регрессии и показателя корреляции a=b=rxy =0;

2. Фактическое значение критерия Fф = 33,96;

3. Для определения табличного значения критерия рассчитываем коэффициенты k1 =m=1 и

K2 = n-m-1=12 Fтабл = 4,75

4. Сравниваем фактическое и табличное значения критерия Fфакт >Fтабл, т. е. нулевую гипотезу отклоняем и делаем вывод о статистической значимости и надежности полученной модели.

Б) по критерию Стьюдента:

1. Выдвигаем нулевую гипотезу о статистически незначимом отличии показателей от нуля: a=b=rxy =0;

2. Табличное значение t-критерия зависит от числа степеней свободы и заданного уровня значимости α. Уровень значимости – это вероятность отвергнуть правильную гипотезу при условии, что она верна. Для числа степеней свободы 12 и уровня значимости α =0,05 tтабл =2,18

3. Фактическое значение t – критерия рассчитываются отдельно для каждого параметра модели. С этой целью сначала определяются случайные ошибки параметров ma, mb, mrxy.

Ma = 53,26, mb =0,06, mrxy =0,152, где Sост =.

N -число наблюдений, число независимых переменных.

Рассчитываем фактические значения t – критерия:

Tфа = =215,94/53,26 = 4,05; tфr = = 0,85/0,152 = 5,6.

T фb = = 0,34/0,06 = 5,7;

4.Сравним фактические значения t-критерия с табличным значением:

Tфа > tтабл; tфb > tтабл ; tфr > tтабл.

Нулевую гипотезу отклоняем, параметры a, b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.

В) Чтобы рассчитать доверительный интервал для параметров регрессии a, b, необходимо определить предельную ошибку параметров:

∆a = tтабл ma = 2,18*53,26=116,11 ∆a = tтабл mb =2,18*0,06 = 0,13

Доверительный интервалы: γa = a ± ∆a = 215,94 ± 116,11

99,83 ≤ a ≤ 332,05

γb = b ± ∆b = 0,34 ± 0,13

0,21 ≤ b ≤ 0,47

Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью

P = 1 – α = 0,95 параметры a и b не принимают нулевых значений, т. е. являются статистически значимыми и надежными.

Выводы:

– Уравнение парной линейной регрессии yx = 215,94+0,34x. Экономический смысл уравнения: с увеличением денежных доходов x на 1тыс. руб. – потребительские расходы y в среднем возрастает на 0,34 тыс. руб.

– Множественный коэффициент корреляции R=0,86 указывает на связь между переменными x и y прямая, сильная, тесная, т. е. величина потребительских расходов значительно зависит от денежных доходов.

– Коэффициент детерминации R2 = 0,74,показывает, что в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Точность подбора уравнения регрессии 74% – высокая.

– Значение средней ошибки аппроксимации =15,8% означает, что среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.

– Фактическое значение больше табличного значения критерия Fфакт >Fтабл, указывает, что полученная модель статистически значима и надежна

– При сравнении фактических значений t-критерия с табличным значением, получаем, что параметры a, b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.

– Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью p = 1 – α = 0,95 параметры a и b не принимают нулевых значений, т. е. являются статистически значимыми и надежными.

Задача 2

По данным газеты “Из рук в руки” была сделана мной выборка данных о стоимости квартир на вторичном рынке за определенный период (от 25 мая 2009г). Выборка содержит 20 данных. В качестве факторов, влияющих на стоимость квартир выбрала число комнат (х1 ), общая площадь (х2 ), жилая площадь (х3 ), площадь кухни (х4 ). Необходимо построить уравнение регрессии, характеризующее зависимость цены от всех качеств. Оценить экономический смысл и значимость полученного уравнения.

1. Вводим данные в таблицу (EXCEL) – столбцы № x1 , х2 , х3 , х4 ,y. Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу [Приложение1]

0

x1

x2

x3

x4

y

1

1

32

19

6

1200

2

1

36

18

6

1400

3

1

29

16

5

980

4

1

29

16

5

1100

5

2

43

28,8

9

1420

6

2

52

34

10

1950

7

2

45

30

9

980

8

2

46

29

9

1350

9

3

54

38

11

1800

10

4

58

40

12

2500

11

3

50

35

10

1700

12

3

60

38

11

2100

13

4

70

52

16

1750

14

4

70

52

16

2950

15

4

76

49

15

3500

16

4

68

47

14

2400

17

5

145

86

26

5800

18

5

82

65

19

4500

19

5

83

66

20

4000

20

5

130

78

24

6500

Сумма

61

1258

836,8

253

49880

Ср. значение

3,05

62,9

41,84

12,7

2494

Найдем средние квадратические отклонения признаков:

σy = = 1556,86;

σx1 = = 1,43;

σx2 = = 29,74;

σx3 = = 19,63;

σx4 = = 5,90;

2. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

Y = a + b1 x1 + b2 x2 + b3 x3 + b4 x4.

Найдем матрицу парных коэффициентов корреляции (Данные Анализ данных Корреляция)

Получаем следующий результат:

x1

x2

x3

x4

y

x1

1

x2

0,847337

1

x3

0,940703

0,964635

1

x4

0,931673

0,968788

0,998364

1

y

0,833719

0,949023

0,930686

0,934761

1

1 столбец матрицы содержит коэффициенты корреляции y с каждым из факторов x. Таким образом, наиболее сильное влияние на стоимость квартиры оказывают факторы x2 ;x3 ;x4 .

С помощью инструмента Регрессия (Данные Анализ данных Регрессия) получаем следующие результаты:

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,951256

R-квадрат

0,904889

Нормированный R-квадрат

0,879526

Стандартная ошибка

554,416

Наблюдения

20

Дисперсионный анализ

Df

SS

MS

F

Значимость F

Регрессия

4

43865823

10966455,67

35,6775234

1,69079E-07

Остаток

15

4610657

307377,1554

Итого

19

48476480

Коэффициенты

Стандартная ошибка

T-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-688,384

308,7638

-2,229485916

0,04148909

-1346,49885

-30,2701

x1

67,88611

351,3708

0,193203645

0,84939123

-681,042959

816,8152

x2

39,08366

21,70148

1,800967381

0,09184344

-7,17195183

85,33927

x3

-31,251

130,6937

-0,239116437

0,81425164

-309,817992

247,316

x4

144,2302

404,6624

0,35642105

0,72648905

-718,287253

1006,748

Таким образом, получили уравнение множественной регрессии:

Yx = 67,89×1 + 39,08×2 – 31,25×3 +144,23×4 – 688,38

Экономический смысл уравнения: при увеличении числа комнат квартиры х1 , цена квартиры увеличивается на 67,89 тыс. руб.; при увеличении общей площади квартиры х2 , цена квартиры увеличивается на 39,08 тыс. руб.; при увеличении жилой площади квартиры х3 , цена квартиры уменьшается на 31,25 тыс. руб.; при увеличении площади кухни х4 , цена квартиры увеличивается на 144,23 тыс. руб.

– Остаточная дисперсия: σ2 = 230532,9.

– Средняя ошибка аппроксимации: = 19%. Качество модели, исходя из относительных отклонений по каждому наблюдения, признается плохим, т. к. средняя ошибка аппроксимация превышает 15%.

– Множественный коэффициент корреляции R= 0,951.

– Коэффициент детерминации R2 = 0,905. Нескорректированный коэффициент детерминации R2 оценивает долю дисперсии стоимости за счет предоставленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 90,5% и указывает на весьма высокую степень обусловленности вариации стоимости с вариацией факторов, т. е. на весьма тесную связь факторов со стоимостью.

– Cкорректированный коэффициент детерминации 2 = 0,88 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Все четыре коэффициента указывают на весьма высокую 88% детерминированность стоимости y в модели с факторами x1 , х2 , х3 , х4 .

3.Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерия Фишера:

Число наблюдений n =20, число независимых переменных m=4, отсюда

K1 =4, k2 =20-4-1 =15.

Fфакт. = = 35,68.

Получили, что Fфакт. > Fтабл. = 3,06 (при n=20), т. е. вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Таким образом, подтверждается статистическая значимость всего уравнения и показателя тесноты связи.

4. Оценим статистическую значимость параметров чистой регрессии с помощью t – критерия Стьюдента.

Фактические значения t-критерия:

Tx4 = b4 /se4 = 144,23/404,66 = 0,356;

Tx3 = b3 /se3 = -31,251/130,694= – 0,239;

Tx2 = b2 /se2 = 39,08/21,7 =1,80;

Tx1 = b1 /se1 = 67,89/351,4 = 0,193.

Табличное значение критерия при уровне значимости α=0,05 и числе степеней k = 15 составит tтабл = 2,13.

Таким образом, признается статистическая значимость параметра x4, т. к. tx4 >tтабл, и случайная природа формирования параметра x1 ,x2 ,x3 , tx1 <tтабл, tx2 <tтабл, tx3 <tтабл.

Доверительные интервалы для параметров чистой регрессии:

-681,04 x1 816,82; -309,82 x3 247,32;

-7,17 x2 85,34; -718,29 x4 1006,75.

Выводы:

– Уравнение множественной регрессии

Yx = 67,89×1 + 39,08×2 – 31,25×3 +144,23×4 – 688,38.

Экономический смысл уравнения: при увеличении числа комнат квартиры х1 , цена квартиры увеличивается на 67,89 тыс. руб.; при увеличении общей площади квартиры х2 , цена квартиры увеличивается на 39,08 тыс. руб.; при увеличении жилой площади квартиры х3 , цена квартиры уменьшается на 31,25 тыс. руб.; при увеличении площади кухни х4 , цена квартиры увеличивается на 144,23 тыс. руб. Множественный коэффициент корреляции R=0,95 указывает на связь между переменными x и y прямая, сильная, тесная, т. е. величина потребительских расходов значительно зависит от денежных доходов.

– Коэффициент детерминации R2 = 0,905, указывает на весьма высокую степень обусловленности вариации стоимости с вариацией факторов, т. е. на весьма тесную связь факторов со стоимостью. Точность подбора уравнения регрессии 95% – высокая.

– Cкорректированный коэффициент детерминации 2 = 0,88, указывают на весьма высокую 88% детерминированность стоимости y в модели с факторами x1 , х2 , х3 , х4 .

– Средняя ошибка аппроксимации: = 19%. Качество модели, исходя из относительных отклонений по каждому наблюдения, признается плохим, т. к. средняя ошибка аппроксимация превышает 15%.

– Фактическое значение больше табличного значения критерия Fфакт >Fтабл, подтверждается статистическая значимость всего уравнения и показателя тесноты связи.

– При сравнении фактических значений t-критерия с табличным, признается статистическая значимость параметра x4, т. к. tx4 >tтабл, и случайная природа формирования параметра x1 ,x2 ,x3 , tx1 <tтабл, tx2 <tтабл, tx3 <tтабл.

Список литературы

1) Эконометрика: Учебник / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с.

2) Практикум по эконометрике: Учеб. пособие / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.

3) Практикум по эконометрике с применение MS Excel / Шалабанов А. К., Роганов Д. А. – Казань: Издательский центр Академии управления “ТИСБИ”, 2008 – 53 с.

4) Кремер Н. Ш., Путко Б. А. Эконометрика: Учебник для вузов / Под ред. проф. Н. Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.

X1

X2

X3

X4

Y

Y2

X12

X22

X32

X42

X1 *y

X2 *y

X3 *y

X4 *y

Yx

Y-yx

(y-yx )2

Ai

1

1

32

19

6

1200

1440000

1

1024

361

36

1200

38400

22800

7200

901,7

298,3

88982,9

24,858

2

1

36

18

6

1400

1960000

1

1296

324

36

1400

50400

25200

8400

1089,27

310,73

96553,1

22,195

3

1

29

16

5

980

960400

1

841

256

25

980

28420

15680

4900

733,98

246,02

60525,8

25,104

4

1

29

16

5

1100

1210000

1

841

256

25

1100

31900

17600

5500

733,98

366,02

133971

33,275

5

2

43

28,8

9

1420

2016400

4

1849

829,4

81

2840

61060

40896

12780

1525,91

-105,9

11216,9

7,4585

6

2

52

34

10

1950

3802500

4

2704

1156

100

3900

101400

66300

19500

1859,36

90,64

8215,61

4,6482

7

2

45

30

9

980

960400

4

2025

900

81

1960

44100

29400

8820

1566,57

-586,6

344064

59,854

8

2

46

29

9

1350

1822500

4

2116

841

81

2700

62100

39150

12150

1636,9

-286,9

82311,6

21,252

9

3

54

38

11

1800

3240000

9

2916

1444

121

5400

97200

68400

19800

2024,64

-224,6

50463,1

12,48

10

4

58

40

12

2500

6250000

16

3364

1600

144

10000

145000

100000

30000

2330,58

169,42

28703,1

6,7768

11

3

50

35

10

1700

2890000

9

2500

1225

100

5100

85000

59500

17000

1817,84

-117,8

13886,3

6,9318

12

3

60

38

11

2100

4410000

9

3600

1444

121

6300

126000

79800

23100

2259,12

-159,1

25319,2

7,5771

13

4

70

52

16

1750

3062500

16

4900

2704

256

7000

122500

91000

28000

3001,46

-1251

1566152

71,512

14

4

70

52

16

2950

8702500

16

4900

2704

256

11800

206500

153400

47200

3001,46

-51,46

2648,13

1,7444

15

4

76

49

15

3500

12250000

16

5776

2401

225

14000

266000

171500

52500

3185,46

314,54

98935,4

8,9869

16

4

68

47

14

2400

5760000

16

4624

2209

196

9600

163200

112800

33600

2791,09

-391,1

152951

16,295

17

5

145

86

26

5800

33640000

25

21025

7396

676

29000

841000

498800

150800

6380,15

-580,1

336574

10,003

18

5

82

65

19

4500

20250000

25

6724

4225

361

22500

369000

292500

85500

3564,75

935,25

874693

20,783

19

5

83

66

20

4000

16000000

25

6889

4356

400

20000

332000

264000

80000

3716,81

283,19

80196,6

7,0798

20

5

130

78

24

6500

42250000

25

16900

6084

576

32500

845000

507000

156000

5755,49

744,51

554295

11,454

С

61

1258

836,8

253

49880

172877200

227

96814

42715

3897

2E+05

4016180

3E+06

802750

49876,5

3,48

4610658

380,27

Ср

3,1

62,9

41,84

12,7

2494

8643860

11,4

4841

2136

194,9

9464

200809

132786

40138

2493,83

0,174

230533

19,013


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (No Ratings Yet)
Loading...

Зараз ви читаєте: Статистическое моделирование 2