Целью данной работы является произвести прогноз количества браков и разводов в городе Москве с применением эконометрических методов.
Задачи поставлены следующие:
1) изучить статистику по бракам-разводам согласно данным ЗАГСа;
2) выявить сезонность полученного временного ряда:
3) построить адекватную модель;
4) построить по модели прогноз и сопоставить его с реальными данными.
Для анализа временных рядов в нашей работе мы использовали данные о браках и разводах в Москве с официального сайта городского ЗАГСа. Таким образом, мы рассматривали статистику за каждый месяц в период с 2007-го по сентябрь 2014 года (http://zags.mos.ru/stat/gosudarstvennaya_registratsiya_aktov_grazhdanskogo_sostoyaniya/ Управление записи актов гражданкого состояния города Москвы)).
Раздел I
Браки
Построение аддитивной модели временного ряда.
Общий вид аддитивной модели следующий:
Y = T + S + E
Эта модель предполагает, что каждый уровень временного ряда может быть представлен как сумма трендовой (T), сезонной (S) и случайной (E) компонент.
Рассчитаем компоненты аддитивной модели временного ряда.
Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого:
1.1. Найдем скользящие средние (гр. 3 таблицы). Полученные таким образом выровненные значения уже не содержат сезонной компоненты.
1.2. Приведем эти значения в соответствие с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних – центрированные скользящие средние (гр. 4 табл.).
t |
yt |
Скользящая средняя |
Центрированная скользящая средняя |
Оценка сезонной компоненты |
1 |
4084 |
- |
- |
- |
2 |
4678 |
- |
- |
- |
3 |
4651 |
- |
- |
- |
4 |
7714 |
- |
- |
- |
5 |
3489 |
- |
- |
- |
6 |
9134 |
7338.33 |
- |
- |
7 |
10246 |
7356.42 |
7347.38 |
2898.63 |
** |
**** |
** |
******* |
***** |
78 |
11998 |
8049.17 |
8075.67 |
3922.33 |
79 |
11287 |
- |
- |
- |
80 |
13915 |
- |
- |
- |
81 |
11398 |
- |
- |
- |
82 |
7836 |
- |
- |
- |
83 |
7260 |
- |
- |
- |
84 |
6462 |
- |
- |
- |
Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда и центрированными скользящими средними (гр. 5 табл.). Используем эти оценки для расчета значений сезонной компоненты S. Для этого найдем средние за каждый квартал (по всем годам) оценки сезонной компоненты Si. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю.
Для данной модели имеем:
-3099.993 - 2517.417 - 2566.979 - 606.021 - 3297.264 + 2580.813 + 3311.326 + 4129.271 + 3383.694 + 489.521 - 917.59 - 926.375 = -37.014.
Корректирующий коэффициент: k=-37.014/12 = -3.084
Рассчитываем скорректированные значения сезонной компоненты Si и заносим полученные данные в таблицу.
Показатели |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
1 |
- |
- |
- |
- |
- |
- |
2898.63 |
3458.29 |
3146.21 |
167.25 |
-3.25 |
539.38 |
2 |
-2975.54 |
-2612.96 |
-1476.08 |
-1985.25 |
-2647.67 |
1737.58 |
2067.46 |
5317.71 |
2346.54 |
371.88 |
-763.13 |
-2019.21 |
3 |
-2051.08 |
-1612.54 |
-2915.83 |
58.71 |
-3050.67 |
2029.17 |
3303.71 |
4161.63 |
3643.79 |
865.79 |
-1641.25 |
-1479.25 |
4 |
-2610.83 |
-2759.54 |
-3934.54 |
2122.67 |
-3870.58 |
1550.25 |
4901.21 |
3323.83 |
3103.04 |
1275.04 |
-1436.13 |
-1608.63 |
5 |
-3240.21 |
-2580.5 |
-2578.88 |
-825.21 |
-3235.21 |
2866.63 |
3693.42 |
3457.33 |
4357.33 |
658.5 |
-96.63 |
-291.13 |
6 |
-3985.58 |
-2612.25 |
-3681.92 |
-501.92 |
-3572.38 |
3378.92 |
3003.54 |
5056.83 |
3705.25 |
-401.33 |
-1565.17 |
-699.42 |
7 |
-3736.71 |
-2926.71 |
-814.63 |
-2505.13 |
-3407.08 |
3922.33 |
- |
- |
- |
- |
- |
- |
Всего за период |
-18599.96 |
-15104.5 |
-15401.88 |
-3636.13 |
-19783.58 |
15484.88 |
19867.96 |
24775.63 |
20302.17 |
2937.12 |
-5505.54 |
-5558.25 |
Сред. оценка сезон. компоненты |
-3099.99 |
-2517.42 |
-2566.98 |
-606.02 |
-3297.26 |
2580.81 |
3311.33 |
4129.27 |
3383.69 |
489.52 |
-917.59 |
-926.38 |
Скорректир. сезон. компонента, Si |
-3096.91 |
-2514.33 |
-2563.89 |
-602.94 |
-3294.18 |
2583.9 |
3314.41 |
4132.36 |
3386.78 |
492.61 |
-914.51 |
-923.29 |
Шаг 3. Исключим влияние сезонной компоненты, вычитая ее значение из каждого уровня исходного временного ряда. Получим величины T + E = Y – S (гр. 4 табл.). Эти значения рассчитываются за каждый момент времени и содержат только тенденцию и случайную компоненту.
Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
a0n + a1∑t = ∑y
a0∑t + a1∑t2 = ∑y•t
Для наших данных система уравнений имеет вид:
84a0 + 3570a1 = 642295
3570a0 + 201110a1 = 27870790.49
Из первого уравнения выражаем а0 и подставим во второе уравнение
Получаем a0 = 11.61, a1 = 7153.04
Среднее значения
y = ∑yi/n = 642295/84 = 7646.37
x |
y |
x2 |
y2 |
x • y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
1 |
7180.91 |
1 |
51565447.82 |
7180.91 |
7164.64 |
216653.46 |
264.54 |
2 |
7192.33 |
4 |
51729642.13 |
14384.66 |
7176.25 |
206149.48 |
258.58 |
3 |
7214.89 |
9 |
52054705.18 |
21644.68 |
7187.86 |
186170.13 |
730.9 |
4 |
8316.94 |
16 |
69171430.13 |
33267.75 |
7199.47 |
449660.5 |
1248736.94 |
5 |
6783.18 |
25 |
46011522.75 |
33915.9 |
7211.08 |
745096.37 |
183094.81 |
** |
**** |
** |
******* |
***** |
***** |
***** |
****** |
** |
**** |
** |
******* |
***** |
***** |
***** |
****** |
83 |
8174.51 |
6889 |
66822544.86 |
678483.98 |
8116.49 |
278928.42 |
3366.25 |
84 |
7385.29 |
7056 |
54542515.91 |
620364.4 |
8128.09 |
68162 |
551757.4 |
3570 |
642295 |
201110 |
4977393159.21 |
27870790.49 |
642295 |
66168551.77 |
59514324.9 |
Шаг 4. Определим компоненту T данной модели. Для этого проведем аналитическое выравнивание ряда (T + E) с помощью линейного тренда. Результаты аналитического выравнивания следующие:
T = 7153.036 + 11.608t
t |
yt |
Si |
yt - Si |
T |
T + Si |
E = yt - (T + Si) |
E2 |
1 |
4084 |
-3096.91 |
7180.91 |
7164.64 |
4067.74 |
16.26 |
264.54 |
2 |
4678 |
-2514.33 |
7192.33 |
7176.25 |
4661.92 |
16.08 |
258.58 |
3 |
4651 |
-2563.89 |
7214.89 |
7187.86 |
4623.96 |
27.04 |
730.9 |
4 |
7714 |
-602.94 |
8316.94 |
7199.47 |
6596.53 |
1117.47 |
1248736.94 |
5 |
3489 |
-3294.18 |
6783.18 |
7211.08 |
3916.9 |
-427.9 |
183094.81 |
** |
**** |
***** |
**** |
***** |
***** |
**** |
****** |
82 |
7836 |
492.61 |
7343.39 |
8104.88 |
8597.48 |
-761.48 |
579857.74 |
83 |
7260 |
-914.51 |
8174.51 |
8116.49 |
7201.98 |
58.02 |
3366.25 |
84 |
6462 |
-923.29 |
7385.29 |
8128.09 |
7204.8 |
-742.8 |
551757.4 |
59514324.9 |
Подставляя в это уравнение значения t = 1,...,84, найдем уровни T для каждого момента времени (гр. 5 табл.).
Шаг 5. Найдем значения уровней ряда, полученные по аддитивной модели. Для этого прибавим к уровням T значения сезонной компоненты для соответствующих кварталов (гр. 6 табл.).
Для оценки качества построенной модели применим сумму квадратов полученных абсолютных ошибок.
R2 = 1 – (∑E2/∑yt – ȳ)2
Среднее значения
ȳ = ∑yi/n = 642295/84 = 7646.37
x |
y |
(yi-ycp)2 |
1 |
4084 |
12690473.23 |
2 |
4678 |
8811214.8 |
3 |
4651 |
8972235.73 |
4 |
7714 |
4573.95 |
5 |
3489 |
17283717.4 |
*** |
*** |
*** |
*** |
*** |
*** |
*** |
*** |
*** |
82 |
7836 |
35959.9 |
83 |
7260 |
149281.04 |
84 |
6462 |
1402730.04 |
3570 |
642295 |
655518751.56 |
Следовательно, можно сказать, что аддитивная модель объясняет 91% общей вариации уровней временного ряда.
Проверка адекватности модели данным наблюдения.
где m – количество факторов в уравнении тренда (m=1).
Fkp = 3,92
Поскольку F > Fkp, то уравнение статистически значимо.
Шаг 6. Прогнозирование по аддитивной модели. Построим прогноз на 2014 год и сравним полученные данные с фактическими. Также спрогнозируем количество заключенных браков на 2015 год.
Прогнозное значение Ft уровня временного ряда в аддитивной модели есть сумма трендовой и сезонной компонент. Для определения трендовой компоненты воспользуемся уравнением тренда: T = 7153.036 + 11.608t
Построим прогноз на 2014 год согласно уравнению и получим:
2014 год |
Факт |
Модель |
Расхождение |
Январь |
4702 |
5042.807 |
340.80 |
Февраль |
6341 |
5636.992 |
-704.01 |
Март |
5889 |
5599.037 |
-289.96 |
Апрель |
7576 |
7571.604 |
-4.39 |
Май |
5890 |
4891.969 |
-998.03 |
Июнь |
10276 |
10781.65 |
505.65 |
Июль |
12156 |
11523.78 |
-632.23 |
Август |
13823 |
12353.33 |
-1469.67 |
Сентябрь |
11030 |
11619.36 |
589.359 |
Аналогично построим прогноз на 2015 год
Как видно из таблицы, отклонение не превышает 10% от реального значения (в большинстве случаев оно меньше 5%), что говорит о правдивости прогноза.
Раздел II
Разводы
Аналогичные шаги предпримем для создания модели по данным о разводах. Для удобства предоставим только конечные результаты.
Уравнение тренда: T = 4088.018 -6.028t
Из таблицы видно, что полученные по модели значения отличаются от фактических не более, чем на 18%. Данный процент оказался выше, чем по бракам, что связано с не такой ярко выраженной стабильной сезонностью. Также можно заметить, что в отличие от браков, значение рассчитанные по модели обычно получаются меньше фактических. Это говорит о такой печальной тенденции, как увеличение числа разводов в Москве.
2014 |
Факт |
Модель |
Расхождение |
Январь |
3931 |
3197.656 |
-733.344 |
Февраль |
3368 |
2784.795 |
-583.205 |
Март |
3986 |
4039.697 |
53.697 |
Апрель |
4134 |
3788.023 |
-345.977 |
Май |
3772 |
3629.829 |
-142.171 |
Июнь |
3134 |
3256.703 |
122.703 |
Июль |
4097 |
3531.787 |
-565.213 |
Август |
3594 |
3404.453 |
-189.547 |
Сентябрь |
3671 |
3623.939 |
-47.061 |