Post on 20-Jan-2021
1
Мультиколлинеарность
Лекция по эконометрике № 5, 2 модуль
ДемидоваОльга Анатольевна
https://www.hse.ru/staff/demidova_olgaE-mail:demidova@hse.ru
23.11.2020
2
•Идеальная и практическая мультиколлинеарность (квазимультиколлинеарность).
•Последствия мультиколлинеарности
•Признаки наличия мультиколлинеарности
•Показатели степени мультиколлинеарности
•Методы борьбы с мультиколлинеарностью
План лекции № 5, 2 модуль
3
Мультиколлинеарность
1
Теоретическая мультиколлинеарность данных –явление, наблюдаемое при нарушении условий теоремы Гаусса – Маркова об отсутствии точной линейной связи между регрессорами. При наличии теоретической мультиколлинеарности однозначное нахождение оценов МНК коэффициентов регрессии невозможно.
4
Теоретическая мультиколлинеарность
photo
Y = β0 + β1X1 +…+ βKXK + ε,
Теоретическая мультиколлинеарность: Rank(X) < k + 1
Ex.1.
Ex.2.
1 2 3 4ln ,wage S MALE FEMALE
FEMALE MALE i
1 2 3 4ln ,price livsq nonlivsq totsq
livsq nonlivsq totsq
5
Пример теоретической мультиколлинеарности
photo
Ex.3.
Dummy trap
1 2 3 4 5Pr ,I II III IV
I II III IV
ice D D D D
D D D D i
6
Квазимультиколлинеарность
При работе с реальными данными часто имеет место квазимультиколлинеарность, когда между регрессорами существует почти линейная зависимость.
0X)X(det
:остьколлинеарнкваимульти
0X)X(det1kX)Xrang(
1krangX
:инеарностьмультиколлкаятеоретичес
XY
7
Последствия мультиколлинеарности
photo
1
2 1
1 *
ˆ ( ) ' ,
ˆ( ) ( ' ) ,
1
d e t
X X X Y
V a r X X
A AA
Нестабильность оценок параметров регрессии и их дисперсий при малых изменениях исходных данных в случае мультиколлинеарности
8
Мультиколлинеарность, пример
photo
1 1 2 2
21 1 2 2
1 2 2 1
2 1
1 1 1 2
2 1 2 2
1 2 2
. ,
' ' 1 , 1,
' ' ,
ˆv a r ( ) ( ' ) ,
' ' 1' ,
' ' 1
1ˆ ˆv a r ( ) v a r ( ) .1
E x y x x
x x x x
x x x x r
x x
x x x x rx x
x x x x r
r
9
Признаки мультиколлинеарности
3
•Небольшие изменения в данных приводят к значительным изменениям в оценках коэффициентов регрессии.
•Многие коэффициенты по-отдельности не значимы, хотя в целом регрессия адекватная, R2
может быть достаточно высоким.
•Оценки коэффициентов регрессии (обычно незначимых) могут иметь “неправильный” знак (с экономической точки зрения).
10
Индикаторы мультиколлинеарности
•В корреляционной матрице факторов встречаются элементы, по модулю близкие к 1.
• Достаточно большое значение VIF – variance inflation factor хотя бы для одного фактора
,1
1)( 2
jj R
XVIF
где Rj
2 – коэффициент множественной детерминации регрессора Xj на все остальные регрессоры.
2
2ˆ( ( ) , ( ) ( )).
(1 )j j j j j jj j
Var TSS X X i X X iTSS R
11
Индикаторы мультиколлинеарности
CN (conditional number)
m ax
m in
( ' )CN X X
CN – число обусловленности матрицы X’X.
Если этот показатель > 30, то это может свидетельствовать о мультиколлинеарности.
12
Пример мультиколлинеарности данных
Много незначимых коэффициентов
4534
231210
ASVABCASVABC
ASVABCSVABCSEARNINGS
reg EARNINGS S ASVAB01 ASVAB02 ASVAB03 ASVAB04
Source SS df MS Number of obs = 540F( 5, 534) = 30.60
Model 24945.2724 5 4989.05448 Prob > F = 0.0000Residual 87064.9587 534 163.042994 R-squared = 0.2227
Adj R-squared = 0.2154Total 112010.231 539 207.811189 Root MSE = 12.769
EARNINGS Coef. Std. Err. t P>t [95% Conf.Interval]
S 1.700556 .2781761 6.11 0.000 1.154102 2.247009ASVAB01 .0640055 .0997875 0.64 0.522 -.1320188 .2600297ASVAB02 .4385383 .091164 4.81 0.000 .2594542 .6176223ASVAB03 -.1433842 .1202383 -1.19 0.234 -.3795824 .0928139ASVAB04 -.0265344 .0985583 -0.27 0.788 -.2201438 .1670751_cons -20.48614 3.600184 -5.69 0.000 -27.5584 -13.41388
13
Пример мультиколлинеарности данных
vif
Variable VIF 1/VIF
ASVAB03 4.20 0.238017ASVAB04 3.01 0.332532ASVAB01 3.00 0.333805ASVAB02 2.64 0.378371S 1.52 0.657411
Mean VIF 2.87
14
Методы борьбы с мультиколлинеарностью
•Переспецификация модели (функциональные преобразования переменных)
•Исключение одной или нескольких объясняющих переменных
•Метод главных компонент
•Использование ridge (гребневых), LASSO и т.п. оценок параметров
15Demidova Olga, HSE, Advanced econometrics, 11.11.2015
Метод главных компонент
photo
1
2 21 11 1 1 1 11 1
1 1 1
1 1 1
1 1 1 1 1 1
1 1 1
1
1
[ , , ], [ ] ,
' , 1,
ar( ) max, ' 1,
( ) ' ,
( ) ' ( ' 1) max,
,
max ,
k
k k k
X X X Var X V
Z X X X
V Z
Var Z V
L V
V
is the characteristic root of V
is the corresponding characteristic vecto
.r
16
Метод главных компонент
photo
1
1
1 1
1 1 1 1
1
, , ( sin ),
, , .
: , , .
( ) , , ( ) .
, ,
k
k
k k
k k k k
k
Let are the characteristic root of V in decrea g order
are the corresponding characteristic vectors
Linear functions Z X Z X
ThenVar Z V Var Z V
Z Z are called the
1
1 1
1
1
1
, , .
Pr :
1) ( ) ( )
( ) ( ) ( )
2) , ,
, , .
k
k k
k
k
k
principal components of X X
operties of principal components
Var Z Var Z
trace V Var X Var X
are orthogonal vectors
Z Z are orthogonal or uncorrelated
17
Пример
photo
Доля общей дисперсии признаков, объясняемая одной, двумя, тремя и тд главными компотентами
18
Примеры
photo
1) См. примеры 4.1, 4.2 из книги «Прикладная
статистика в задачах и упражнениях», авторы
С.А.Айвазян, В.С.Мхитарян
2) См. кластеризацию регионов в пространстве двух
главных компонент в статье
«Метод кластеризации регионов РФ с учетом
отраслевой структуры ВРП», авторы C. А. Айвазян,
М. Ю. Афанасьев, А. В. Кудров
19
Пример 4.1
photo
20
Пример 4.1
photo
21
Пример 4.1
photo
22
Пример 4.2
photo
23
Пример 4.2
photo