→ Следствием мультиколлинеарности является. Причины и последствия мультиколлинеарности. Обнаружение. Методы устранения мультиколлинеарности

Следствием мультиколлинеарности является. Причины и последствия мультиколлинеарности. Обнаружение. Методы устранения мультиколлинеарности

1.В модели с двумя переменными одним из признаков мультиколлинеарности является близкое к единице значение коэффициента парной корреляции . Если значение хотя бы одного из коэффициентов парной корреляции больше, чем 0,8, то мультиколлинеарность представляет собой серьезную проблему.

Однако в модели с числом независимых переменных больше двух, парный коэффициент корреляции может принимать небольшое значение даже в случае наличия мультиколлинеарности. В этом случае лучше рассматривать частные коэффициенты корреляции.

2. Для проверки мультиколлинеарности можно рассмотреть детерминант матрицы коэффициентов парной корреляции |r|. Этот детерминант называется детерминантом корреляции |r| ∈(0; 1). Если |r| = 0, то существует полная мультиколлинеарность. Если |r|=1, то мультиколлинеарность отсутствует. Чем ближе |r| к нулю, тем более вероятно наличие мультиколлинеарности.

3. Если оценки имеют большие стандартные ошибки, невысокую значимость, но модель в целом значима (имеет высокий коэффициент детерминации), то это свидетельствует о наличие мультиколлинеарности.

4. Если введение в модель новой независимой переменной приводит к существенному изменению оценок параметров и небольшому изменению коэффициента детерминации, то новая переменная находится в линейной зависимости от остальных переменных

65. Фиктивные переменные: определение, назначение, типы, смысл названий.

Фиктивные переменные – это переменные с дискретным множеством значений, которые количественным образом описывают качественные признаки. В эконометрических моделях обычно используются фиктивные переменные бинарного типа “0-1”.

Фиктивные переменные необходимы для оценки качественных признаков на эндогенную переменную. Например, при оценке спроса на некоторый товар мы построили регрессионную модель, регрессорами в которой в которой были количественные переменные – цены и дохода потребителя. Одним из способов уточнения данной модели может послужить включение таких качественных признаков, как вкус потребителя, возраст, национальные особенности, сезонность и т.д. Эти показатели нельзя представить в численном виде. Поэтому возникает задача отражения их влияния на значения эндогенной переменной, которая решается как раз при помощи введения фиктивных переменных.

В общем случае, когда качественный признак имеет более двух значений, вводится несколько бинарных переменных. При использовании нескольких бинарных переменных необходимо исключить линейную зависимость между переменными, так как в противном случае, при оценке параметров, это приведет к совершенной мультиколлинеарности. Поэтому применяется следующее правило: если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1) фиктивная переменная.

В регрессионных моделях применяются фиктивные переменные двух типов:

1. Фиктивные переменные сдвига

2. Фиктивные переменные наклона – это переменная, которая изменяет наклон линии регрессии. При помощи таких фиктивных переменных можно построить кусочно-линейные модели, которые позволяют учесть структурные изменения в экономических процессах (например, введение новых правовых или налоговых ограничений, изменение политической ситуации и т.д.) Такие переменные применяются, когда изменение качественного признака приводит не к параллельному сдвигу графика регрессии, а к изменению его наклона. Собственно поэтому такие фиктивные переменные и называются переменными наклона.

66. Фиктивная переменная сдвига: спецификация регрессионной модели с фиктивной переменной сдвига.

Фиктивные переменные сдвига – эти переменные применяются в динамических моделях, когда с определенного момента времени начинает действовать какой-либо качественный фактор (например, при рассмотрении производительности завода до забастовки рабочих и во время нее). Эти переменные применяются, когда изменение качественного признака приводит к параллельному сдвигу графика регрессионной модели, поэтому они и называются переменными сдвига.

Спецификация парной регрессионной модели с фиктивной перемен­ной сдвига имеет вид:

Где α, β, δ – параметры модели; – значение регрессора в наблюдении t;

Фиктивная переменная;

δ – параметр при фиктивной переменной.

Значение фиктивной переменной dt=0 называется базовым (сравнительным). Базовое значение может либо определяться целями исследования, либо выбираться произвольно. Если заменить базовое значение переменной, то суть модели не изменится, изменится знак параметра δ на противоположный.

Рассмотрим парную регрессионную модель с фиктивной переменной сдвига на примере.

Пусть на продажи мороженого влияет наличие рекламы на фургоне у продавца. При помощи уравнения с фиктивными переменными можно, использую одно уравнение регрессии, получить результат как для продавцов с рекламой, так и для продавцов без рекламы.

Пусть первоначальная модель описывается спецификацией:

Где n – количество продавцов мороженого, – количество продаж для t-го продавца, – значение количественного регрессора для t-го продавца

Введем фиктивную переменную сдвига

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), i=1,n , (1)
где x и y – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят t кр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.

По таблице Стьюдента находим Tтабл
t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

y x 1 x 2 x 3
y 1,0
x 1 0,30 1,0
x 2 0,60 0,10 1,0
x 3 0,40 0,15 0,80 1,0
Оцените мультиколлинеарность факторов. Постройте уравнение регрессии в стандартном масштабе и сделайте выводы.
Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

37. Определение мультиколлинеарности. Последствия мультиколлинеарности. Методы обнаружения мультиколлинеарности

Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х :

Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n , то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х .

Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:

1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ ).

Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

где rij – линейный коэффициент парной корреляции между i -м и j -ым факторными переменными,

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:

1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;

2) вычисляют собственные числа корреляционной матрицы факторных переменных ?min и ? max . Если ? min‹10-5 , то в модели регрессии присутствует мультиколлинеарность. Если отношение

то также делают вывод о наличии мультиколлинеарных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.

Данный текст является ознакомительным фрагментом. Из книги 100 великих чудес техники автора Мусский Сергей Анатольевич

Самолет дальнего радиолокационного обнаружения «Боинг» E-3 Это было 8 мая 1942 года в Коралловом море. «В 10 часов 55 минут радиолокационная установка обнаружила большую группу вражеских самолетов, подходившую с северо-востока. В 11 часов 13 минут наблюдатели «Лексингтона»

Из книги Энциклопедия безопасности автора Громов В И

1.3.5. Средства обнаружения и обезвреживания мин Обнаружение мин, отдельных фугасов, а также минированных участков производится:- по внешним признакам;- специальными приборами (миноискатели, щупы, стетоскопы);- собаками минорозыскной службы.*Демаскирующие признаки

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

38. Методы устранения мультиколлинеарности Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным

Из книги Судебная медицина и психиатрия: Шпаргалка автора Автор неизвестен

Из книги Гражданский кодекс РФ автора ГАРАНТ

Из книги "Шпионские штучки 2" или как сберечь свои секреты автора Андрианов Владимир Ильич

4.2. Специальные инструменты для обнаружения тайников 4.2.1. Поисковое зеркалоОсновным инструментом для обнаружения тайников является поисковое зеркало. Оно может быть маленьким, примерно как у зубного врача, может быть и гораздо больше. Зеркало (рис. 4.2) крепится на

Из книги Криминалистика. Шпаргалки автора Петренко Андрей Витальевич

27. Правила и классификация методов обнаружения следов 1. Первыми должны применяться неразрушающие методы. Необходимо начинать с микрометодов: не осталось ли каких-либо жировых следов, мельчайших клеточек отслоившейся кожи.2. Далее применяются неразрушающие методы,

Из книги Сила шаманов. Боевая и лечебная магия индейцев Дикого Запада автора Стукалин Юрий Викторович

38. Следы зубов: особенности обнаружения и их признаки Достаточно распространенными являются трассологические исследования следов зубов человека. Криминалистика изучает только следы зубов на материалах, поверхностях, еде; следы на теле человека - предмет изучения

Из книги Учебник выживания снайпера [«Стреляй редко, но метко!»] автора Федосеев Семён Леонидович

41. Особенности обнаружения, изъятия пуль и гильз В большинстве случаев гильза остается на месте преступления, способ обнаружения может быть: а) выборочный; б) сплошной.Применение выборочного способа для короткоствольного оружия таково:- устанавливается

Из книги Обман и провокации в малом и среднем бизнесе автора Гладкий Алексей Анатольевич

57. Средства для обнаружения микрообъектов Микрообъекты - это материальные объекты, связанные с событием преступления, поиск, обнаружение, изъятие и исследование которых ввиду их малых размеров и массы затруднительны или невозможны невооруженным глазом.Действия с

Из книги Базовая подготовка спецназа [Экстремальное выживание] автора Ардашев Алексей Николаевич

58. Особенности обнаружения микрообъектов Поиск и обнаружение микрообъектов должны осуществляться с соблюдением мер предосторожности. Все объекты сначала осматриваются без каких-либо перемещений; при изменении положения объекта под него помещают чистый лист кальки,

Из книги автора

Методы обнаружения колдунов «Есть много способов отличить колдуна от шамана, хотя большинство людей, обладающих мощной Силой, практикуют и то и другое, – говорили чирикауа апачи. – Человек мог жить рядом с колдуном и не знать об этом. Например, колдуньей могла быть его

Из книги автора

Из книги автора

Антижучок, или Средства обнаружения шпионской аппаратуры Как уже отмечалось, в настоящее время на российском рынке представлено великое множество самых разных шпионских устройств и разведывательной аппаратуры: скрытые микрофоны, жучки, системы скрытого


Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Исключение переменной(ых) из модели
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
Получение дополнительных данных или новой выборки
Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
Изменение спецификации модели
В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
Использование предварительной информации о некоторых параметрах
Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.
Пусть

Множественный коэффициент
корреляции между зависимой переменной Y и набором объясняющих переменных X 1,X 2,...,Xm. Он определяется как обычный парный коэффициент корреляции между Y и линейной функцией
регрессии Y = b0 + KX1 + b2X2+... + bmXm. Пусть amp; = R-1 - матрица, обратная к матрице R:


Тогда квадрат коэффициента Ry.X = Rr(xi,x2,..,x) может быть вычислен по формуле:


Подправленная на несмещенность оценка R*2.X коэффициента детерминации R2y.X имеет вид:

(Если поформуле (6.7) получают отрицательное число, то полагают


Нижняя доверительная граница для

определяется
по формуле:

На практике, при решении вопроса о том, какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов.
(j = 1, 2,..., m) . При этом

совпадает с квадратом обычного
парного коэффициента корреляции

Пусть


тогда наиболее информативной будет переменная xp. Затем рассчитывают подправленный на несмещенность коэффициент
(при m = 1) и его нижнюю доверительную границу R2min (1) .


более информативной будет пара jxp,xq). Затемрассчитывают подправленный на несмещенность коэффициент(при m = 2)
и его нижнюю доверительную границу R2min (2) .

Процедуру продолжают до тех пор, когда на шаге (к +1) выполнится условие:
Тогда в модель включают наиболее информативные переменные, полученные на первых к шагах. Отметим, что в расчетах используют формулы (6.7) и (6.8), в которых вместо т берут соответствующее значение номера шага к.
На самом деле этот метод не гарантирует, что мы избавимся от мультиколлинеарности.
Используют и другие методы устранения мультиколлинеарности.
Пример 6.1. Имеются следующие условные данные (табл. 6.1):
Таблица 6.1
Данные для метода последовательного включения


Х1

Х2

Х3

У

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент

Тогда:


Рассмотрим влияние на зависимую переменную пар переменных (x1, x2) и (x1, x3). Сначала рассмотрим влияние пары переменных (x1, x2).



icuvum uvjpcuuivi, ыхсдул рсьимслдсіцшім мсіида ііи^ісдиьсіїсльпи-
го присоединения переменных, в уравнение следует включить две объясняющие переменные. Следовательно, теоретическое уравнение примет вид:
Гребневой метод
Рассмотрим «гребневой метод» («ридж-регрессия») устранения мультиколлинеарности. Метод был предложен А. Э. Хоэрлом в 1962 г. и применяется, когда матрица (xtX) близка к вырожденной. К диагональным элементам матрицы (xtX) добавляют некоторое небольшое число (от 0,1 до 0,4). При этом получают смещенные оценки параметров уравнения. Но стандартные ошибки таких оценок в случае мультиколлинеарности ниже ошибок даваемых обычным методом наименьших квадратов.
Пример 6.2. Исходные данные представлены « табл6 2 Коэффициент корреляции объясняющих переменных

что
свидетельствует о сильной мультиколлинеарности.
Таблица 6.2
Данные для исследования мультиколлинеарности гребневым методом


x1

x2

У

1

1,4

7

2

3,1

12


Тогда получим уравнение у = 2,63 +1,37x1 + 1,95x2. Диагональные элементы обратной матрицы значительно снизятся и будут равны z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, что приводит к снижению стандартных ошибок коэффициентов.
Резюме
Среди основных последствий, к которым может привести мультиколлинеарность, можно выделить следующие:
  1. при проверке основной гипотезы о незначимости коэффициентов множественной регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии при проверке с помощью A-критерия оказывается значимым, что говорит о завышенной величине коэффициента множественной корреляции;
  2. полученные оценки коэффициентов уравнения множественной регрессии в основном неоправданно завышены или имеют неправильные знаки;
  3. добавление или исключение из исходных данных одного- двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
  4. наличие мультиколлинеарности в модели множественной регрессии может сделать ее непригодной для дальнейшего применения (например, для построения прогнозов).
Вопросы для самопроверки
  1. Что такое мультиколлинеарность?
  2. Какие показатели свидетельствуют о наличии мультиколлинеарности?
  3. Чему равен определитель матрицы XTX в случае совершенной мультиколлинеарности?
  4. Что можно сказать о смысле коэффициентов при объясняющих переменных в случае мультиколлинеарности?
  5. Какое преобразование производят в гребневом методе, к чему оно приводит?
  6. Каков порядок действий в методе последовательного увеличения числа объясняющих переменных?
  7. Что показывает коэффициент корреляции?
  8. Что показывает частный коэффициент корреляции?

Внешним признаком наличия мультиколлинеарности служат слишком большие значения элементов матрицы (Х Т Х)~ 1 . Подробнее определение матрицы (Х Т Х) Х и ее использование см. в гл. 4, параграф 4.2.

Основной признак мультиколлинеарности: определитель корреляционной матрицы R x x . близок к нулю. Если все объясняющие переменные некорре- лированы между собой, то R XjX . | = 1, в противном случае 0 R x . x . |

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

  • 1. Коэффициент детерминации К 2 достаточно высок, высокая f-ста- тистика, но некоторые (иногда все) из коэффициентов уравнения множественной линейной регрессии статистически незначимы (имеют низкие 7-статистики).
  • 2. Высокие парные коэффициенты корреляции и высокие частные коэффициенты корреляции.

Определение 7.1. Частным коэффициентом корреляции называется коэффициент корреляции между двумя объясняющими переменными, «очищенный» от влияния других переменных.

Например, при трех объясняющих переменных Х 1у Х 2 , Х 3 частный коэффициент корреляции между Х { и Х 3 , «очищенный» отХ 2 , рассчитывается по формуле

Замечание 7.2. Частный коэффициент корреляции может существенно отличаться от «обычного» (парного) коэффициента корреляции. Для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать все частные коэффициенты корреляции.

Общее выражение для определения коэффициента частной корреляции

где Cjj - элементы матрицы С = R~ x - матрицы, обратной к матрице межфакторной парной корреляции R VjX . (7.1).

  • 3. Сильная регрессия между объясняющими переменными. Какая-либо из объясняющих переменных является комбинацией других объясняющих переменных (линейной или близкой к линейной).
  • 4. Знаки коэффициентов регрессии противоположны ожидаемым из экономических предпосылок.
  • 5. Добавление или удаление наблюдений из выборки сильно изменяет значения оценок.

Рассмотрим несколько примеров, иллюстрирующих вышесказанное.

Пример 7.4

На объем выпуска продукции у оказывают влияние следующие основные факторы: х х - количество сотрудников, работающих па предприятии; х 2 - стоимость основных фондов; х 3 - средняя заработная плата сотрудников. Уравнение линейной множественной регрессии имеет вид у = b 0 + b { x x + b 2 x 2 + b 3 x 3 .

Матрица коэффициентов парной корреляции для данной модели

Определитель матрицы |Д | = 0,302. В этой модели факторы и х 2 , а также х { и х 3 связаны слабо, напротив, факторы х 2 и х 3 связаны сильно: г^ з =0,8. Возможно, сильная связь между факторами х 2 и х л объясняется тем, что на дорогом оборудовании работают высококвалифицированные рабочие, имеющие более высокую заработную плату.

Парные коэффициенты корреляции результирующей переменной с факторами оказались равными: т уГ| =0,7; г ух.^ =0,8; г ухз =0,75. Полная матрица парных коэффициентов корреляции имеет вид

Все факторы оказывают заметное влияние на результат. Так как в модель регрессии должны быть включены факторы, тесно связанные с результатом и слабо связанные друг с другом, то в данном примере подходят одновременно две модели регрессии: у, = f(x v х 2)и у 2 = f(x v x 3).

Пример 7.5

Выясним наличие мультиколлинеарности для выборочных данных, приведенных в табл. 7.2.

Исходные данные для примера 7.2

Таблица 7.2

X,

Решение. Парные коэффициенты корреляции, рассчитанные по формуле (7.2), приведены в табл. 7.3.

Таблица 73

Парные коэффициенты корреляции

Из данных, приведенных в таблице, ясно, что есть сильная корреляция между переменными.Г[ и х 2 . Коэффициенты парной корреляции можно также определить, используя средство «Пакет анализа» Microsoft Excel (инструмент «Корреляция»),

Проверим корреляцию между объясняемой и объясняющими переменными, для этого воспользуемся инструментом «Корреляция» Microsoft Excel (можно рассчитать коэффициенты корреляции г Х1/ , используя формулу (7.2)). Результаты представлены на рис. 7.1.


Рис. 7.1. Результаты расчета корреляции между объясняемой и объясняющими переменными в Microsoft Excel

Рассчитаем частные коэффициенты корреляции но формуле (7.4), так как в этом примере всего три объясняющие переменные (можно найти частные коэффициенты корреляции и по формуле (7.5), предварительно найдя обратную матрицу С= R {):

Наибольшим оказался частный коэффициент корреляции между переменными х х их 2 . Частный коэффициент корреляции г ХхХ ^ Х2 самый меньший и противоположный но знаку парному коэффициенту г х х.

Ответ. В модели присутствует сильная корреляция между переменными х х и х 2 .

 

 

Это интересно: