Эксперт
Сергей
Сергей
Задать вопрос
Мы готовы помочь Вам.

Вид лабораторного занятия: лабораторная работа
Критерии выбора заданий: необходимо выполнить все задания
Требования к содержанию и оформлению письменной работы:
1. Работу следует выполнять с помощью ППП MS Excel, оформлять можно в виде DOC-
файла.
2. На титульном листе должны быть написаны фамилия, имя, отчество студента,
индивидуальный шифр, название дисциплины.
3. Перед решением каждой задачи надо выписывать полностью ее условие.
4. Решение задач следует излагать подробно и аккуратно, объясняя и мотивируя все
действия по ходу решения и делая (если это требуется) необходимые чертежи.
Тема № 3: «Множественная регрессия и корреляция»
Понятие о множественной регрессии
Множественный регрессионный анализ является развитием парного регрессионного
анализа применительно к случаям, когда зависимая переменная гипотетически связана с
более чем одной независимой переменной. Большая часть анализа будет
непосредственным расширением парной регрессионной модели, но здесь возникают ряд
проблем, о которых речь будет идти ниже.
Определение. Зависимость среднего значения какой–либо случайной величины
(результативного показателя) от нескольких других величин (регрессоров, независимых
переменных, аргументов) называется множественной регрессией.
Пример. 1) Урожайность какой–либо зерновой культуры зависит от сорта этой
культуры, от количества внесенных удобрений, состава почвы, количества осадков,
сроков уборки; 2) вес человека зависит от его роста, объема грудной клетки, возраста;
3) производительность труда – от стажа работы, уровня мастерства, автоматизации
производства, электровооруженности предприятия и других факторов.
Можно сказать, что множественная регрессия – это уравнение связи с несколькими
переменными:
( , , ,.., ) 1 2 3 p y  f x x x x
(1)
y — зависимая переменная – результативный признак;
 p x , x ,.., x 1 2 независимые
переменные, факторы, регрессоры, объясняющие переменные.
Множественная регрессия широко используется в решении проблем спроса,
доходности акций, при изучении функции издержек производства, в макроэкономических
расчетах и в ряде других вопросов эконометрики. Цель множественной регрессии –
построить модель с большим числом факторов, определив при этом влияние каждого из
них в отдельности, а также совокупное воздействие их на моделируемый
показатель. Построение уравнения множественной регрессии начинается с вопроса о
спецификации модели. Суть проблемы спецификации включает в себя два круга вопросов:
– выбор уравнения регрессии;
– отбор факторов.
Выбор уравнения регрессии
Как в парном, так и во множественном регрессионном анализе используются
линейные и нелинейные уравнения регрессии. Наиболее широко используются линейная и
степенная функция, поскольку они имеют четкую интерпретацию параметров.
В линейной множественной регрессии p p yˆ  b  b x  b x … b x 0 1 1 2 2 параметры при
X называются коэффициентами «чистой регрессии». Коэффициенты «чистой регрессии»
характеризуют среднее изменение результата с изменением соответствующего фактора на
единицу при неизменном значении других факторов, закрепленных на среднем
уровне. Свободный член 0 b
не подлежит экономической интерпретации. Его роль
сводится к тому, что он вбирает в себя информацию о прочих не учитываемых в модели
факторах. Формально его значение предполагает то значение объясняемой переменной,
когда все x  0, что практически не бывает.
Пример. Зависимость расходов на продукты питания по совокупности семей
характеризуется следующим уравнением: 1 2 yˆ  0,5  0,35x  0,73x , здесь y – расходы
семьи за месяц на питание; 1 x – месячный доход на 1 члена семьи; 2 x – размер семьи,
человек. Из данного уравнения следует, что если размер семьи увеличится на одного
человека, то расходы на питание увеличится на 730 руб., когда ежемесячный доход семьи
в расчете на одного человека остается постоянным. Кроме того, если доходы увеличатся
на 1000 руб. на одного члена семьи, то расходы на питание увеличатся на 350 руб.
Функция потребления t C
имеет вид 0 1 2 1
ˆ
    t t t C b b R b R
, то есть потребление в
момент времени t зависит от дохода того же периода t R
и от дохода предшествующего
периода t1 R
. Здесь 1 b – краткосрочная предельная срочность к потреблению; 1 2 b  b  b –
долгосрочная склонность к потреблению.
Функция потребления может рассматриваться в зависимости от прошлых привычек
потребления: 0 1 2 1
ˆ
    t t t C b b R b C
. Здесь t1 C
– предыдущий уровень
потребления. Долгосрочная предельная склонность к потреблению вычисляется по
формуле: 2
1
1 b
b
b


.
В степенной функции
bp
p
b b
x yˆ  b  x 1  x 2 … x
0 1 2 коэффициенты j b
являются
коэффициентами эластичности. Коэффициенты эластичности показывают на сколько
процентов в среднем изменяется результат с изменением соответствующего фактора на 1
% при неизменности действия других факторов. Этот вид уравнения регрессии получил
наибольшее распространение в производственных функциях, в исследованиях спроса и
предложения.
Проблема отбора факторов в модель
Отбор факторов, включаемых в регрессию, является одним из важнейших этапов
практического использования уравнения регрессии для описания, анализа и
прогнозирования.
При отборе факторов, включаемых во множественную регрессию необходимо
придерживаться следующих требований:
 Число объясняющих переменных должно быть в 6–7 раз меньше объема
совокупности, по которой строится регрессия. Если это соотношение нарушено, то
параметры уравнения регрессии становятся статистически незначимыми.
 Включаемые во множественную регрессию факторы должны объяснить
вариацию зависимой переменной. Если строится модель с набором p факторов, то для
нее рассчитывается показатель детерминации
2 R , который фиксирует долю объясненной
вариации результативного признака за счет рассматриваемых в регрессии
факторов. Влияние других, не учтенных в модели факторов, оценивается как  2  1 R .
 Факторы должны быть количественно измеримы. Если необходимо включить в
модель качественный фактор, то ему нужно придать количественную определенность:
проранжировать его или оценить в баллах.
 Факторы не должны быть взаимокоррелированными (интеркоррелированы), и,
тем более, находиться в точной функциональной связи. Считается, что две объясняющие
переменные i x
и j x
явно коллинеарны, то есть находятся между собой в линейной
зависимости, если коэффициент корреляции между ними
 0,7
xixj r
. Предпочтение
отдается при этом не фактору, более тесно связанному с результатом, а тому фактору,
который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с
другими факторами.
Пример. Рассмотрим уравнение регрессии себестоимости единицы продукции, руб.,
( y ) от заработной платы работника, руб., ( 1 x ) и производительности труда, единиц в час,
( 2 x ): 1 2 yˆ  22600 5x 10x (2)
Коэффициент регрессии при переменной 2 x показывает, что с ростом
производительности труда на 1 ед. себестоимость единицы продукции снижается на 10
руб. при постоянном уровне оплаты труда. Однако знак – перед параметром 1 x ,
безусловно, нельзя интерпретировать как уменьшение себестоимости при увеличении
оплаты труда, когда производительность остается на том же уровне. Отрицательное
значение коэффициента при 1 x , по всей видимости, свидетельствует о сильной
корреляции между оплатой труда и производительностью.
При дополнительном включении в уравнение регрессии факторов коэффициент
детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не
происходит, и данные показатели практически не отличаются друг от друга, то
включаемый в анализ дополнительный фактор не улучшает модель и является
лишним. Насыщение модели лишними факторами не только не снижает величину
остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к
статистической незначимости параметров регрессии по критерию Стьюдента.
Отбор факторов производится в два этапа. На первом этапе факторы отбираются на
основе качественного теоретико-экономического анализа. На втором – на основе матрицы
показателей корреляции и определения t статистики для параметров регрессии.
Пример. При изучении зависимости y  f x, y, z матрица парных коэффициентов
корреляции оказалась следующей:

screenshot 61 6

Анализ данной таблицы показывает, что факторы x и z дублируют друг друга. В
уравнение регрессии целесообразно включать фактор z , а не x , так как корреляция z с
результатом y хотя и слабее, зато слабее межфакторная корреляция.
Определение. Мультиколлинеарность – это коррелированность двух или нескольких
объясняющих переменных в уравнении регрессии.
Мультиколлинеарность может возникнуть вследствие того, что не выполняется
соотношение между числом объясняющих переменных и количеством наблюдений
(объемом выборки) или по причине неправильной спецификации модели.
Недостатки МНК-оценок при наличии мультиколлинеарности
При наличии мультиколлинеарности МНК–оценки формально существуют, но
имеют недостатки:
1) небольшое изменение исходных данных приводит к существенному изменению
оценок регрессии, что делает модель непригодной для анализа и прогнозирования;
2) оценки имеют большие стандартные ошибки, малую значимость, в то время как
модель в целом является значимой и индекс детерминации
2 R имеет высокое значение;
3) наличие коллинеарности затрудняет интерпретацию параметров множественной
регрессии как характеристик факторов в «чистом» виде; параметры линейной регрессии
теряют свой смысл; возможно получение неверного знака у коэффициента регрессии;
4) затрудняется определение вклада каждой из объясняющей переменных в
объяснимую уравнением регрессии дисперсию зависимой переменной.
Обнаружение и устранение мультиколлинеарности
Для обнаружения парной коллинеарности можно использовать матрицу
коэффициентов парной корреляции между факторами:

screenshot 62 4

Для оценки мультиколлинеарности факторов может использоваться определитель
матрицы парных коэффициентов корреляции между факторами
Det R
: чем ближе к нулю
определитель матрицы межфакторной корреляции, тем выше мультиколлинеарность
факторов и ненадежнее результаты множественной регрессии.
Для примера рассмотрим модель с тремя объясняющими переменными:
0 1 1 2 2 3 3 yˆ  b  b x  b x  b x
Матрица коэффициентов парной корреляции между факторами имеет

screenshot 63 4

Прежде чем указать основные методы устранения мультиколлинеарности отметим,
что в ряде случаев мультиколлинеарность не является серьезным недостатком, чтобы
прилагать усилия для ее устранения. Ответ на это зависит в основном от цели
исследования.
Если основная задача модели – прогноз будущих значений зависимой переменной,
то при достаточно большом коэффициенте детерминации (>0,9) наличие
мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Хотя
это утверждение будет обоснованным лишь в том случае, что и в будущем между
коррелированными переменными будут сохраняться те же отношения, что и ранее.
Если же целью исследования является определение степени влияния каждой из
объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности,
приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные
зависмости между переменными. В этой ситуации мультиколлинеарность представляется
серьезной проблемой.
Отметим, что единого метода устранения мультиколлинеарности, пригодного в
любом случае, не существует. Это связано с тем, что причины и последствия
мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Методы устранения мультиколлинеарности:
 простейшим методом устранения мультиколлинеарности является исключение из
модели одной или нескольких коррелированных переменных.
 иногда для уменьшения мультиколлинеарности достаточно увеличить объем
выборки.
 в ряде случаев проблема мультиколлинеарности может быть решена путем
изменения спецификации модели: либо изменяется форма модели, либо добавляются
объясняющие переменные, не учтенные в первоначальной модели, но существенно
влияющие на зависимую переменную. Например, для устранения мультиколлинеарности
можно перейти к совмещенным уравнениям регрессии, т.е. к уравнениям, которые не
только отражают влияние факторов, но и их взаимодействие. Например, для уравнения с
тремя объясняющими переменными можно построить следующую модель:

(5)
Рассматриваемая модель включает в себя взаимодействие первого порядка. Можно
включать в модель и взаимодействие более высоких порядков, однако, как правило,
взаимодействие третьего и более высокого порядка оказывается статистически
незначимым. Не всегда оказывается целесообразным включать в модель все факторы и
всех порядков. Если анализ совмещенного уравнения, к примеру, показал значимость
только взаимодействия факторов 1 x и 2 x , то уравнение будет иметь вид:

(6)
Вследствие взаимодействия факторов парные коэффициенты корреляции не могут в
полной мере решать вопрос о целесообразности включения в модель того или иного
фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко
используется в процедуре отсева факторов. Отсев факторов можно проводить и по
критерию Стьюдента для коэффициентов регрессии: из уравнения факторы с величиной
t критерия меньше табличного.
Множественная корреляция
Мерой общего качества уравнения множественной регрессии является коэффициент
(индекс) детерминации:

screenshot 64 4

Индекс множественной корреляции изменяется от 0 до 1. Чем ближе его значение к
1, тем сильнее связь результативного признака со всем набором исследуемых
факторов. Величина индекса множественной корреляции больше или равна
максимального парного индекса корреляции. При правильном включении факторов в
регрессионный анализ величина индекса множественной корреляции будет существенно
отличаться от индекса корреляции парной зависимости. Если же дополнительно
включенные в уравнение множественной регрессии факторы третьестепенны, то индекс
множественной корреляции может практически совпадать с индексом парной корреляции
(различия в третьем, четвертом знаке). Отсюда ясно, что, сравнивая индексы
множественной и парной корреляции, можно сделать вывод о целесообразности
включения в уравнение регрессии того или иного фактора.
Формулу индекса множественной корреляции для линейной регрессии называют
также линейным коэффициентом множественной корреляции или совокупный
коэффициент корреляции. При линейной зависимости индекс множественной корреляции
можно определить через матрицу парных коэффициентов корреляции:

screenshot 64 5

screenshot 65 4

Индекс множественной корреляции равен совокупному коэффициенту корреляции
не только при линейной зависимости рассматриваемых признаков. Тождественность этих
показателей, как и в парной регрессии, имеет место и для криволинейной зависимости,
нелинейной по переменным. Если уравнение регрессии нелинейно по оцениваемым
параметрам, то эти показатели между собой не тождественны.
Скорректированный индекс множественной регрессии
При расчете индекса множественной корреляции используется остаточная
дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более
значительную, чем больше параметров определяется в уравнении регрессии при заданном
объеме наблюдений n . Если число параметров при i x равно m и приближается к
объему наблюдений, то остаточная дисперсия будет близка к нулю и индекс
множественной корреляции приблизится к единице даже при слабой связи факторов с
результатом. Для того чтобы не допустить возможного преувеличения тесноты связи,
применяется скорректированный индекс множественной корреляции.
Скорректированный индекс множественной корреляции содержит поправку на число

screenshot 66 4

screenshot 67 4

screenshot 68 4

screenshot 69 4

screenshot 70 5

screenshot 71 4

screenshot 72 4

Была ли полезна данная статья?
Да
61.19%
Нет
38.81%
Проголосовало: 1108

или напишите нам прямо сейчас:

⚠️ Пожалуйста, пишите в MAX или заполните форму выше.
В России Telegram и WhatsApp блокируют - сообщения могут не дойти.
Написать в MAXНаписать в TelegramНаписать в WhatsApp