За что отвечают коэффициенты регрессии

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессиитакая, что сумма квадратов разностей За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииминимальна.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессиивокруг регрессии За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииявляется дисперсия.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

В матричном виде это выгладит

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Случайная величина За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииможет быть интерпретирована как сумма из двух слагаемых:

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

В этой формуле За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии— коэффициент взаимной детерминации между За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессиии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Что такое регрессионный анализ?

Регрессионный анализ — это набор статистических методов оценки отношений между переменными. Его можно использовать для оценки степени взаимосвязи между переменными и для моделирования будущей зависимости. По сути, регрессионные методы показывают, как по изменениям «независимых переменных» можно зафиксировать изменение «зависимой переменной».

Зависимую переменную в бизнесе называют предиктором (характеристика, за изменением которой наблюдают). Это может быть уровень продаж, риски, ценообразование, производительность и так далее. Независимые переменные — те, которые могут объяснять поведение выше приведенных факторов (время года, покупательная способность населения, место продаж и многое другое).Регрессионный анализ включает несколько моделей. Наиболее распространенные из них: линейная, мультилинейная (или множественная линейная) и нелинейная.

Как видно из названий, модели отличаются типом зависимости переменных: линейная описывается линейной функцией; мультилинейная также представляет линейную функцию, но в нее входит больше параметров (независимых переменных); нелинейная модель — та, в которой экспериментальные данные характеризуются функцией, являющейся нелинейной (показательной, логарифмической, тригонометрической и так далее).

Чаще всего используются простые линейные и мультилинейные модели.

Регрессионный анализ предлагает множество приложений в различных дисциплинах, включая финансы.

Рассмотрим поподробнее принципы построения и адаптации результатов метода.

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

Простая линейная модель выражается с помощью следующего уравнения:

Источник

Что такое регрессионный анализ?

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

БИЗНЕС-АНАЛИТИК (DATA ANALYST)

Научитесь выстраивать процессы для роста бизнеса и увеличения прибыли.

Регрессионный анализ — это набор статистических методов оценки отношений между переменными. Его можно использовать для оценки степени взаимосвязи между переменными и для моделирования будущей зависимости. По сути, регрессионные методы показывают, как по изменениям «независимых переменных» можно зафиксировать изменение «зависимой переменной».

Зависимую переменную в бизнесе называют предиктором (характеристика, за изменением которой наблюдают). Это может быть уровень продаж, риски, ценообразование, производительность и так далее. Независимые переменные — те, которые могут объяснять поведение выше приведенных факторов (время года, покупательная способность населения, место продаж и многое другое).

Регрессионный анализ включает несколько моделей. Наиболее распространенные из них: линейная, мультилинейная (или множественная линейная) и нелинейная.

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

Как видно из названий, модели отличаются типом зависимости переменных: линейная описывается линейной функцией; мультилинейная также представляет линейную функцию, но в нее входит больше параметров (независимых переменных); нелинейная модель — та, в которой экспериментальные данные характеризуются функцией, являющейся нелинейной (показательной, логарифмической, тригонометрической и так далее).

Чаще всего используются простые линейные и мультилинейные модели.

Регрессионный анализ предлагает множество приложений в различных дисциплинах, включая финансы. Кстати, регрессионный анализ можно проводить с помощью языка R. Сделать первые шаги в освоении этого языка поможет наш открытый курс « Аналитика с SQL и R ».

Рассмотрим поподробнее принципы построения и адаптации результатов метода.

Предположения линейной модели

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

Построение простой линейной регрессии

Простая линейная модель выражается с помощью следующего уравнения:

Y = a + bX

a и b называют коэффициентами линейной регрессии. В их нахождении и заключается основная задача.

Если в нашей задаче присутствуют несколько факторов: x1За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии, За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииx2, За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииx3, от которых, мы полагаем, зависит y, то нужно использовать множественную регрессию, описываемую уравнением:

Существует много способов определить коэффициенты a и b. Но самым простым и надежным является метод наименьших квадратов (можно научно доказать, что это лучший способ).

Идея метода: мы имеем значения За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииy – числовой ряд или набор данных. Необходимо построить функцию регрессии Y=a + bX так, чтобы выражение (Y – y) 2 было минимальным. (Y – y) 2 – ошибка, которую мы хотим минимизировать. Минимизируется функционал благодаря подбору коэффициентов a и b.

Ключевым фактором применения любой статистической модели является правильное понимание предметной области и ее бизнес-приложения.

Линейная регрессия — это довольно простой, но мощный инструмент, который может существенно облегчить работу аналитика при изучении поведения потребителей; факторов, влияющих на производительность и окупаемость; улучшит понимание бизнес процессов в целом.

Примеры использования линейной регрессии

Прогнозирование показателей

Данную модель можно использовать для обнаружения тенденций и составления прогнозов. Предположим, продажи компании росли на протяжении двух лет. Путем проведения линейного анализа данных о ежемесячных продажах компания могла бы спрогнозировать продажи в будущие месяцы.

Оценка эффективности маркетинга

Линейная регрессия также может использоваться для оценки эффективности маркетинга, рекламных кампаний и ценообразования. Чтобы компания «XYZ» оценила качественную отдачу от средств, потраченных на маркетинг определенного бренда, достаточно построить график линейной регрессии и посмотреть, как связаны затраты с прибылью.

Прелесть линейной регрессии в том, что она позволяет улавливать отдельные воздействия каждой маркетинговой кампании, а также контролировать факторы, которые могут повлиять на продажи.

В реальных сценариях обычно существует несколько рекламных кампаний, которые проводятся в один и тот же период времени. Предположим, что две кампании запускаются на телевидении и радио параллельно. Построенная модель может уловить как изолированное, так и комбинированное влияние одновременного показа этой рекламы.

Оценка риска

Модель линейной регрессии хорошо работает для расчета рисков в сфере финансов или страхования. К примеру, компания по страхованию автомобилей может построить линейную регрессию, чтобы составить таблицу выплат по страховке, используя отношение прогнозируемых исков к заявленной страховой стоимости. Основными факторами в такой ситуации являются характеристики автомобиля, данные о водителе или демографическая информация. Результаты такого анализа помогут в принятии важных деловых решений.

Обнаружение важных факторов

В индустрии кредитования финансовая компания заинтересована в минимизации рисков. Поэтому ей важно понять пять основных факторов, вызывающих неплатежеспособность клиента. На основе результатов регрессионного анализа компания могла бы выявить эти факторы и определить варианты EMI (Equated Monthly Installment – фиксированный платеж, произведенный заемщиком кредитору в течение оговоренного срока), чтобы минимизировать дефолт среди сомнительных клиентов.

Ценообразование активов

Еще модель линейной регрессии находит свое применение в ценообразовании активов. «Модель оценки долгосрочных активов» описывает связь между ожидаемой доходностью и риском инвестирования в ценную бумагу. Это помогает инвесторам оценивать целесообразность инвестиций и доходность их портфеля.

Вывод

Несмотря на то, что линейная регрессия имеет довольно жесткие ограничения, поскольку она может работать только тогда, когда зависимая переменная имеет непрерывный характер и имеется линейная зависимость между переменными, модель является самым известным методом анализа и прогнозирования.

Мы привели самые популярные примеры использования данной модели в бизнесе и финансах. Естественно, чтобы глубоко понять, как его использовать в той или иной ситуации, нужно погрузиться в метод поподробнее – самостоятельно «пощупать» все его слабые и сильные стороны; посмотреть, как модель ведет себя на уникальных данных и так далее. Это очень интересный и важный процесс – именно поэтому индустрия Data Science сейчас находится на таком подъеме!

Автор: Алексанян Андрон, эксперт SF Education

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессии

БИЗНЕС-АНАЛИТИК (DATA ANALYST)

Научитесь выстраивать процессы для роста бизнеса и увеличения прибыли.

Источник

Справка

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииАнализ данных звонков в службу 911, показывающий горячие точки (красным), холодные точки (синим) и локализацию пожарных/полиции, ответственных за реагирование (зеленые круги)

Каждый из вопросов спрашивает «где»? Следующий логический вопрос для такого типа анализа – «почему»?

Пространственные отношения

Регрессионный анализ позволяет вам моделировать, проверять и исследовать пространственные отношения и помогает вам объяснить факторы, стоящие за наблюдаемыми пространственными структурными закономерностями. Вы также можете захотеть понять, почему люди постоянно умирают молодыми в некоторых регионах страны, и какие факторы особенно влияют на особенно высокий уровень диабета. При моделирование пространственных отношений, однако, регрессионный анализ также может быть пригоден для прогнозирования. Моделирование факторов, которые влияют на долю выпускников колледжей, на пример, позволяют вам сделать прогноз о потенциальной рабочей силе и их навыках. Вы также можете использовать регрессионный анализ для прогнозирования осадков или качества воздуха в случаях, где интерполяция невозможна из-за малого количества станций наблюдения (к примеру, часто отсутствую измерительные приборы вдоль горных хребтов и в долинах).

МНК (OLS) – наиболее известный метод регрессионного анализа. Это также подходящая отправная точка для всех способов пространственного регрессионного анализа. Данный метод позволяет построить глобальную модель переменной или процесса, которые вы хотите изучить или спрогнозировать (уровень смертности/осадки). Он создает уравнение регрессии, отражающее происходящий процесс. Географически взвешенная регрессия (ГВР) – один из нескольких методов пространственного регрессионного анализа, все чаще использующегося в географии и других дисциплинах. Метод ГВР (географически взвешенная регрессия) создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. При подходящем использовании, эти методы являются мощным и надежным статистическим средством для проверки и оценки линейных взаимосвязей.

Линейные взаимосвязи могут быть положительными или отрицательными. Если вы обнаружили, что количество поисково-спасательных операций увеличивается при возрастании среднесуточной температуры, такое отношение является положительным; имеется положительная корреляция. Другой способ описать эту положительную взаимосвязь – сказать, что количество поисково-спасательных операций уменьшается при уменьшении среднесуточной температуры. Соответственно, если вы установили, что число преступлений уменьшается при увеличении числа полицейских патрулей, данное отношение является отрицательным. Также, можно выразить это отрицательное отношение, сказав, что количество преступлений увеличивается при уменьшении количества патрулей. На рисунке ниже показаны положительные и отрицательные отношения, а также случаи, когда две переменные не связаны отношениями:

За что отвечают коэффициенты регрессии. Смотреть фото За что отвечают коэффициенты регрессии. Смотреть картинку За что отвечают коэффициенты регрессии. Картинка про За что отвечают коэффициенты регрессии. Фото За что отвечают коэффициенты регрессииДиаграммы рассеивания: положительная связь, отрицательная связь и пример с 2 не связанными переменными.

Корреляционные анализы, и связанные с ними графики, отображенные выше, показывают силу взаимосвязи между двумя переменными. С другой стороны, регрессионные анализы дают больше информации: они пытаются продемонстрировать степень, с которой 1 или более переменных потенциально вызывают положительные или негативные изменения в другой переменной.

Применения регрессионного анализа

Регрессионный анализ может использоваться в большом количестве приложений:

Существует три первостепенных причины, по которым обычно используют регрессионный анализ:

Термины и концепции регрессионного анализа

Невозможно обсуждать регрессионный анализ без предварительного знакомства с основными терминами и концепциями, характерными для регрессионной статистики:

Уравнение регрессии. Это математическая формула, применяемая к независимым переменным, чтобы лучше спрогнозировать зависимую переменную, которую необходимо смоделировать. К сожалению, для тех ученых, кто думает, что х и у это только координаты, независимая переменная в регрессионном анализе всегда обозначается как y, а зависимая – всегда X. Каждая независимая переменная связана с коэффициентами регрессии, описывающими силу и знак взаимосвязи между этими двумя переменными. Уравнение регрессии может выглядеть следующим образом (у – зависимая переменная, Х – независимые переменные, β – коэффициенты регрессии), ниже приводится описание каждого из этих компонентов уравнения регрессии):

P-значения. Большинство регрессионных методов выполняют статистический тест для расчета вероятности, называемой р-значением, для коэффициентов, связанной с каждой независимой переменной. Нулевая гипотеза данного статистического теста предполагает, что коэффициент незначительно отличается от нуля (другими словами, для всех целей и задач, коэффициент равен нулю, и связанная независимая переменная не может объяснить вашу модель). Маленькие величины р-значений отражают маленькие вероятности и предполагают, что коэффициент действительно важен для вашей модели со значением, существенно отличающимся от 0 (другими словами, маленькие величины р-значений свидетельствуют о том, что коэффициент не равен 0). Вы бы сказали, что коэффициент с р-значением, равным 0,01, например, статистически значимый для 99 % доверительного интервала; связанные переменные являются эффективным предсказателем. Переменные с коэффициентами около 0 не помогают предсказать или смоделировать зависимые величины; они практически всегда удаляются из регрессионного уравнения, если только нет веских причин сохранить их.

R 2 /R-квадрат: Статистические показатели составной R-квадрат и выровненный R-квадрат вычисляются из регрессионного уравнения, чтобы качественно оценить модель. Значение R-квадрат лежит в пределах от 0 до 100 процентов. Если ваша модель описывает наблюдаемые зависимые переменные идеально, R-квадрат равен 1.0 (и вы, несомненно, сделали ошибку; возможно, вы использовали модификацию величины у для предсказания у). Вероятнее всего, вы увидите значения R-квадрат в районе 0,49, например, можно интерпретировать подобный результат как «Это модель объясняет 49 % вариации зависимой величины». Чтобы понять, как работает R-квадрат, постройте график, отражающий наблюдаемые и оцениваемые значения у, отсортированные по оцениваемым величинам. Обратите внимание на количество совпадений. Этот график визуально отображает, насколько хорошо вычисленные значения модели объясняют изменения наблюдаемых значений зависимых переменных. Просмотрите иллюстрацию. Выверенный R-квадрат всегда немного меньше, чем составной R-квадрат, т.к. он отражает всю сложность модели (количество переменных) и связан с набором исходных данных. Следовательно, выверенный R-квадрат является более точной мерой для оценки результатов работы модели.

Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки ε. Просмотрите иллюстрацию. Известные значения зависимой переменной используются для построения и настройки модели регрессии. Используя известные величины зависимой переменной (Y) и известные значений для всех независимых переменных (Хs), регрессионный инструмент создаст уравнение, которое предскажет те известные у-значения как можно лучше. Однако предсказанные значения редко точно совпадают с наблюдаемыми величинами. Разница между наблюдаемыми и предсказываемыми значениями у называется невязка или отклонение. Величина отклонений регрессионного уравнения – одно из измерений качества работы модели. Большие отклонения говорят о ненадлежащем качестве модели.

Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, которые вы пытаетесь смоделировать или понять, запуская инструмент регрессии, чтобы определить, какие величины являются эффективными предсказателями. Затем пошаговое удаление и/или добавление переменных до тех пор, пока вы не найдете наилучшим образом подходящую регрессионную модель. Т.к. процесс создания модели часто исследовательский, он никогда не должен становиться простым «подгоном» данных. Он должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл. Вы должным быть способны определить ожидаемую взаимосвязь между каждой потенциальной независимой переменной и зависимой величиной до непосредственного анализа, и должны задать себе дополнительные вопросы, когда эти связи не совпадают.

Примечание:

Если вы никогда не выполняли регрессионный анализ раньше, рекомендуем загрузить Руководство о регрессионному анализу и пройти шаги 1-5.

Особенности регрессионного анализа

Регрессия МНК (OLS) – это простой метод анализа с хорошо проработанной теорией, предоставляющий эффективные возможности диагностики, которые помогут вам интерпретировать результаты и устранять неполадки. Однако, МНК надежен и эффективен, если ваши данные и регрессионная модель удовлетворяют всем предположениям, требуемым для этого метода (смотри таблицу внизу). Пространственные данные часто нарушают предположения и требования МНК, поэтому важно использовать инструменты регрессии в союзе с подходящими инструментами диагностики, которые позволяют оценить, является ли регрессия подходящим методом для вашего анализа, а приведенная структура данных и модель может быть применена.

Как регрессионная модель может не работать

В следующей таблице перечислены типичные проблемы с регрессионными моделями и инструменты в ArcGIS:

Типичные проблемы с регрессией, последствия и решения

Ошибки спецификации относительно независимых переменных.

Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять.

Создайте карту и проверьте невязки МНК и коэффициенты ГВР или запустите Анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных.

МНК и ГВР – линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми – нелинейны, результирующая модель будет работать плохо.

Создайте диаграмму рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделите особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин. Просмотрите иллюстрацию. Альтернативно, используйте нелинейный метод регрессии.

Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии.

Создайте диаграмму рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Скорректировать или удалить выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запустить регрессию с и без выбросов, чтобы оценить, как это влияет на результат.

Нестационарность. Вы можете обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B (см. рисунок).

Если взаимосвязь между вашими зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты.

Мультиколлинеарность. Одна или несколько независимых переменных излишни. Просмотрите иллюстрацию.

Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели.

Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки. Просмотрите иллюстрацию.

Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений. Просмотрите иллюстрацию.

Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер.

Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Просмотрите иллюстрацию.

Пространственно автокоррелированные отклонения. Просмотрите иллюстрацию.

Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно.

Запустите инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели). Просмотрите иллюстрацию.

Нормальное распределение систематической ошибки. Просмотрите иллюстрацию.

Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны.

Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в вашей модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые вы моделируете, являются нелинейными. Проверьте карту отклонений и возможно карту с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Просмотр диаграмм рассеяния и поиск нелинейных отношений.

Типичные проблемы с регрессией и их решения

Важно протестировать модель на каждую из проблем, перечисленных выше. Результаты могут быть на 100 % неправильны, если игнорируются проблемы, упомянутые выше.

Примечание:

Если вы никогда не выполняли регрессионный анализ раньше, рекомендуем загрузить Руководство по регрессионному анализу.

Пространственная регрессия

Для пространственных данных характерно 2 свойства, которые затрудняют (не делают невозможным) применение традиционных (непространственных) методов, таких как МНК:

Настоящие методы пространственной регрессии были разработаны, чтобы устойчиво справляться с этими двумя характеристиками пространственных данных и даже использовать эти свойства пространственных данных, чтобы улучшать моделирование взаимосвязей. Некоторые методы пространственной регрессии эффективно имеют дело с 1 характеристикой (пространственная автокорреляция), другие – со второй (нестационарность). В настоящее время, нет методов пространственной регрессии, которые эффективны с обеими характеристиками. Для правильно настроенной модели ГВР пространственная автокорреляция обычно не является проблемой.

Как минимум существует 3 направления, как поступать с пространственной автокорреляцией в невязках регрессионных моделей.

Существует как минимум 4 способа работы с региональными вариациями в МНК регрессионных моделях:

Для большей информации по использованию регрессионных инструментов, см.:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *