в чем смысл параметра r2 какие значения он принимает
Коэффициент детерминации
Коэффициент детерминации (R2)— это доля объяснённой дисперсии отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.
Формула для вычисления коэффициента детерминации:
где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной.
Содержание
· 1 Проблемы и общие свойства R2
o 1.1 Интерпретация
o 1.2 Общие свойства для МНК регрессии
o 1.3 Общие свойства для МНК регрессии со свободным членом (единичным фактором)
o 1.4 Мнимая регрессия
· 2 Решение проблем или модификации R2
o 2.1 R2-скорректированный (adjusted)
o 2.2 R2-распространённый (extended)
o 2.3 R2-истинный (несмещённый)
· 3 Прочие используемые критерии
[править]Проблемы и общие свойства R2
[править]Интерпретация
Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):
Количественная мера тесноты связи
Качественная характеристика силы связи
Функциональная связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.
[править]Общие свойства для МНК регрессии
Линейная множественная МНК регрессия имеет следующие общие свойства [1]:
1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.
2. С увеличением количества объясняющих переменных увеличивается R2.
[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)
Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами: [2]
1. принимает значения из интервала (отрезка) [0;1].
2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R2 = r2. А в случае множественной МНК регрессии R2 = r(y;f)2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.[3]
4. R2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина имеет F-распределение с (k-1) и (n-k) степенями свободы.
[править]Мнимая регрессия
Значения R2, ,
также могут быть манипулированы, с помощью включения фиктивных факторов. Например, если два показателя имеют возрастающую динамику, то их коэффициент корреляции (который входит в факторное разложение) будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Только качество модели может быль проверено или сопоставлено с использованием R2 и его модификаций.
[править]Решение проблем или модификации R2
[править]R2-скорректированный (adjusted)
[править]R2-распространённый (extended)
с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).
[править]R2-истинный (несмещённый)
[править]Прочие используемые критерии
[править]См. также
§ Дисперсия случайной величины
§ Метод группового учета аргументов
[править]Примечания
2. ↑ 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы. — Москва: ЦЕМИ РАН, 2002. — В. 3. — Т. 38. — С. 107-120.
4. ↑ Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. — Москва: Маркет ДС, 2008. — В. 4. — Т. 12. — С. 71-83.
Учитель информатики
Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.
В чем смысл параметра R2? Какие значения он принимает? Какое значение примет параметр R2, если тренд точно проходит через экспериментальные точки?
а) В чем смысл параметра R2? Какие значения он принимает? б) Какое значение примет параметр R2, если тренд точно проходит через экспериментальные точки?
Ответ
R 2 — в статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной является полученная регрессионная модель.
Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели предельно неудачен.
Чем R 2 ближе к 1, тем удачнее регрессионная модель.
Из трех выбранных моделей значение R 2 наименьшее у линейной. Значит, она самая неудачная (нам и так это было понятно). Значения же R 2 у двух других моделей достаточно близки (разница меньше 0,01). Если определить погрешность решения данной задачи как 0,01, по критерию R2 эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качественные соображения. Например, если считать, что наиболее существенно влияние концентрации угарного газа проявляется при больших величинах, то, глядя на графики, предпочтение следует отдать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси.
Бывают случаи, когда вычислительное определение R 2 может давать отрицательные значения, в зависимости от используемого определения. Это может возникнуть, если прогнозы, которые сравниваются с соответствующими результатами, не были получены в результате процедуры подгонки модели с использованием этих данных. Даже если была использована процедура подгонки модели, R 2 все еще может быть отрицательным, например, когда линейная регрессия проводится без включения точки пересечения или когда для подгонки данных используется нелинейная функция. В случаях, когда возникают отрицательные значения, среднее значение данных лучше соответствует результатам, чем значения подобранной функции в соответствии с этим конкретным критерием.
СОДЕРЖАНИЕ
Определения
у ¯ знак равно 1 п ∑ я знак равно 1 п у я <\ displaystyle <\ bar
тогда изменчивость набора данных может быть измерена двумя формулами сумм квадратов :
Наиболее общее определение коэффициента детерминации:
Отношение к необъяснимой дисперсии
Как объяснили дисперсию
S S res + S S рег знак равно S S малыш <\ displaystyle SS _ <\ text
См. Раздел Разбиение в общей модели OLS для вывода этого результата для одного случая, когда соотношение выполняется. Когда это отношение делает захват, приведенное выше определение R 2 эквивалентно
В этой форме R 2 выражается как отношение объясненной дисперсии (дисперсия прогнозов модели, которая является SS reg / n ) к общей дисперсии (выборочная дисперсия зависимой переменной, которая равна SS tot / n ).
Этот набор условий является важным и имеет ряд последствий для свойств подобранных остатков и смоделированных значений. В частности, в этих условиях:
Квадрат коэффициента корреляции
Его не следует путать с коэффициентом корреляции между двумя оценками, определяемым как
где ковариация между двумя оценками коэффициентов, а также их стандартные отклонения получаются из ковариационной матрицы оценок коэффициентов.
Интерпретация
Значения R 2 вне диапазона от 0 до 1 могут возникать, когда модель соответствует данным хуже, чем горизонтальная гиперплоскость. Это могло произойти, если была выбрана неправильная модель или по ошибке были применены бессмысленные ограничения. Если используется уравнение 1 Кволсета (это уравнение используется наиболее часто), R 2 может быть меньше нуля. Если используется уравнение 2 Квалсета, R 2 может быть больше единицы.
В многолинейной модели
Рассмотрим линейную модель с более чем одной независимой переменной вида
Инфляция R 2
Предостережения
Расширения
Скорректированный R 2
Принцип, лежащий в основе скорректированной статистики R 2, можно увидеть, переписав обычное R 2 как
Коэффициент частичной детерминации
Коэффициент частичной детерминации можно определить как долю вариации, которая не может быть объяснена в сокращенной модели, но может быть объяснена предикторами, указанными в полной (er) модели. Этот коэффициент используется для понимания того, могут ли один или несколько дополнительных предикторов быть полезными в более полной регрессионной модели.
Расчет для частичного R 2 является относительно простым после того, как две модели оценки и генерации ANOVA таблиц для них. Расчет для частичного R 2 IS
который аналогичен обычному коэффициенту детерминации:
Обобщение и разложение R 2
Как объяснялось выше, эвристика выбора модели, такая как скорректированный критерий и F-тест, проверяет, достаточно ли увеличивается общая сумма, чтобы определить, следует ли добавить в модель новый регрессор. Если к модели добавлен регрессор, который сильно коррелирован с другими регрессорами, которые уже были включены, то итоговое значение вряд ли увеличится, даже если новый регрессор является актуальным. В результате вышеупомянутая эвристика будет игнорировать соответствующие регрессоры, когда взаимная корреляция высока. р 2 <\ displaystyle R ^ <2>> р 2 <\ displaystyle R ^ <2>>
р 2 <\ displaystyle R ^ <2>>
р ⊗ знак равно ( Икс ′ у
R 2 в логистической регрессии
Нагелькерке отметил, что он обладает следующими свойствами:
Сравнение с нормой остатков
Иногда для указания степени соответствия используется норма остатков. Этот член рассчитывается как квадратный корень из суммы квадратов остатков :
Оба R 2 и норма невязки имеют свои относительные преимущества. Для анализа методом наименьших квадратов R 2 изменяется от 0 до 1, при этом более крупные числа указывают на лучшее соответствие, а 1 представляет собой идеальное соответствие. Норма остатков варьируется от 0 до бесконечности, при этом меньшие числа указывают на лучшее соответствие, а ноль указывает на идеальное соответствие. Одно из преимуществ и недостатков R 2 заключается в том, что этот член нормализует значение. Если все значения y i умножить на константу, норма остатков также изменится на эту константу, но R 2 останется прежним. В качестве базового примера для линейного метода наименьших квадратов, подходящего к набору данных: S S малыш <\ displaystyle SS _ <\ text
R 2 = 0,998, а норма остатков = 0,302. Если все значения y умножаются на 1000 (например, при изменении префикса SI ), то R 2 остается прежним, но норма остатков = 302.
История
Создание коэффициента детерминации было приписано генетику Сьюоллу Райту и впервые было опубликовано в 1921 году.
Самостоятельная работа по информатике «Модели статического прогнозирования»
Описание разработки
Задание #1
Задание #2
Определите какая модель относится к математической
Выберите один из 4 вариантов ответа:
Задание #3
Задание #4
Укажите регрессионную модель
Укажите место на изображении:
Задание #5
Укажите место на изображении:
Задание #6
Укажите табличную модель
Укажите место на изображении:
Задание #7
В чем заключается метод наименьших квадратов?
Выберите один из 3 вариантов ответа:
1) искомая функция должна быть построена так, чтобы сумма квадратов отклонений х-координат всех экспериментальны точек от х-координат графика функции была минимальной
2) искомая функция должна быть построена так, чтобы сумма квадратов отклонений y-координат всех экспериментальны точек от y-координат графика функции была минимальной
3) искомая функция должна быть построена так, чтобы отклонений y-координат всех экспериментальны точек от y-координат графика функции была минимальной
Задание #8
Задание #9
Коэффициент детерминированности показывает.
Выберите один из 2 вариантов ответа:
1) зависимость одной величины от другой
2) насколько удачной является полученная регрессионная модель
Задание #10
Задание #11
§ 18. Модели статистического прогнозирования
О статистике и статистических данных
Рассмотрим способ нахождения зависимости частоты заболеваемости жителей города бронхиальной астмой от качества воздуха (третий пример из сформулированных в начале предыдущего параграфа). Любому человеку понятно, что такая зависимость существует. Очевидно, что чем хуже воздух, тем больше больных астмой. Но это качественное заключение. Его недостаточно для того, чтобы управлять уровнем загрязненности воздуха. Для управления требуются более конкретные знания. Нужно установить, какие именно примеси сильнее всего влияют на здоровье людей, как связана концентрация этих примесей в воздухе с числом заболеваний. Такую зависимость можно установить только экспериментальным путем: посредством сбора многочисленных данных, их анализа и обобщения.
При решении таких проблем на помощь приходит статистика.
Статистика — наука о сборе, измерении и анализе массовых количественных данных.
Существуют медицинская статистика, экономическая статистика, социальная статистика и другие. Математический аппарат статистики разрабатывает наука под названием математическая статистика.
Рассмотрим пример из области медицинской статистики.
Известно, что наиболее сильное влияние на бронхиально-легочные заболевания оказывает угарный газ — монооксид углерода. Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концентрации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы (рис. 3.3).*
Рис. 3.3. Табличное и графическое представление статистических данных
Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер, но верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.
Из полученных данных можно сделать вывод, что при концентрации угарного газа до 3 мг/м 3 его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости.
А как построить математическую модель данного явления? Очевидно, нужно получить формулу, отражающую зависимость количества хронических больных Р от концентрации угарного газа С. На языке математики это называется функцией зависимости Р от С: Р(С). Вид такой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.
Понятно, что график искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки (рис. 3.4, а), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.
Рис. 3.4. Два варианта построения графической зависимости по экспериментальным данным
Полученную функцию, график которой приведен на рис. 3.4, б, в статистике принято называть регрессионной моделью.
Метод наименьших квадратов
Первая задача не имеет строгого решения. Здесь может помочь опыт и интуиция исследователя, а возможен и «слепой» перебор из конечного числа функций и выбор лучшей из них.
Чаще всего выбор производится среди следующих функций:
у = ах + b — линейная функция;
у = ах 2 + bх + с — квадратичная функция;
у — а ln(х) + b — логарифмическая функция;
у = ае bх — экспоненциальная функция;
у — ах b — степенная функция.
Квадратичная функция называется в математике полиномом второй степени. Иногда используются полиномы и более высоких степеней, например полином третьей степени имеет вид: у = ах 3 + Ьх 2 + сх + d.
Во всех этих формулах х — аргумент, у — значение функции, а, Ь, с, d — параметры функции, ln(х) — натуральный логарифм, е — константа, основание натурального логарифма.
Если вы выбрали (сознательно или наугад) одну из предлагаемых функций, то далее нужно подобрать параметры (а, b, с и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Что значит «располагалась как можно ближе»? Ответить на этот вопрос значит предложить метод вычисления параметров. Такой метод был предложен в XVIII веке немецким математиком К. Гауссом и называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была минимальной.
Мы не будем здесь производить подробное математическое описание метода наименьших квадратов. Достаточно того, что вы теперь знаете о существовании такого метода. Он очень широко используется в статистической обработке данных и встроен во многие математические пакеты программ. Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую (в том числе и из рассмотренных выше) функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос — вопрос критерия соответствия. На рис. 3.5 изображены три функции, построенные методом наименьших квадратов по приведенным экспериментальным данным.
Рис. 3.5. Три функции, построенные по МНК
Уже с первого взгляда хочется отбраковать вариант линейного тренда. График линейной функции — это прямая. Полученная по МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что-либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды правдоподобны. Теперь пора обратить внимание на надписи, присутствующие на графиках. Во-первых, это записанные в явном виде искомые функции — регрессионные модели:
Из трех выбранных моделей значение R 2 наименьшее у линейной. Значит, она самая неудачная (нам и так это было понятно). Значения же R 2 у двух других моделей достаточно близки (разница меньше 0,01). Если определить погрешность решения данной задачи как 0,01, по критерию R2 эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качественные соображения. Например, если считать, что наиболее существенно влияние концентрации угарного газа проявляется при больших величинах, то, глядя на графики, предпочтение следует отдать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси.
Интересный факт: опыт показывает, что если человеку предложить на данной точечной диаграмме провести «на глаз» прямую так, чтобы точки были равномерно разбросаны вокруг нее, то он проведет линию, достаточно близкую к той, что дает МНК.
Прогнозирование по регрессионной модели
Мы получили регрессионную математическую модель и можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосферу угарный газ, то, рассчитав его возможную концентрацию, можно предсказать, как это отразится на заболеваемости астмой жителей города.
Существует два способа прогнозирования по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это концентрация угарного газа С), то это называется восстановлением значения.
Прогнозирование за пределами экспериментальных данных называется экстраполяцией.
Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронных таблиц. Выберем для нашего примера в качестве наиболее подходящей квадратичную зависимость. Построим следующую электронную таблицу:
Подставляя в ячейку А2 значение концентрации угарного газа, в ячейке В2 будем получать прогноз заболеваемости. Вот пример восстановления значения:
Заметим, что число, получаемое по формуле в ячейке В2, на самом деле является дробным. Однако не имеет смысла считать число людей, даже среднее, в дробных величинах. Дробная часть удалена — в формате вывода числа указано 0 цифр после запятой.
Экстраполяционный прогноз выполняется аналогично.
Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7, показано на рис. 3.6.
Рис. 3.6. Квадратичный тренд с экстраполяцией
Система основных понятий
Вопросы и задания
б) Являются ли результаты статистических расчетов точными?
в) Как располагается линия тренда, построенная по МНК, относительно экспериментальных точек?
* Приведенные в примере данные не являются официальной статистикой, однако правдоподобны.
2>