Что такое ковариата в статистике?
В статистике исследователи часто хотят понять взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика .
Однако может случиться так, что другие переменные могут повлиять на переменную ответа и не представляют интереса для исследователей. Эти переменные называются ковариатами .
Ковариаты: переменные, которые влияют на переменную ответа, но не представляют интереса для исследования.
Например, предположим, что исследователи хотят знать, приводят ли три разных метода обучения к разным средним результатам тестов в данной школе. Техника обучения является объясняющей переменной, а оценка экзамена — переменной ответа.
Однако обязательно будут различия в учебных способностях учащихся внутри трех групп. Если это не принять во внимание, это приведет к необъяснимым различиям в рамках исследования и затруднит определение истинной взаимосвязи между техникой исследования и результатами обследования.
Одним из способов учета этого может быть использование текущей оценки учащегося в классе в качестве ковариаты . Хорошо известно, что текущая оценка учащегося, скорее всего, коррелирует с его будущей успеваемостью на экзамене.
Таким образом, хотя текущая оценка не является переменной, представляющей интерес в этом исследовании, ее можно включить в качестве ковариаты, чтобы исследователи могли увидеть, влияет ли методика обучения на экзаменационные баллы, даже после учета текущей оценки учащегося в классе.
Ковариаты чаще всего появляются в двух типах контекстов: ANOVA (дисперсионный анализ) и регрессия.
Ковариаты в ANOVA
Когда мы выполняем дисперсионный анализ (будь то односторонний дисперсионный анализ , двусторонний дисперсионный анализ или что-то более сложное), мы хотим знать, существует ли разница между средними значениями трех или более независимых групп.
В нашем предыдущем примере мы хотели понять, существует ли разница в средних баллах на экзамене между тремя различными методами обучения. Чтобы понять это, мы могли бы выполнить однофакторный дисперсионный анализ.
Однако, поскольку мы знали, что текущая оценка учащегося также может повлиять на результаты экзамена, мы могли включить ее в качестве ковариаты и вместо этого выполнить ANCOVA (ковариационный анализ).
Это похоже на дисперсионный анализ, за исключением того, что мы включаем непрерывную переменную (текущую оценку учащегося) в качестве ковариаты , чтобы мы могли понять, существует ли разница в средних экзаменационных баллах между тремя методами оценки. учиться, даже после учета результатов ученика. текущий рейтинг .
Ковариаты в регрессии
Когда мы выполняем линейную регрессию, мы хотим количественно оценить взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика.
Например, мы могли бы выполнить простую линейную регрессию , чтобы количественно оценить взаимосвязь между площадью в квадратных метрах и ценами на недвижимость в определенном городе. Однако известно, что возраст дома также является переменной величиной, влияющей на цену недвижимости.
В частности, более старые дома могут коррелировать с более низкими ценами на недвижимость. В этом случае возраст дома будет ковариатой , поскольку нас на самом деле не интересует его изучение, но мы знаем, что он влияет на цены на жилье.
Таким образом, мы могли бы включить возраст дома в качестве объясняющей переменной и запустить множественную линейную регрессию с площадью и возрастом дома в качестве объясняющих переменных и ценой дома в качестве переменной ответа.
Таким образом, коэффициент регрессии для площади в квадратных футах покажет нам среднее изменение цены дома, связанное с увеличением площади на одну единицу после учета возраста дома .
Дополнительные ресурсы
Введение в ANCOVA (дисперсионный анализ)
Как интерпретировать коэффициенты регрессии
Как выполнить ANCOVA в Excel
Как выполнить множественную линейную регрессию в Excel