Когда следует использовать корреляцию? (объяснение и примеры)
Корреляция используется для измерения линейной связи между двумя переменными.
Коэффициент корреляции всегда принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
- 0 указывает на отсутствие линейной корреляции между двумя переменными.
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Студенты часто задают вопрос: когда мне следует использовать корреляцию?
Короткий ответ: используйте корреляцию, когда вы хотите количественно оценить линейную связь между двумя переменными, и ни одна из переменных не представляет собой переменную ответа или «результата» .
Следующие примеры иллюстрируют, когда следует и не следует использовать корреляцию на практике.
Пример 1: Когда использовать корреляцию
Предположим, профессор хочет понять линейную зависимость между результатами тестов по математике и результатами тестов по естественным наукам учащихся его класса.
Например, будут ли учащиеся, которые хорошо сдают экзамен по математике, также хорошо сдавать экзамен по естествознанию? Или учащиеся с высокими оценками по математике, как правило, имеют низкие баллы по естествознанию?
В этом сценарии он мог бы рассчитать корреляцию между оценками на экзамене по математике и баллами на экзамене по естествознанию, потому что он просто хочет понять линейную связь между двумя переменными, и ни одна из переменных не может считаться переменной ответа.
Предположим, он вычисляет коэффициент корреляции Пирсона и обнаруживает, что он равен r = 0,78. Это сильная положительная корреляция, означающая, что учащиеся, которые хорошо успевают по математике, также, как правило, преуспевают в естественных науках.
Пример 2: Когда не следует использовать корреляцию
Допустим, отдел маркетинга компании хочет количественно оценить влияние расходов на рекламу на общий доход.
Например, какой дополнительный доход компания может ожидать от каждого дополнительного доллара, потраченного на рекламу?
В этом сценарии отдел должен использовать модель линейной регрессии для количественной оценки взаимосвязи между расходами на рекламу и общим доходом, поскольку переменная «доход» является переменной ответа.
Предположим, что отдел применяет простую модель линейной регрессии и обнаруживает, что следующее уравнение лучше всего описывает взаимосвязь между расходами на рекламу и общим доходом:
Общий доход = 145,4 + 0,34*(расходы на рекламу)
Мы интерпретируем это так, что каждый дополнительный доллар, потраченный на рекламу, приводит к увеличению общего дохода в среднем на 0,34 доллара.
Меры предосторожности при использовании корреляции
Важно отметить, что корреляцию можно использовать только для количественной оценки линейной зависимости между двумя переменными.
Однако при определенных обстоятельствах коэффициент корреляции не сможет эффективно отразить взаимосвязь между двумя переменными, имеющими нелинейную зависимость.
Например, предположим, что мы создаем следующую диаграмму рассеяния, чтобы визуализировать связь между двумя переменными:
Если вычислить коэффициент корреляции между этими двумя переменными, он окажется r = 0. Это означает, что между двумя переменными нет линейной зависимости.
Однако из графика мы видим, что между двумя переменными действительно существует взаимосвязь – это просто квадратичная зависимость, а не линейная.
Итак, при расчете корреляции между двумя переменными имейте в виду, что также может быть полезно создать диаграмму рассеяния для визуализации взаимосвязи между переменными.
Даже если две переменные не имеют линейной связи, вполне возможно, что между ними существует нелинейная связь, которая будет выявлена на диаграмме рассеяния.
Дополнительные ресурсы
В следующих руководствах более подробно объясняется, как корреляция используется в различных обстоятельствах:
6 реальных примеров корреляции
Что считается «сильной» корреляцией?
Корреляция против. ассоциация: в чем разница?
Корреляция и регрессия: в чем разница?