Как легко найти выбросы в google таблицах
Выброс — это наблюдение, которое аномально далеко от других значений в наборе данных.
Мы часто определяем наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах выше третьего квартиля или в 1,5 раза превышает межквартильный размах ниже первого квартиля.
Примечание. Межквартильный размах — это разница между третьим квартилем (75-й процентиль) и первым квартилем (25-й процентиль) набора данных. Он измеряет распределение средних 50% значений.
В следующем пошаговом примере показано, как использовать эту формулу для поиска выбросов в наборе данных в Google Таблицах.
Шаг 1: Введите данные
Сначала давайте введем в Google Таблицы значения из следующего набора данных:
Шаг 2. Рассчитайте межквартильный размах.
Далее давайте рассчитаем первый квартиль, третий квартиль и межквартильный диапазон набора данных:
Шаг 3. Определите выбросы
Затем мы можем использовать следующую формулу, чтобы присвоить «1» любым выбросам в наборе данных:
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
Эта формула проверяет, превышает ли наблюдение межквартильный размах выше третьего квартиля в 1,5 раза или межквартильный размах ниже первого квартиля в 1,5 раза.
Если одно из этих значений верно, наблюдению присваивается «1», чтобы обозначить его как выброс.
На следующем снимке экрана показано, как использовать эту формулу на практике:
Мы видим, что только одно значение в нашем наборе данных оказывается выбросом: 164 .
Как обрабатывать выбросы
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда простые данные сохраняются неправильно. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
2. Присвойте выбросу новое значение .
Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, например среднее значение или медиану набора данных.
3. Удалите выброс.
Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете, что вы удалили выбросы.
Дополнительные ресурсы
В следующих руководствах объясняется, как удалить выбросы в другом статистическом программном обеспечении:
Как удалить выбросы в R
Как удалить выбросы в Python
Как удалить выбросы в SPSS