Диаграммы рассеяния в Data Insights
Эта тема является частью раздела Data Insights в GMAT Focus.
Диаграммы рассеяния (scatterplots) используются, когда каждый объект в выборке описывается двумя числовыми переменными одновременно. Это один из самых наглядных способов показать связь между величинами.

Базовая идея scatterplot
Каждая точка на графике соответствует одному объекту (человеку, дому, компании и т.д.):
- положение по оси X — значение первой переменной;
- положение по оси Y — значение второй переменной.
Пример
Если для домов измеряют:
- площадь (кв. футы),
- цену,
то каждая точка — это один дом, а координаты показывают:
- сколько у него квадратных футов,
- сколько он стоит.
Корреляция: ключевое понятие
Положительная корреляция (positive correlation)
Если при увеличении одной переменной в среднем увеличивается и другая.
Пример:
- больше площадь → обычно выше цена.
На графике:
- облако точек «наклонено вверх».
Отрицательная корреляция (negative correlation)
Если при увеличении одной переменной другая в среднем уменьшается.
На графике:
- облако точек «наклонено вниз».
Нет корреляции
Если:
- нет ни восходящего, ни нисходящего тренда;
- точки выглядят как случайно разбросанные.
Важно:
GMAT не проверяет тонкие границы между «очень слабой корреляцией» и «отсутствием корреляции».
Обычно тренд либо очевиден, либо его нет.
Критически важный момент: что корреляция не означает
Корреляция НЕ означает, что:
- для каждой пары объектов большему X обязательно соответствует больший Y;
- связь работает «шаг за шагом».
Даже при сильной корреляции:
- легко найти отдельные пары точек, которые нарушают общий тренд.
👉 Корреляция — это свойство всей совокупности, а не отдельных сравнений.
Оси и масштабы
Обратите внимание:
- оси не обязаны начинаться с нуля;
- GMAT намеренно может обрезать ось, если меньшие значения невозможны или не имеют смысла.
Пример:
- цена дома может начинаться с 0,
- площадь — с 500 кв. футов (меньших домов просто нет).
Это не искажение, а осознанный выбор масштаба.
Типовые вопросы GMAT по scatterplot
1. Подсчёт точек в области
Примеры:
- сколько объектов имеют X ≥ a?
- сколько точек лежат правее линии x = a и ниже линии y = b?
Это обычное геометрическое отсечение области и подсчёт точек.
2. Вопросы на корреляцию
- положительная или отрицательная?
- сильная или слабая?
- есть ли корреляция вообще?
Здесь важен общий тренд, а не локальные исключения.
Линия тренда (regression line)
Иногда на scatterplot добавляют линию тренда
(она же regression line, trend line, line of best fit).
Что она означает:
- это модель, показывающая ожидаемое значение Y для заданного X.
Как с ней работать
- точки выше линии → значение Y выше ожидаемого;
- точки ниже линии → значение Y ниже ожидаемого.
Пример вопроса GMAT
Сколько объектов имеют значение Y выше предсказанного моделью?
Алгоритм:
- понять, что «выше предсказанного» = выше линии;
- просто посчитать точки над линией.
Никаких вычислений не требуется.
Итоговые выводы
- Scatterplot показывает связь двух числовых переменных.
- Каждая точка = один объект.
- Корреляция — это тенденция всей выборки, а не правило для каждой пары.
- GMAT часто проверяет:
- умение видеть тренд,
- подсчёт точек в заданной области,
- интерпретацию линии тренда.
- Точный счёт почти никогда не нужен — важнее визуальная интерпретация.
И еще более подробная глава о расширенных вариантах диаграмм.
Материал подготовлен редакцией HighScoreExams — преподавателями GMAT и GRE с личными результатами 700+ и 310+. Сертификат GMAT 750 одного из преподавателей опубликован на странице команды и предоставляется в оригинале на бесплатной консультации.
О команде