Диаграммы рассеяния в Data Insights

Эта тема является частью раздела Data Insights в GMAT Focus.

Диаграммы рассеяния (scatterplots) используются, когда каждый объект в выборке описывается двумя числовыми переменными одновременно. Это один из самых наглядных способов показать связь между величинами.

Базовая идея scatterplot

Каждая точка на графике соответствует одному объекту (человеку, дому, компании и т.д.):

  • положение по оси X — значение первой переменной;
  • положение по оси Y — значение второй переменной.

Пример

Если для домов измеряют:

  • площадь (кв. футы),
  • цену,

то каждая точка — это один дом, а координаты показывают:

  • сколько у него квадратных футов,
  • сколько он стоит.

Корреляция: ключевое понятие

Положительная корреляция (positive correlation)

Если при увеличении одной переменной в среднем увеличивается и другая.

Пример:

  • больше площадь → обычно выше цена.

На графике:

  • облако точек «наклонено вверх».

Отрицательная корреляция (negative correlation)

Если при увеличении одной переменной другая в среднем уменьшается.

На графике:

  • облако точек «наклонено вниз».

Нет корреляции

Если:

  • нет ни восходящего, ни нисходящего тренда;
  • точки выглядят как случайно разбросанные.

Важно:
GMAT не проверяет тонкие границы между «очень слабой корреляцией» и «отсутствием корреляции».
Обычно тренд либо очевиден, либо его нет.

Критически важный момент: что корреляция не означает

Корреляция НЕ означает, что:

  • для каждой пары объектов большему X обязательно соответствует больший Y;
  • связь работает «шаг за шагом».

Даже при сильной корреляции:

  • легко найти отдельные пары точек, которые нарушают общий тренд.

👉 Корреляция — это свойство всей совокупности, а не отдельных сравнений.

Оси и масштабы

Обратите внимание:

  • оси не обязаны начинаться с нуля;
  • GMAT намеренно может обрезать ось, если меньшие значения невозможны или не имеют смысла.

Пример:

  • цена дома может начинаться с 0,
  • площадь — с 500 кв. футов (меньших домов просто нет).

Это не искажение, а осознанный выбор масштаба.

Типовые вопросы GMAT по scatterplot

1. Подсчёт точек в области

Примеры:

  • сколько объектов имеют X ≥ a?
  • сколько точек лежат правее линии x = a и ниже линии y = b?

Это обычное геометрическое отсечение области и подсчёт точек.

2. Вопросы на корреляцию

  • положительная или отрицательная?
  • сильная или слабая?
  • есть ли корреляция вообще?

Здесь важен общий тренд, а не локальные исключения.

Линия тренда (regression line)

Иногда на scatterplot добавляют линию тренда
(она же regression line, trend line, line of best fit).

Что она означает:

  • это модель, показывающая ожидаемое значение Y для заданного X.

Как с ней работать

  • точки выше линии → значение Y выше ожидаемого;
  • точки ниже линии → значение Y ниже ожидаемого.

Пример вопроса GMAT

Сколько объектов имеют значение Y выше предсказанного моделью?

Алгоритм:

  1. понять, что «выше предсказанного» = выше линии;
  2. просто посчитать точки над линией.

Никаких вычислений не требуется.

Итоговые выводы

  1. Scatterplot показывает связь двух числовых переменных.
  2. Каждая точка = один объект.
  3. Корреляция — это тенденция всей выборки, а не правило для каждой пары.
  4. GMAT часто проверяет:
    • умение видеть тренд,
    • подсчёт точек в заданной области,
    • интерпретацию линии тренда.
  5. Точный счёт почти никогда не нужен — важнее визуальная интерпретация.

И еще более подробная глава о расширенных вариантах диаграмм.

Материал подготовлен редакцией HighScoreExams — преподавателями GMAT и GRE с личными результатами 700+ и 310+. Сертификат GMAT 750 одного из преподавателей опубликован на странице команды и предоставляется в оригинале на бесплатной консультации.
О команде

Прокрутить вверх