Диаграмма рассеивания. Поле корреляции
Корреляционное поле (поле корреляции, диаграмма рассеяния) – это графическое изображение исходных данных. Для построения поля корреляции (или диаграммы рассеивания) в MS Excel используем Мастер диаграмм .

Рисунок 1 – Мастер диаграмм в Excel
В диалоговом окне выбираем Точечная.

Рисунок 2 – Точечная диаграмма
После вставки диаграммы можно добавить линию регрессии. Для этого нажимаем на одной из точек правую кнопку мыши и выбираем команду Добавить линию тренда .

Рисунок 3 – Добавить линию тренда
Выбираем тип – Линейная, Параметры – Показывать уравнение на диаграмме.

Рисунок 4 — Показывать уравнение на диаграмме
Рисунок 5 – Как найти уравнение регрессии в MS Excel
Также можно построить поле корреляции онлайн. Необходимо вставить данные для X (первый столбец) и Y (второй и последующие столбцы).
Как создать матрицу рассеяния в Excel (с примером)

Матрица диаграммы рассеяния — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.
В этом руководстве объясняется, как создать следующую матрицу диаграммы рассеяния в Excel:

Шаг 1: введите данные
Во-первых, давайте введем следующие значения для набора данных, который содержит три переменные: очки, передачи и подборы.

Шаг 2: Создайте диаграммы рассеяния
Затем выделим диапазон ячеек A2:B9 , затем щелкните вкладку « Вставка », затем нажмите кнопку « Разброс » в группе « Диаграммы ».

Автоматически будет создана следующая диаграмма рассеяния очков и передач:

Далее выполните следующие шаги:
- Нажмите на значения на оси X и измените минимальную ось, привязанную к 80.
- Щелкните ось Y и измените минимальное значение оси на 20.
- Щелкните заголовок диаграммы и удалите его.
- Нажмите на линии сетки на диаграмме и удалите их.
- Наконец, измените размер диаграммы, чтобы сделать ее меньше.
Конечный результат должен выглядеть примерно так:

Затем повторите те же самые шаги для переменных очков и подборов и поместите диаграмму рассеяния под существующую диаграмму рассеяния:

Наконец, повторите эти шаги для переменных передач и подборов и поместите диаграмму рассеяния в нижний правый угол:

Шаг 3: Пометьте диаграммы рассеяния
Наконец, введите имена переменных рядом с диаграммами рассеяния, чтобы было легко понять, какие диаграммы рассеяния представляют какие переменные:

Вот как интерпретировать сюжеты:
- Диаграмма рассеяния в верхнем левом углу представляет соотношение между очками и передачами.
- Диаграмма рассеяния в левом нижнем углу представляет соотношение между очками и подборами.
- Диаграмма рассеяния в правом нижнем углу представляет соотношение между передачами и подборами.
Примечание.Не стесняйтесь изменять цвет и размер точек на диаграммах рассеяния, чтобы они выглядели так, как вам нравится.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:
Диаграмма рассеивания (разброса)
При проведении анализа данных часто на практике необходимо оценить зависимости между парами соответствующих элементов, например, вариация размера отверстия в зависимости от скорости вращения сверла, скорость вращения токарного станка и размер детали. Для этого используют диаграммы рассеивания, позволяющие без математической обработки данных установить зависимости по графическому представлению. Таким образом, данный статистический инструмент может быть использован линейным персоналом и менеджментом.
Данная диаграмма позволяет установить зависимости для
- двух различных характеристик качества
- двух факторов, влияющих на одну и ту же характеристику качества
- характеристик качества процесса и фактора, влияющего на ход процесса
Для понимания связи между выбранными параметрами необходимо построить диаграмму рассеивания и понять ситуацию в целом.
Построение диаграммы:
- Собрать парные данные x и y между которыми необходимо исследовать зависимость. Парных данных должно быть не меньше 35.
- Найти максимальное и минимальное значение для x и y. Выбрать шкалы на горизонтальной и вертикальной оси так, чтобы изменение факторов по осям приходилось на отрезки примерно одинаковой длины для удобства чтения диаграммы. При анализе влияния фактора на параметр качества по оси OX обычно располагают значения фактора, а по OY – параметра качества.
- Построить график и нанести на него данные. Если парные данные повторяются дважды, то рядом рисуются две точки, или кружок
- Нанести на диаграмму все необходимые обозначения:
- интервала времени
- число данных
- название и единицы измерения
- имя, должность, человека, строящего диаграмму и оператора, собиравшего данные для диаграммы.

Пример:
При процессе выпуска литьевых поддонов багажника компания сталкивается с проблемой при литье под давлением. Было высказано предположение, что причина тонких стенок поддонов, приводящих для конечного клиента к быстрому истиранию и повреждению заключается в вариации давления сжатого воздуха, которое меняется каждый день.
Было принято решение провести анализ и установить наличие или отсутствие данной зависимости (Рис.1).
Собраны данные за один месяц. Технология литья непрерывная, без выходных
Рис.1

Чтение диаграммы рассеивания
По диаграмме рассеивания можно судить о об общем распределении пар чисел. Для этого необходимо, во-первых, выяснить если ли далеко отстоящие точки – они являются выбросами. Если есть далеко отстоящие точки, то их надо исключить из корреляционного анализа, но пренебрегать ими нельзя. Стоит обратить на них внимание, так как причиной выброса могут не только неверно занесённые данные, но внутренние причины процесса, которые могут дать полезную информацию (Рис.2).
Рис.2
- Прямая корреляция

- Слабая прямая корреляция

- Обратная корреляция

- Слабая обратная корреляция

- Отсутствие корреляции

- Криволинейная корреляция

- Слабая криволинейная корреляция

Для изучения связи между x и y необходимо вычислить коэффициент корреляции r.

Число n – число пар данных
S(xy) – ковариация – мера линейной зависимости двух случайных величин.
r ∈ [-1;1]
- Если значение r > 1, то есть ошибка и необходимо пересчитать результат
- При r → 1 сильная положительная зависимость
- При r → -1 сильная отрицательная зависимость
- При |r| ≈ 1 сильная зависимость
- При r → 0 слабая зависимость
- При r = 0 зависимости может и не быть
- При r = 1 все точки диаграммы лежат на одной прямой, есть зависимость
Диаграмма рассеяния в EXCEL
Диаграмма рассеяния ( scatter plot ) используется для отображения возможной взаимосвязи между двумя переменными. Диаграмма рассеяния незаменима при проведении корреляционного и регрессионного анализа.
Возьмем 2 переменные Х и Y и, соответственно, выборку состоящую из нескольких пар значений (Х i ; Y i ). Для наглядности зададим различные типы зависимости между переменными: линейную, квадратичную и затухающую синусоидальную. Для этого сгенерируем соответствующие тренды и настроим случайный разброс переменной Y (по нормальному закону ).
Сначала рассмотрим линейный тренд Y = aX + b (см. Файл примера, лист Линейный ). Параметры тренда (прямой линии) a и b зададим в отдельной табличке, там же зададим параметры отвечающие за величину дисперсии переменной Y.

Величину постоянного разброса (отвечающую за гомоскедастичность модели) будем задавать в % от среднего значения Y. Иногда, дисперсия переменной Y не постоянна (имеется неоднородность наблюдений — гетероскедастичность ). Поэтому, при построении формул учтем и такую возможность.

Для построения диаграммы рассеяния в файле примера использована диаграмма График , т.к. шаг по Х у нас задан постоянным. В случае реальных данных (переменная Х является случайной величиной, а не жестко заданной, как в нашем примере) используйте диаграмму типа Точечная. В файле примера реализовано оба варианта.
Примечание : Подробнее о построении диаграмм см. статьи Основы построения диаграмм и Основные типы диаграмм .
Отображение информации о 3-х переменных на двухмерной диаграмме
Предположим, что у нас имеются результаты измерения производительности некого непрерывного производственного процесса. Измерения проводились при различных рабочих температурах протекания процесса и в двух режимах.

Нам требуется построить двумерную диаграмму рассеяния (на плоскости), хотя у нас имеется 3 переменных: производительность, температура и режим .
Обратим внимание, что третья переменная Режим является категориальной (принимает только значения из ограниченного набора значений). В нашем случае переменная Режим принимает 2 значения: Режим №1 и Режим №2 (значения 1 и 2 присвоены номинально).
Пары значений ( производительность; температура ), относящиеся к Режиму №1 будем на диаграмме рассеяния выводить красным цветом, а относящиеся к Режиму №2 будем выводить синим ( файл примера лист 3-переменных ).

Такой же подход можно использовать для дискретных переменных , когда они принимают небольшое количество значений: 2-5.
Категоризованные диаграммы
Если третья переменная – непрерывная величина, то для отображения данных можно использовать так называемые категоризованные диаграммы (coplot = conditioning plot).
Теперь вместо категориальной переменной Режим у нас имеется непрерывная переменная Давление , которая принимает значения от 10 до 20. Предположим, что значение переменной Давление = 15, является неким пороговым и протекание процесса значительно отличается, если оно протекает при давлении от 10 до 15 и от 15 до 20. Используя этот факт строят 2 диаграммы:
- Пары значений ( производительность; температура ) при давлении от 10 до 15:
- Пары значений ( производительность; температура ) при давлении от 15 до 20.
Если пороговых значений 2, то понадобится 3 диаграммы и т.д. Эти диаграммы строятся аналогично диаграммам из предыдущего раздела.
Матрица диаграмм рассеивания
Для множественной регрессии, когда имеется 3 или более переменных, часто строят Матрицу диаграмм рассеивания (Matrix Scatter Plot, Scatter Plot Matrix — SPM).

Если имеется 3 переменных (x 1 , x 2 , y), то строятся 3 обычные диаграммы рассеяния отображающие парные взаимосвязи переменных: (x 1 , x 2 ); (x 1 , y); (x 2 , y).
Примечание : Чтобы найти количество диаграмм рассеяния в матрице, необходимо вычислить число сочетаний из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ЧИСЛКОМБ(4;2) =6.
Иногда строят не только диаграмму (x 1 , x 2 ), но и (x 2 , x 1 ). В этом случае матрица будет содержать в 2 раза больше диаграмм рассеяния (см. файл примера лист Matrix ).

Примечание : Чтобы найти количество диаграмм рассеяния в такой (полной) матрице, необходимо вычислить число перестановок из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ПЕРЕСТ(4;2) =12.