Перейти к содержимому

C помощью какой функции можно построить гистограмму

  • автор:

Построение гистограмм

Гистограммы — это очень наглядный тип диаграмм, используемый для отображения непрерывных данных в упорядоченных столбцах. Гистограммы очень полезны для больших наборов точек с данными. По сути, гистограмма — это плотность распределения, где значения исходных данных сгруппированы по интервалам. Высотой столбцов представлена частота встречаемости значений, попадающих в каждый интервал. Это значит, что точные значения данных с гистограммы не считываются, а несколько наборов данных по гистограммам плохо сравнивать.

Создать новую диаграмму

  1. В меню Вид (View) наведите курсор на Диаграммы (Graphs) , а затем щёлкните на кнопке Построить диаграмму (Create Graph) .
  2. В раскрывающемся списке Тип диаграммы (Graph type) выберите тип Гистограмма (Histogram) .
  3. В раскрывающемся списке Слой/Таблица (Layer/Table) выберите слой или таблицу, значения которых будут использованы на диаграмме.
  4. В раскрывающемся списке Поле значений (Value field) выберите поле, значения которого будут использованы на диаграмме. В мастере отобразится черновой вариант диаграммы.
  5. Установите флажок Добавить в легенду (Add to legend) , если хотите добавить к диаграмме легенду.
  6. Установите флажок Показать надписи (Show labels (marks)) , чтобы снабдить столбцы гистограммы надписями с диапазоном значений, содержащемся в каждом из них.
  7. Вид столбцов гистограммы можно изменить с помощью элемента управления Цвет (Color).
  8. С помощью элемента управления Число столбцов (Number of bins) можно увеличить или уменьшить количество столбцов на гистограмме.

Пример количества столбцов

Связанные разделы

  • Шаги создания диаграмм
  • Общие свойства диаграмм
  • Типы диаграмм

Copyright © 2021 Esri. | Конфиденциальность | Правовая информация

Гистограмма распределения в EXCEL

Гистограмма распределения — это инструмент, позволяющий визуально оценить величину и характер разброса данных. Создадим гистограмму для непрерывной случайной величины с помощью встроенных средств MS EXCEL из надстройки Пакет анализа и в ручную с помощью функции ЧАСТОТА() и диаграммы.

Гистограмма (frequency histogram) – это столбиковая диаграмма MS EXCEL , в каждый столбик представляет собой интервал значений (корзину, карман, class interval, bin, cell), а его высота пропорциональна количеству значений в ней (частоте наблюдений).

Гистограмма поможет визуально оценить распределение набора данных, если:

  • в наборе данных как минимум 50 значений;
  • ширина интервалов одинакова.

Построим гистограмму для набора данных, в котором содержатся значения непрерывной случайной величины . Набор данных (50 значений), а также рассмотренные примеры, можно взять на листе Гистограмма AT в файле примера. Данные содержатся в диапазоне А8:А57 .

Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.

Построение гистограммы с помощью надстройки Пакет анализа

Вызвав диалоговое окно надстройки Пакет анализа , выберите пункт Гистограмма и нажмите ОК.

В появившемся окне необходимо как минимум указать: входной интервал и левую верхнюю ячейку выходного интервала . После нажатия кнопки ОК будут:

  • автоматически рассчитаны интервалы значений (карманы);
  • подсчитано количество значений из указанного массива данных, попадающих в каждый интервал (построена таблица частот);
  • если поставлена галочка напротив пункта Вывод графика , то вместе с таблицей частот будет выведена гистограмма.

Перед тем как анализировать полученный результат — отсортируйте исходный массив данных .

Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).

Второй интервал (отмечен на картинке серым) включает значения больше 113 и меньше или равные 216,428571428571. Можно проверить, что таких значений 11. Предпоследний интервал, от 630,142857142857 (не включая) до 733,571428571429 (включая) содержит 0 значений, т.к. в этом диапазоне значений нет. Последний интервал (со странным названием Еще ) содержит значения больше 733,571428571429 (не включая). Таких значений всего одно — максимальное значение в массиве (837).

Размеры карманов одинаковы и равны 103,428571428571. Это значение можно получить так: =(МАКС( Исходные_данные )-МИН( Исходные_данные ))/7 где Исходные_данные – именованный диапазон , содержащий наши данные.

Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).

Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1

Попробуйте, например, сравнить количество интервалов для диапазонов длиной 35 и 36 значений – оно будет отличаться на 1, а у 36 и 48 – будет одинаковым, т.к. функция ЦЕЛОЕ() округляет до ближайшего меньшего целого (ЦЕЛОЕ(КОРЕНЬ(35))=5 , а ЦЕЛОЕ(КОРЕНЬ(36))=6) .

Если установить галочку напротив поля Парето (отсортированная гистограмма) , то к таблице с частотами будет добавлена таблица с отсортированными по убыванию частотами.

Если установить галочку напротив поля Интегральный процент , то к таблице с частотами будет добавлен столбец с нарастающим итогом в % от общего количества значений в массиве.

Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ).

Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.

В результате получим практически такую же по форме гистограмму , что и раньше, но с более красивыми границами интервалов.

Как видно из рисунков выше, надстройка Пакет анализа не осуществляет никакого дополнительного форматирования диаграммы . Соответственно, вид такой гистограммы оставляет желать лучшего (столбцы диаграммы обычно располагают вплотную для непрерывных величин, кроме того подписи интервалов не информативны). О том, как придать диаграмме более презентабельный вид, покажем в следующем разделе при построении гистограммы с помощью функции ЧАСТОТА() без использовании надстройки Пакет анализа .

Построение гистограммы распределения без использования надстройки Пакет анализа

Порядок действий при построении гистограммы в этом случае следующий:

  • определить количество интервалов у гистограммы;
  • определить ширину интервала (с учетом округления);
  • определить границу первого интервала;
  • сформировать таблицу интервалов и рассчитать количество значений, попадающих в каждый интервал (частоту);
  • построить гистограмму.

СОВЕТ : Часто рекомендуют, чтобы границы интервала были на один порядок точнее самих данных и оканчивались на 5. Например, если данные в массиве определены с точностью до десятых: 1,2; 2,3; 5,0; 6,1; 2,1, …, то границы интервалов должны быть округлены до сотых: 1,25-1,35; 1,35-1,45; … Для небольших наборов данных вид гистограммы сильно зависит количества интервалов и их ширины. Это приводит к тому, что сам метод гистограмм, как инструмент описательной статистики , может быть применен только для наборов данных состоящих, как минимум, из 50, а лучше из 100 значений.

В наших расчетах для определения количества интервалов мы будем пользоваться формулой =ЦЕЛОЕ(КОРЕНЬ(n))+1 .

Примечание : Кроме использованного выше правила (число карманов = √n), используется ряд других эмпирических правил, например, правило Стёрджеса (Sturges): число карманов =1+log2(n). Это обусловлено тем, что например, для n=5000, количество интервалов по формуле √n будет равно 70, а правило Стёрджеса рекомендует более приемлемое количество — 13.

Расчет ширины интервала и таблица интервалов приведены в файле примера на листе Гистограмма . Для вычисления количества значений, попадающих в каждый интервал, использована формула массива на основе функции ЧАСТОТА() . О вводе этой функции см. статью Функция ЧАСТОТА() — Подсчет ЧИСЛОвых значений в MS EXCEL .

В MS EXCEL имеется диаграмма типа Гистограмма с группировкой , которая обычно используется для построения Гистограмм распределения .

В итоге можно добиться вот такого результата.

Примечание : О построении и настройке макета диаграмм см. статью Основы построения диаграмм в MS EXCEL .

Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot).

На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.

СОВЕТ : О построении двумерной гистограммы см. статью Двумерная гистограмма в MS EXCEL .

Примечание : Альтернативой графику накопленной частоты может служить Кривая процентилей , которая рассмотрена в статье про Процентили .

Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).

Представление данных в виде гистограммы

Excel для Microsoft 365 Outlook для Microsoft 365 Excel 2021 Outlook 2021 Excel 2019 Outlook 2019 Excel 2016 Outlook 2016 Excel 2013 Outlook 2013 Excel 2010 Outlook 2010 Excel 2007 Outlook 2007 Еще. Меньше

Гистограммы полезны для представления изменений данных с течением времени и для наглядного сравнения различных величин. В гистограммах категории обычно располагаются по горизонтальной оси, а значения — по вертикальной.

Гистограмма с группировкой

Сведения о гистограммах и о том, когда их следует использовать, см. в статье Типы диаграмм в Office.

Чтобы создать гистограмму, сделайте следующее:

  1. Введите данные в электронную таблицу.
  2. Выделите данные.
  3. В зависимости от используемой версии Excel выполните одно из указанных ниже действий.
    • Excel 2016: на вкладке Вставка щелкните значок Вставить гистограмму или линейчатую диаграмму, а затем выберите нужный тип гистограммы. Объемная гистограмма с накоплением
    • Excel 2013: на вкладке Вставка щелкните значок Вставить гистограмму, а затем выберите нужный тип гистограммы. Объемная гистограмма с накоплением
    • Excel 2010 и Excel 2007: на вкладке Вставка щелкните значок Гистограмма, а затем выберите нужный тип гистограммы.

Вы можете при необходимости отформатировать диаграмму. Ниже описаны некоторые варианты.

Примечание: Перед применением форматирования нужно щелкнуть диаграмму.

  • Чтобы изменить макет диаграммы, щелкните Конструктор >Макет диаграммы и выберите макет.
  • Чтобы изменить стиль диаграммы, щелкните Конструктор >Стили диаграмм и выберите стиль.
  • Чтобы применить другой стиль фигуры, щелкните Формат >Стили фигур и выберите стиль.

Примечание: Стили фигур отличаются от стилей диаграмм. Стиль фигуры — это форматирование, применяемое к границе диаграммы, а стиль диаграммы — это форматирование, которое применяется ко всей диаграмме.

Раскрывающийся список

  • Чтобы применить различные эффекты, выберите Формат >Эффекты фигуры и выберите нужный вариант, например Рельеф или Свечение, и его параметры.
  • Чтобы применить тему, щелкните Разметка страницы >Темы и выберите тему.
  • Чтобы изменить форматирование определенного компонента диаграммы (например, вертикальной оси (значений), горизонтальной оси (категорий) или области диаграммы), щелкните Формат, выберите компонент в раскрывающемся списке Элементы диаграммы, щелкните Формат выделенного фрагментаи внесите необходимые изменения. Повторите это действие для каждого компонента, который вы хотите изменить.

    Примечание: Если вы хорошо знакомы с диаграммами, вы также можете щелкнуть правой кнопкой мыши определенную область на диаграмме и выбрать параметр форматирования.

    Щелкните правой кнопкой мыши диаграмму, чтобы просмотреть параметры форматирования

    Чтобы создать гистограмму, сделайте следующее:

    1. В окне сообщения выберите Вставка >Диаграмма.
    2. В диалоговом окне Вставка диаграммы щелкните Гистограмма, выберите нужный тип гистограммы и нажмите кнопку ОК. В разделенном окне откроется лист Excel с примером данных.
    3. Замените их собственными данными.

    Примечание: Если на диаграмме не отображаются данные листа, перетащите вертикальные линии вниз до последней строки таблицы.

    Перетащите маркеры до последней строки последнего столбца

  • При необходимости вы можете сохранить лист:
    1. Щелкните значок Измените данные Microsoft Excel на панели быстрого доступа. Значок Лист откроется в Excel.
    2. Сохраните лист.

    Совет: Чтобы повторно открыть лист, щелкните Конструктор > Изменить данные и выберите нужный вариант.

    Вы можете при необходимости отформатировать диаграмму. Ниже описаны некоторые варианты.

    Примечание: Перед применением форматирования нужно щелкнуть диаграмму.

    • Чтобы изменить макет диаграммы, щелкните Конструктор >Макет диаграммы и выберите макет.
    • Чтобы изменить стиль диаграммы, щелкните Конструктор >Стили диаграмм и выберите стиль.
    • Чтобы применить другой стиль фигуры, щелкните Формат >Стили фигур и выберите стиль.

    Примечание: Стили фигур отличаются от стилей диаграмм. Стиль фигуры — это форматирование, применяемое к границе диаграммы, а стиль диаграммы — это форматирование, которое применяется ко всей диаграмме.

    Раскрывающийся список

  • Чтобы применить различные эффекты, выберите Формат >Эффекты фигуры и выберите нужный вариант, например Рельеф или Свечение, и его параметры.
  • Чтобы изменить форматирование определенного компонента диаграммы (например, вертикальной оси (значений), горизонтальной оси (категорий) или области диаграммы), щелкните Формат, выберите компонент в раскрывающемся списке Элементы диаграммы, щелкните Формат выделенного фрагментаи внесите необходимые изменения. Повторите это действие для каждого компонента, который вы хотите изменить.

    Примечание: Если вы хорошо знакомы с диаграммами, вы также можете щелкнуть правой кнопкой мыши определенную область на диаграмме и выбрать параметр форматирования.

    Щелкните правой кнопкой мыши диаграмму, чтобы просмотреть параметры форматирования

    Вы знали?

    Если у вас нет подписки Microsoft 365 или последней Office, вы можете попробовать:

    Способы создания гистограмм с помощью Python

    За последний год я сталкивалась с необходимостью рисования гистограмм и столбчатых диаграмм достаточно часто для того, чтобы появилось желание и возможность об этом написать. Кроме того, мне самой довольно сильно не хватало подобной информации. В этой статье приведен обзор 3 методов создания таких графиков на языке Python.

    Начнем с того, чего я сама по своей неопытности не знала очень долго: столбчатые диаграммы и гистограммы — разные вещи. Основное отличие состоит в том, что гистограмма показывает частотное распределение — мы задаем набор значений оси Ox, а по Oy всегда откладывается частота. В столбчатой диаграмме (которую в англоязычной литературе уместно было бы назвать barplot) мы задаем и значения оси абсцисс, и значения оси ординат.

    Для демонстрации я буду использовать избитый набор данных библиотеки scikit learn Iris. Начнем c импортов:

    import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_iris() 

    Преобразуем набор данных iris в dataframe — так нам удобнее будет с ним работать в будущем.

    data = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target']) 

    Из интересующих нас параметров data содержит информацию о длине чашелистиков и лепестков и ширине чашелистиков и лепестков.

    Используем Matplotlib
    Построение гистограммы
    Cтроим обычную гистограмму, показывающую частотное распределение длин лепестков и чашелистиков:

    fig, axs = plt.subplots(1, 2) n_bins = len(data) axs[0].hist(data['sepal length (cm)'], bins=n_bins) axs[0].set_title('sepal length') axs[1].hist(data['petal length (cm)'], bins=n_bins) axs[1].set_title('petal length') 

    image

    Построение столбчатой диаграммы

    Используем методы matplotlib-а, чтобы сравнить ширину листьев и чашелистиков. Это кажется удобнее всего делать на одном графике:

    x = np.arange(len(data[:50])) width = 0.35 

    Для примера и в целях упрощения картинки возьмем первые 50 строк dataframe.

    fig, ax = plt.subplots(figsize=(40,5)) rects1 = ax.bar(x - width/2, data['sepal width (cm)'][:50], width, label='sepal width') rects2 = ax.bar(x + width/2, data['petal width (cm)'][:50], width, label='petal width') ax.set_ylabel('cm') ax.set_xticks(x) ax.legend()

    image

    Используем методы seaborn

    На мой взгляд, многие задачи по построению гистограмм проще и эффективнее выполнять с помощью методов seaborn (кроме того, seaborn выигрывает еще и своими графическими возможностями, на мой взгляд).

    Я приведу пример задач, решающихся в seaborn с помощью одной строчки кода. Особенно seaborn выигрышный, когда надо построить распределение. Скажем, нам надо построить распределение длин чашелистиков. Решение этой задачи таково:

    sns_plot = sns.distplot(data['sepal width (cm)']) fig = sns_plot.get_figure() 

    image

    Если же вам необходим только график распределения, сделать его можно так:

    snsplot = sns.kdeplot(data['sepal width (cm)'], shade=True) fig = snsplot.get_figure() 

    image

    Подробнее о построении распределений в seaborn можно почитать тут.

    Pandas-гистограммы

    Здесь все просто. На самом деле, это оболочка matplotlib.pyplot.hist(), но вызов функции через pd.hist() иногда удобнее менее поворотливых конструкций matplotlib-a. В документации библиотеки pandas можно прочитать больше.

    Работает это так:

    h = data['petal width (cm)'].hist() fig = h.get_figure() 

    Спасибо, что прочитали до конца! Буду рада отзывам и комментариям!

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *