Перейти к содержимому

Как проверить модель на вменяемость sklearn

  • автор:

Подскажите как мне проверить модель ML c реальными данными

Допустим у меня есть новые X-ы и я хочу проверить к какому типу цветков он более подходит.

на вход модели задать новые X-ы хотелось бы

In [310]: X_new = np.array([[4.8, 3.7, 1.33, 0.11], [6.66, 2.99, 6.123, 2.33]]) In [311]: pred_new = classifier.predict(X_new) In [312]: pred_new Out[312]: array([0, 2]) In [313]: np.take(iris.target_names, pred_new) Out[313]: array(['setosa', 'virginica'], dtype=' 

Saved searches

Use saved searches to filter your results more quickly

Cancel Create saved search

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

thelie/Data-Science-Portfolio

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Switch branches/tags
Branches Tags
Could not load branches
Nothing to show
Could not load tags
Nothing to show

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Cancel Create

  • Local
  • Codespaces

HTTPS GitHub CLI
Use Git or checkout with SVN using the web URL.
Work fast with our official CLI. Learn more about the CLI.

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

Latest commit message
Commit time

README.md

Репозиторий для проектов, созданных в ходе изучения машинного обучения и data science.

Задача: Определить влияние семейного положения, количества детей и других данных на погашение кредита в срок.

Навыки и библиотеки: Pandas, PyMystem3, предобработка данных, лемматизация.

Вывод: Подтверждена зависимость количества детей, семейного положения и уровня дохода и целей кредита на кредитоспособность.

Задача: По данным объявлений о продаже квартир в Санкт-Петербурге и области определить параметры влияющие на стоимость недвижимости.

Навыки и библиотеки: Pandas, NumPy, Matplotlib, выявление корреляций, построение графиков.

Вывод: Выявлено сколько обычно занимает продажа.
Найдены населенные пункты с наиболее высокой и низкой стоимостью жилья в регионе, Исследована зависимость цены от удаленности от центра. Определены факторы влияющие на стоимость квартиры.

Задача: По небольшой выборке данных пользователей определить наиболее выгодный тариф.

Навыки и библиотеки: Pandas, NumPy, Matplotlib, SciPy, статистический анализ, проверка гипотез.

Вывод: В ходе анализа подтвердилось различие в выручке пользователей разных тарифов. Различие средней выручки абонентов Москвы и других регионов не выявлено.

Задача: Определить актуальные и наиболее прибыльные игровые платформы по историческим данным о продажах игр. Найти наиболее популярные жанры в различных регионах.

Использованные библиотеки: Pandas, NumPy, Matplotlib, SciPy, Requests, статистический анализ, проверка гипотез, http запросы.

Вывод: По результатам анализа выявлено что для планирования игр продаж на 2017 год стоит ориентироваться на игровые платформы Playstation 4 и Xbox One. Они являются актуальными и наиболее прибыльными на текущих период с 2013 года. Наиболее перспективным жанром являются Action, Shooter и Sports с возрастным рейтингом 17+, для всех возрастов и 10+ лет.

Анализ поведения клиентов, использующих архивные тарифы, для рекомендации новых тарифов.

Задача: Построить модель классификации для рекомендации нового тарифа.

Использованные библиотеки: Pandas, NumPy, Scikit-learn, Catboost, различные модели классификации, подбор параметров, проверка моделей на вменяемость.

Вывод:

  • Сравнение результата случайной модели с другими доказывает вменяемость всех рассмотренных моделей.
  • По результатам тестирования модели выделены две с наибольшими результатами. RandomForestClassifier и CatBoostClassifier . Так как разница между ними не велика и скорость обучения модели CatBoost выше, то данная модель выбрана как наиболее предпочтительная.

Задача: По историческим данным поведения клиентов и расторжении договоров спрогнозировать возможный уход клиента.

Использованные библиотеки: Pandas, NumPy, Scikit-learn, Matplotlib, Catboost, различные модели классификации, подбор параметров, балансировка классов.

Вывод: По результатам тестирования модели выделены две с наибольшими результатами. Это случайны лес RandomForestClassifier с уменьшением в выборке доли отрицательных результатов и CatBoost CatBoostClassifier . Обе модели показали значение F1-меры выше требуемого значения.

Задача: По характеристикам нефтяных скважин в различных регионах определить регион с наибольшей прибылью.

Использованные библиотеки: Pandas, NumPy, Scikit-learn, Matplotlib, Catboost, Seaborn, различные модели классификации, подбор параметров, bootstrap.

Вывод: Найдено распределение прибыли для каждого региона, риск убытков и средняя прибыль. По этим характеристикам выбран регион для разработки скважин.

Как проверить модель на вменяемость sklearn

Метрики, используемые в задачах классификации и регрессии, различаются. В задаче классификации используются такие метрики, как точность, точность, отзыв . В задаче регрессии используются такие метрики, как средняя абсолютная ошибка, оценка R2 .

Поскольку это проблема классификации, я буду использоватьоценка точностиВот.

Получите быструю начальную оценку метрик.

Основная идея этого шага - получить базовую оценку показателей, которая оптимизируется. Эта базовая линия будет работать как ссылка на дальнейших этапах проверки модели. Есть несколько способов получить базовую оценку для задачи классификации. Я использую класс большинства для прогнозирования. Базовый показатель точности составляет примерно77%,

Разработка функций для оптимизации метрик.

Проектирование функций - это процесс использования знаний о предметной области для создания функций, обеспечивающих работу алгоритмов машинного обучения. Проектирование функций является основополагающим для применения машинного обучения, и сложным, и дорогостоящим.

От Википедия

Это означает выявление взаимосвязей между независимыми и зависимыми функциями. Это с помощью графиков, таких как парные графики или корреляционная матрица. Затем идентифицированные отношения мы можем добавить в качестве полинома или функции взаимодействия.

Этап разработки функций является точкой входа для последовательных итераций. Это критический шаг и играет большую роль в прогнозах по сравнению с проверкой модели.

В качестве быстрого решения мы можем добавить некоторые полиномиальные функции, используя Полиномиальные особенности в научном наборе,

Знание предметной области по рассматриваемой проблеме будет очень полезно для разработки функций. Это большая тема сама по себе и требует значительных затрат времени и ресурсов.

Предварительная обработка данных.

Предварительная обработка данных преобразует характеристики в формат, который больше подходит для оценщиков. В целом, модели машинного обучения предпочитают стандартизацию набора данных. Я буду использоватьRobustScalerдля нашего примера.

Обратитесь к Sci-Kit узнать Предварительная обработка данных раздел для подробной информации.

Выбор функций.

Выбор характеристик или уменьшение размерности в наборах данных помогает

  • Либо улучшить показатели точности моделей
  • Повысить их производительность на очень многомерных наборах данных.

я используюSelectKBest, одномерный метод выбора объекта. Функция оценки, используемая для задач классификации и регрессии, будет различной.

Обратитесь к Sci-Kit узнать Выбор функции раздел для подробной информации

Выбор модели.

Так как мы работаем с проблемой классификации, я буду использоватьЛогистическая регрессиямодель. Для проблем регрессии мы можем использоватьЛинейная регрессияилигрядамоделей. Выбор модели зависит от поставленной задачи. Исходя из сложности данных, мы можем использовать либо простую линейную модель, либо расширенные модели.

Обратитесь к Sci-Kit узнать Обобщенные линейные модели раздел для подробной информации.

Существует элегантный способ объединить вышеупомянутые три шага, используя Sci-Kit Learn. Трубопровод,Трубопроводприменяет список преобразований перед окончательной моделью.

Проверка модели.

Гиперпараметры - это параметры, которые не изучаются в самой модели. Гиперпараметры передаются в качестве аргументов в конструктор шагов в конвейере. На основе оценки перекрестной проверки можно выбрать наилучшие возможные параметры.

Для настройки гиперпараметровGridSearchCVэто один из вариантов. Он выполняет исчерпывающий поиск по указанным значениям параметров для модели. Здесь мы передаем гиперпараметры шагам в конвейере, используяparam_grid,резюмеустановлен в5так как мы должны выполнить 5-кратную перекрестную проверку.счетустановлен вточностьтак как мы хотим предсказать точность модели.

Обратитесь к Sci-Kit узнать Настройка гиперпараметров оценки раздел для подробной информации.

Интерпретировать результаты.

GridSearchCV возвращает немного важной информации, такой как:

  • best_estimator_Оценщик, который дал наивысший балл. Используя это, мы можем получить информацию о выбранных функциях.
  • лучший результат_,Средний перекрестный результат оценки best_estimator. Для нашего набора задач мы получили лучший результат78%для нашей самой первой итерации. Это кажется немного, но мы уже побили наш базовый показатель точности.
  • best_params_, настройка параметров, которая дала наилучшие результаты на данных удержания. Для гиперпараметров, которые передаются в модель, приведенные ниже настройки дают наилучшие результаты.
  1. ‘Logisticregression__C’: 1.0
  2. ‘Logisticregression__class_weight’: нет
  3. ‘Selectkbest__k’: 4

На этом заканчивается первая итерация проверки модели. Теперь мы можем вернуться и повторить процесс, начиная с этапа разработки функций. В конце каждой итерации мы можем проверить изменение показателя точности. Повторите процедуру до достижения желаемой оценки точности или выбранных показателей.

Получите лучшую модель и сравните ее с набором тестовых данных.

После выбора окончательной модели проверьте ее работоспособность, используя набор тестовых данных. Здесь мы получаем оценку точности75%на тестовом наборе данных.

Обратите внимание, что этот блог предназначен для быстрого ознакомления с проверкой правильности модели машинного обучения. Идея здесь состоит в том, чтобы не получить лучший показатель метрик в самой первой итерации. Используйте этот подход, чтобы установить базовый показатель метрик. Улучшите нашу оценку валидации модели на каждой итерации.

Получить полный блокнот Вот,

Вы можете найти мои другие блоги интересными. Проверьте их.

Обзор методов классификации в машинном обучении с помощью Scikit-Learn

Обложка поста Обзор методов классификации в машинном обучении с помощью Scikit-Learn

Для машинного обучения на Python написано очень много библиотек. Сегодня мы рассмотрим одну из самых популярных — Scikit-Learn.

Scikit-Learn упрощает процесс создания классификатора и помогает более чётко выделить концепции машинного обучения, реализуя их с помощью понятной, хорошо документированной и надёжной библиотекой.

Что такое Scikit-Learn?

Scikit-Learn — это Python-библиотека, впервые разработанная David Cournapeau в 2007 году. В этой библиотеке находится большое количество алгоритмов для задач, связанных с классификацией и машинным обучением в целом.

Scikit-Learn базируется на библиотеке SciPy, которую нужно установить перед началом работы.

Основные термины

В системах машинного обучения или же системах нейросетей существуют входы и выходы. То, что подаётся на входы, принято называть признаками (англ. features).

Признаки по существу являются тем же, что и переменные в научном эксперименте — они характеризуют какой-либо наблюдаемый феномен и их можно как-то количественно измерить.

Когда признаки подаются на входы системы машинного обучения, эта система пытается найти совпадения, заметить закономерность между признаками. На выходе генерируется результат этой работы.

Этот результат принято называть меткой (англ. label), поскольку у выходов есть некая пометка, выданная им системой, т. е. предположение (прогноз) о том, в какую категорию попадает выход после классификации.

В контексте машинного обучения классификация относится к обучению с учителем. Такой тип обучения подразумевает, что данные, подаваемые на входы системы, уже помечены, а важная часть признаков уже разделена на отдельные категории или классы. Поэтому сеть уже знает, какая часть входов важна, а какую часть можно самостоятельно проверить. Пример классификации — сортировка различных растений на группы, например «папоротники» и «покрытосеменные». Подобная задача может быть выполнена с помощью Дерева Решений — одного из типов классификатора в Scikit-Learn.

При обучении без учителя в систему подаются непомеченные данные, и она должна попытаться сама разделить эти данные на категории. Так как классификация относится к типу обучения с учителем, способ обучения без учителя в этой статье рассматриваться не будет.

Процесс обучения модели — это подача данных для нейросети, которая в результате должна вывести определённые шаблоны для данных. В процессе обучения модели с учителем на вход подаются признаки и метки, а при прогнозировании на вход классификатора подаются только признаки.

Принимаемые сетью данные делятся на две группы: набор данных для обучения и набор для тестирования. Не стоит проверять сеть на том же наборе данных, на которых она обучалась, т. к. модель уже будет «заточена» под этот набор.

Типы классификаторов

Scikit-Learn даёт доступ ко множеству различных алгоритмов классификации. Вот основные из них:

  • Метод k-ближайших соседей (K-Nearest Neighbors);
  • Метод опорных векторов (Support Vector Machines);
  • Классификатор дерева решений (Decision Tree Classifier) / Случайный лес (Random Forests);
  • Наивный байесовский метод (Naive Bayes);
  • Линейный дискриминантный анализ (Linear Discriminant Analysis);
  • Логистическая регрессия (Logistic Regression);

На сайте Scikit-Learn есть много литературы на тему этих алгоритмов с кратким пояснением работы каждого из них.

Метод k-ближайших соседей (K-Nearest Neighbors)

Этот метод работает с помощью поиска кратчайшей дистанции между тестируемым объектом и ближайшими к нему классифицированным объектами из обучающего набора. Классифицируемый объект будет относится к тому классу, к которому принадлежит ближайший объект набора.

Классификатор дерева решений (Decision Tree Classifier)

Этот классификатор разбивает данные на всё меньшие и меньшие подмножества на основе разных критериев, т. е. у каждого подмножества своя сортирующая категория. С каждым разделением количество объектов определённого критерия уменьшается.

Классификация подойдёт к концу, когда сеть дойдёт до подмножества только с одним объектом. Если объединить несколько подобных деревьев решений, то получится так называемый Случайный Лес (англ. Random Forest).

Наивный байесовский классификатор (Naive Bayes)

Такой классификатор вычисляет вероятность принадлежности объекта к какому-то классу. Эта вероятность вычисляется из шанса, что какое-то событие произойдёт, с опорой на уже на произошедшие события.

Каждый параметр классифицируемого объекта считается независимым от других параметров.

Линейный дискриминантный анализ (Linear Discriminant Analysis)

Этот метод работает путём уменьшения размерности набора данных, проецируя все точки данных на линию. Потом он комбинирует эти точки в классы, базируясь на их расстоянии от центральной точки.

Этот метод, как можно уже догадаться, относится к линейным алгоритмам классификации, т. е. он хорошо подходит для данных с линейной зависимостью.

Метод опорных векторов (Support Vector Machines)

Работа метода опорных векторов заключается в рисовании линии между разными кластерами точек, которые нужно сгруппировать в классы. С одной стороны линии будут точки, принадлежащие одному классу, с другой стороны — к другому классу.

Классификатор будет пытаться увеличить расстояние между рисуемыми линиями и точками на разных сторонах, чтобы увеличить свою «уверенность» определения класса. Когда все точки построены, сторона, на которую они падают — это класс, которому эти точки принадлежат.

Логистическая регрессия (Logistic Regression)

Логистическая регрессия выводит прогнозы о точках в бинарном масштабе — нулевом или единичном. Если значение чего-либо равно либо больше 0.5 , то объект классифицируется в большую сторону (к единице). Если значение меньше 0.5 — в меньшую (к нулю).

У каждого признака есть своя метка, равная только 0 или только 1. Логистическая регрессия является линейным классификатором и поэтому используется, когда в данных прослеживается какая-то линейная зависимость.

Примеры задач классификации

Задача классификации — эта любая задача, где нужно определить тип объекта из двух и более существующих классов. Такие задачи могут быть разными: определение, кошка на изображении или собака, или определение качества вина на основе его кислотности и содержания алкоголя.

В зависимости от задачи классификации вы будете использовать разные типы классификаторов. Например, если классификация содержит какую-то бинарную логику, то к ней лучше всего подойдёт логистическая регрессия.

По мере накопления опыта вам будет проще выбирать подходящий тип классификатора. Однако хорошей практикой является реализация нескольких подходящих классификаторов и выбор наиболее оптимального и производительного.

Реализация классификатора

Первый шаг в реализации классификатора — его импорт в Python. Вот как это выглядит для логистической регрессии:

from sklearn.linear_model import LogisticRegression 

Вот импорты остальных классификаторов, рассмотренных выше:

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB from sklearn.tree import DecisionTreeClassifier from sklearn.svm import SVC 

Однако, это не все классификаторы, которые есть в Scikit-Learn. Про остальные можно прочитать на соответствующей странице в документации.

После этого нужно создать экземпляр классификатора. Сделать это можно создав переменную и вызвав функцию, связанную с классификатором.

logreg_clf = LogisticRegression() 

Теперь классификатор нужно обучить. Перед этим нужно «подогнать» его под тренировочные данные.

Обучающие признаки и метки помещаются в классификатор через функцию fit :

logreg_clf.fit(features, labels) 

После обучения модели данные уже можно подавать в классификатор. Это можно сделать через функцию классификатора predict , передав ей параметр (признак) для прогнозирования:

logreg_clf.predict(test_features) 

Эти этапы (создание экземпляра, обучение и классификация) являются основными при работе с классификаторами в Scikit-Learn. Но эта библиотека может управлять не только классификаторами, но и самими данными. Чтобы разобраться в том, как данные и классификатор работают вместе над задачей классификации, нужно разобраться в процессах машинного обучения в целом.

Процесс машинного обучения

Процесс содержит в себе следующие этапы: подготовка данных, создание обучающих наборов, создание классификатора, обучение классификатора, составление прогнозов, оценка производительности классификатора и настройка параметров.

Во-первых, нужно подготовить набор данных для классификатора — преобразовать данные в корректную для классификации форму и обработать любые аномалии в этих данных. Отсутствие значений в данных либо любые другие отклонения — все их нужно обработать, иначе они могут негативно влиять на производительность классификатора. Этот этап называется предварительной обработкой данных (англ. data preprocessing).

Следующим шагом будет разделение данных на обучающие и тестовые наборы. Для этого в Scikit-Learn существует отличная функция traintestsplit.

Как уже было сказано выше, классификатор должен быть создан и обучен на тренировочном наборе данных. После этих шагов модель уже может делать прогнозы. Сравнивая показания классификатора с фактически известными данными, можно делать вывод о точности классификатора.

Вероятнее всего, вам нужно будет «корректировать» параметры классификатора, пока вы не достигните желаемой точности (т. к. маловероятно, что классификатор будет соответствовать всем вашим требованиям с первого же запуска).

Ниже будет представлен пример работы машинного обучения от обработки данных и до оценки.

Реализация образца классификации

# Импорт всех нужных библиотек import pandas as pd from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC 

Поскольку набор данных iris достаточно распространён, в Scikit-Learn он уже присутствует, достаточно лишь заложить эту команду:

sklearn.datasets.load_iris 

Тем не менее, тут ещё нужно подгрузить CSV-файл, который можно скачать здесь.

Этот файл нужно поместить в ту же папку, что и Python-файл. В библиотеке Pandas есть функция read_csv() , которая отлично работает с загрузкой данных.

data = pd.read_csv('iris.csv') # Проверяем, всё ли правильно загрузилось print(data.head(5)) 

Благодаря тому, что данные уже были подготовлены, долгой предварительной обработки они не требуют. Единственное, что может понадобиться — убрать ненужные столбцы (например ID ) таким образом:

data.drop('Id', axis=1, inplace=True) 

Теперь нужно определить признаки и метки. С библиотекой Pandas можно легко «нарезать» таблицу и выбрать определённые строки/столбцы с помощью функции iloc() :

# ".iloc" принимает row_indexer, column_indexer X = data.iloc[. -1].values # Теперь выделим нужный столбец y = data['Species'] 

Код выше выбирает каждую строку и столбец, обрезав при этом последний столбец.

Выбрать признаки интересующего вас набора данных можно также передав в скобках заголовки столбцов:

# Альтернативный способ выбора нужных столбцов: X = data.iloc['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm'] 

После того, как вы выбрали нужные признаки и метки, их можно разделить на тренировочные и тестовые наборы, используя функцию train_test_split() :

# test_size показывает, какой объем данных нужно выделить для тестового набора # Random_state — просто сид для случайной генерации # Этот параметр можно использовать для воссоздания определённого результата: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=27) 

Чтобы убедиться в правильности обработки данных, используйте:

print(X_train) print(y_train) 

Теперь можно создавать экземпляр классификатора, например метод опорных векторов и метод k-ближайших соседей:

SVC_model = svm.SVC() # В KNN-модели нужно указать параметр n_neighbors # Это число точек, на которое будет смотреть # классификатор, чтобы определить, к какому классу принадлежит новая точка KNN_model = KNeighborsClassifier(n_neighbors=5) 

Теперь нужно обучить эти два классификатора:

SVC_model.fit(X_train, y_train) KNN_model.fit(X_train, y_train) 

Эти команды обучили модели и теперь классификаторы могут делать прогнозы и сохранять результат в какую-либо переменную.

SVC_prediction = SVC_model.predict(X_test) KNN_prediction = KNN_model.predict(X_test) 

Теперь пришло время оценить точности классификатора. Существует несколько способов это сделать.

Нужно передать показания прогноза относительно фактически верных меток, значения которых были сохранены ранее.

# Оценка точности — простейший вариант оценки работы классификатора print(accuracy_score(SVC_prediction, y_test)) print(accuracy_score(KNN_prediction, y_test)) # Но матрица неточности и отчёт о классификации дадут больше информации о производительности print(confusion_matrix(SVC_prediction, y_test)) print(classification_report(KNN_prediction, y_test)) 

Вот, к примеру, результат полученных метрик:

SVC accuracy: 0.9333333333333333 KNN accuracy: 0.9666666666666667 

Поначалу кажется, что KNN работает точнее. Вот матрица неточностей для SVC:

[[ 7 0 0] [ 0 10 1] [ 0 1 11]] 

Количество правильных прогнозов идёт с верхнего левого угла в нижний правый. Вот для сравнения метрики классификации для KNN:

precision recall f1-score support Iris-setosa 1.00 1.00 1.00 7 Iris-versicolor 0.91 0.91 0.91 11 Iris-virginica 0.92 0.92 0.92 12 micro avg 0.93 0.93 0.93 30 macro avg 0.94 0.94 0.94 30 weighted avg 0.93 0.93 0.93 30 

Оценка классификатора

Когда дело доходит до оценки точности классификатора, есть несколько вариантов.

Точность классификации

Точность классификации измерять проще всего, и поэтому этот параметр чаще всего используется. Значение точности — это число правильных прогнозов, делённое на число всех прогнозов или, проще говоря, отношение правильных прогнозов ко всем.

Хоть этот показатель и может быстро дать вам явное представление о производительности классификатора, его лучше использовать, когда каждый класс имеет хотя бы примерно одинаковое количество примеров. Так как такое будет случаться редко, рекомендуется использовать другие показатели классификации.

Логарифмические потери

Значение Логарифмических Потерь (англ. Logarithmic Loss) — или просто логлосс — показывает, насколько классификатор «уверен» в своём прогнозе. Логлосс возвращает вероятность принадлежности объекта к тому или иному классу, суммируя их, чтобы дать общее представление об «уверенности» классификатора.

Этот показатель лежит в промежутке от 0 до 1 — «совсем не уверен» и «полностью уверен» соответственно. Логлосс сильно падает, когда классификатор сильно «уверен» в неправильном ответе.

Площадь ROC-кривой (AUC)

Такой показатель используется только при бинарной классификации. Площадь под ROC-кривой представляет способность классификатора различать подходящие и не подходящие какому-либо классу объекты.

Значение 1.0 : вся область, попадающая под кривую, представляет собой идеальный классификатор. Следовательно, 0.5 означает, что точность классификатора соответствует случайности. Кривая рассчитывается с учётом точности и специфичности модели. Подробнее о расчётах можно прочитать здесь.

Матрица неточностей

Матрица неточностей (англ. Confusion Matrix) — это таблица или диаграмма, показывающая точность прогнозирования классификатора в отношении двух и более классов. Прогнозы классификатора находятся на оси X, а результат (точность) — на оси Y.

Ячейки таблицы заполняются количеством прогнозов классификатора. Правильные прогнозы идут по диагонали от верхнего левого угла в нижний правый. Про это можно почитать в данной статье.

Отчёт о классификации

В библиотеке Scikit-Learn уже встроена возможность создавать отчёты о производительности классификатора. Эти отчёты дают интуитивно понятное представление о работе модели.

Заключение

Чтобы лучше вникнуть в работу с Scikit-Learn, неплохо было бы узнать больше о работе различных методов классификации. После этого стоит лучше узнать о замере производительности классификаторов. Однако понимание многих нюансов в классификации приходит только со временем.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *