Классификация в машинном обучении: введение
Классификация — это процесс прогнозирования класса заданных точек данных. Классы иногда называют целями, метками или категориями. Классификационное прогнозирующее моделирование — это задача аппроксимации функции отображения (f) входных переменных (X) к дискретным выходным переменным (y).
Например, обнаружение спама у поставщиков услуг электронной почты можно назвать проблемой классификации. Это бинарная классификация, поскольку существует только два класса, отмеченных как «спам» и «не спам». Классификатор использует некоторые обучающие данные, чтобы понять, как данные входные переменные связаны с классом. В этом случае в качестве обучающих данных необходимо использовать известные электронные письма, содержащие спам и не спам. Если классификатор обучен точно, его можно использовать для обнаружения неизвестного электронного письма.
Классификация относится к категории обучения с учителем, где целевым объектам также предоставляются входные данные. Классификацию можно применять для решения самых разных задач, включая одобрение кредита, медицинскую диагностику, целевой маркетинг и т. д.
Классифицируют два типа учащихся — ленивые и нетерпеливые.
Ленивые учащиеся сохраняют данные обучения и ждут, пока не появятся данные тестирования. В этом случае классификация проводится на основе наиболее связанных сохраненных обучающих данных. По сравнению с усердными учениками, ленивые ученики тратят меньше времени на обучение, но больше времени на прогнозирование.
Примеры:K-ближайший сосед и рассуждения по прецедентам.
Активные учащиеся создают модель классификации на основе предоставленных данных обучения, прежде чем получать данные для классификации. Он должен быть способен придерживаться единой гипотезы, охватывающей все пространство экземпляров. Из-за этого усердным ученикам требуется больше времени на обучение и меньше времени на прогнозирование.
Примеры:Дерево решений, наивный Байес и искусственные нейронные сети.
Подробнее о машинном обучении: 10 лучших алгоритмов машинного обучения, которые должен знать каждый новичок
Существует множество алгоритмов классификации на выбор. Выбор правильного зависит от приложения и характера доступного набора данных. Например, если классы линейно разделимы, линейные классификаторы, такие как логистическая регрессия и линейный дискриминант Фишера, могут превзойти сложные модели и наоборот.
Дерево решений строит модели классификации или регрессии в виде древовидной структуры. Он использует набор правил «если-то», который является взаимоисключающим и исчерпывающим для классификации. Правила изучаются последовательно с использованием обучающих данных по одному. Каждый раз, когда правило изучается, кортежи, на которые распространяются правила, удаляются. Этот процесс продолжается до тех пор, пока не будет выполнено условие завершения.
Дерево строится сверху вниз, рекурсивно, по принципу «разделяй и властвуй». Все атрибуты должны быть категориальными. В противном случае их следует дискретизировать заранее. Атрибуты в верхней части дерева оказывают большее влияние на классификацию и идентифицируются с использованием концепции получения информации.
Дерево решений может быть легко переоснащено, создавая слишком много ветвей и может отражать аномалии из-за шума или выбросов. Модель с перенастройкой приводит к очень плохой производительности на невидимых данных, хотя она дает впечатляющую производительность на обучающих данных. Этого можно избежать с помощью предварительной обрезки, которая заранее останавливает формирование дерева, или с помощью последующей обрезки, при которой удаляются ветки у полностью выросшего дерева.
Наивный Байес — это вероятностный классификатор, основанный на теореме Байеса в предположении, что атрибуты условно независимы.
Классификация проводится путем получения максимального апостериорного значения, которое является максимальным P(Ci|X), при этом приведенное выше предположение применяется к теореме Байеса. Это предположение значительно снижает вычислительные затраты, поскольку учитывается только распределение классов. Несмотря на то, что в большинстве случаев это предположение неверно, поскольку атрибуты зависимы, удивительно, что наивный Байес способен работать впечатляюще.
Наивный байесовский алгоритм — это простой в реализации алгоритм, который в большинстве случаев может дать хорошие результаты. Его можно легко масштабировать до более крупных наборов данных, поскольку для этого требуется линейное время, а не дорогостоящая итеративная аппроксимация, которую используют другие типы классификаторов.