Повышение гребня для машины экстремального обучения, глобально оптимизированной для задач классификации и регрессии

Том 13 научных отчетов, номер статьи: 11809 (2023) Цитировать эту статью

191 Доступ

Подробности о метриках

В этой статье исследуется структура повышения гребня (BR) в сообществе машин экстремального обучения (ELM) и представлена новая модель, которая обучает базовых учащихся как глобальный ансамбль. В контексте однослойных сетей Extreme Learning Machine узлы скрытого слоя предварительно настраиваются перед обучением, а оптимизация выполняется по весам в выходном слое. Предыдущая реализация ансамбля BR с ELM (BRELM) в качестве базовых обучающихся фиксирует узлы в скрытом слое для всех ELM. Метод ансамблевого обучения генерирует различные коэффициенты выходного слоя путем последовательного уменьшения остаточной ошибки ансамбля по мере добавления в ансамбль большего количества базовых обучающихся. Как и в других методологиях ансамблей, базовые учащиеся отбираются до тех пор, пока не будут соответствовать критериям ансамбля, таким как размер или производительность. В этой статье предлагается глобальный метод обучения в рамках BR, в котором базовые обучающиеся не добавляются шаг за шагом, а все рассчитываются за один шаг с целью определения производительности ансамбля. Этот метод учитывает (i) конфигурации скрытого слоя различны для каждого базового учащегося, (ii) базовые учащиеся оптимизируются все сразу, а не последовательно, что позволяет избежать насыщения, и (iii) методология ансамбля не имеет недостатка работы с сильными классификаторами. Для сравнения этого метода с исходной реализацией BRELM и другими современными алгоритмами были выбраны различные наборы эталонных данных регрессии и классификации. В частности, 71 набор данных для классификации и 52 для регрессии были рассмотрены с использованием различных метрик и анализа различных характеристик наборов данных, таких как размер, количество классов или их несбалансированный характер. Статистические тесты указывают на превосходство предложенного метода как в задачах регрессии, так и в классификации во всех экспериментальных сценариях.

За последнее десятилетие машина экстремального обучения (ELM)1 стала популярной методологией решения сложных задач машинного обучения, например, интерфейсов «мозг-компьютер»2, прогнозирования оставшегося срока службы подшипников качения3, определения происхождения фенхеля, что имеет большое значение. значение в пищевых ароматизаторах4, прогнозирование пневмонии COVID-195, классификация EGG для интерфейса мозг-компьютер6, управление водными сетями7 и прогнозирование урожайности пшеницы8, среди прочего. Теории ELM утверждают, что параметры скрытого слоя, то есть вес и смещение в сетях прямого распространения с одним скрытым слоем, не нуждаются в настройке, но они могут генерироваться случайным образом, независимо от набора обучающих данных9. Таким образом, только выходные веса вычисляются за один шаг с использованием оценочного решения методом наименьших квадратов. Благодаря такой случайной инициализации скорость обучения ELM более эффективна по сравнению с традиционными решателями для нейронных сетей, например, основанными на обратном распространении ошибки10,11, без потери производительности и даже ее улучшения.

Одним из недостатков моделей ELM является то, что для скрытого слоя требуется большое количество нейронов, поскольку нелинейная комбинация признаков исследуется случайным образом12. В связи с этим было исследовано несколько методов уменьшения этой случайности без увеличения времени вычислений или сложности алгоритма, таких как сокращение13, роевая оптимизация14,15 и методы ансамблевого обучения.

В этом контексте было предложено несколько ансамблевых методов для моделей ELM, например, ансамбли для регрессии16, нечеткие ансамбли для классификации больших данных17, глубокие ансамбли для прогнозирования временных рядов18, инкрементный Meta-ELM с обратной связью по ошибкам19 или ансамбли ELM с взвешенным ядром для несбалансированных наборов данных20. Кроме того, многие ансамблевые методы ELM применялись для решения реальных задач, таких как прогнозирование высоты океанских волн21, распознавание деятельности человека22, калибровка спектроскопии ближнего инфракрасного диапазона23 или распознавание пения птиц24. В общем, ансамбли стремятся уменьшить ошибку обобщения, используя смесь классификаторов или регрессоров, известных как базовые обучающиеся в рамках ансамблевого обучения. Улучшение производительности связано с разнообразием базовых предикторов, т.е. для обобщения ансамбля важно, чтобы базовые учащиеся расходились во мнениях как можно больше25. Есть много способов объединить отдельные прогнозы. Таким образом, было предложено несколько методов голосования для повышения эффективности этих ансамблей, таких как Baging26, Boosting27, система постепенного обучения с использованием локальных линейных экспертов28 или вариант Boosting, построенный на основе алгоритма функционального градиентного спуска с функцией потерь L229, среди других. Ансамблевые методологии, известные как Бэггинг и Бустинг, являются наиболее широко используемыми подходами, главным образом из-за простоты их применения и их ансамблевой производительности30. Ключ к этим ансамблевым методологиям лежит в обучающих данных для создания разнообразия. Таким образом, различные решения проблемы оптимизации, связанной с базовыми предикторами, неявно ищутся посредством выборки данных31.