Компания «Яндекс» разработала новый метод машинного обучения CatBoost. Соответствующая библиотека выложена в открытый доступ — применять её могут все желающие.
CatBoost — это наследник метода машинного обучения «Матрикcнет», который применяется почти во всех сервисах «Яндекса. В основе «Матрикснета» лежит механизм градиентного бустинга. Его особенность в том, что он хорошо подходит для работы с разнородными данными. Кроме того, градиентный бустинг даёт точные результаты даже там, где данных относительно мало. Этим он отличается от нейросетей, которые обучаются на огромном массиве однородных данных.
Но если «Матрикснет» обучает модели на числовых данных, то CatBoost учитывает и нечисловые, например, виды облаков или типы зданий. Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде.
Утверждается, что CatBoost показывает более высокое качество обучения, чем аналогичные методы для работы с разнородными данными. Метод уже опробован в различных сервисах «Яндекса». Так, он применялся для улучшения результатов поиска, ранжирования ленты рекомендаций и для расчёта прогноза погоды.
CatBoost можно применять в самых разных областях — от банковской сферы до промышленности. Библиотека поддерживает операционные системы Linux, Windows и macOS; она доступна на языках программирования Python и R.
Читайте также
Последние новости