ОСНОВНЫЕ ПОНЯТИЯ МАШИННОГО ОБУЧЕНИЯ

Бычков Кирилл Вячеславович

студент, Сибирский государственный индустриальный университет, РФ, г. Новокузнецк

Кирчева Алина Сергеевна

студент, Сибирский государственный индустриальный университет, РФ, г. Новокузнецк

Мамедов Илькин Вахид оглы

студент, Сибирский государственный индустриальный университет, РФ, г. Новокузнецк

Машинное обучение является ключевым компонентом современной информатики и искусственного интеллекта (ИИ), при котором компьютерная программа улучшает свои результаты выполнения задач через накопление опыта.

Машинное обучение – это набор подходов искусственного интеллекта, отличающийся тем, что вместо прямого решения задачи, он обучается в процессе решения множества подобных задач [1]. Для создания таких методов применяются инструменты математической статистики, численных методов, методов оптимизации, теории вероятностей, теории графов и другие техники работы с цифровыми данными.

Принятие решений на основе данных с использованием машинного обучения позволяет получать оптимальные решения непосредственно из поступающих данных, без необходимости заранее программировать бизнес-правила. Это приводит к увеличению точности решений, которая постоянно растет по мере накопления новых данных.

В таблице 1 приводятся варианты применения машинного обучения с учителем, систематизированные по типам задач.

Таблица 1.

Применение машинного обучения с учителем, систематизированные по типам задач

Задача	Описание	Пример применения
Классификация	На основе данных определяется дискретный класс для каждого объекта	Фильтрация спама, анализ тональности текстов, обнаружение мошенничества, рассылка целевых рекламных объявлений, прогнозирование оттока клиентов, обработка заявок на техническую поддержку, персонализация контента, выявление производственных дефектов, сегментация потребителей, обнаружение событий, изучение геномов и эффективности лекарственных средств
Регрессия	На основе данных предсказывается фактическое значение параметра	Прогнозы на рынке ценных бумаг, прогноз спроса, прогноз цены, оптимизация аукциона реальных объявлений, управление рисками, управление активами, прогнозы погоды, спортивные предсказания
Рекомендация	Предсказывается альтернатива, которую предпочтет пользователь	Предложения продуктов, подбор персонала, конкурс Netflix Prize, онлайн-знакомства, предложение контента
Заполнение пропусков	Вывод значений отсутствующих входных данных	Неполные истории болезни, отсутствующая информация о клиентах, данные переписей

Машинное обучение использует данные из каждого заявления для лучшего прогнозирования ситуации. Оно находит шаблоны в обучающих данных и использует их для создания модели, которая может предсказать поведение каждого заемщика на основе предоставленной им информации. Затем выбирается алгоритм, который может варьироваться от простых статистических моделей до более сложных подходов.

Преимущества машинного обучения включают:

точность: машинное обучение использует данные для создания программы, оптимизированной для решения конкретной задачи. Точность прогнозов автоматически увеличивается по мере накопления данных;
автоматизация: машинное обучение может автоматически обнаруживать новые шаблоны, что позволяет встраивать его непосредственно в автоматизированные рабочие процессы;
скорость: машинное обучение дает ответы в течение долей секунды после получения новой информации, что позволяет системам реагировать в реальном времени;
настраиваемость: многие задачи, управляемые данными, можно решить с помощью машинного обучения. Модели строятся на основе ваших собственных данных и могут быть настроены под любую систему мер, принятую в вашем бизнесе;
масштабируемость: при росте бизнеса модель машинного обучения легко приспосабливается к увеличивающимся объемам данных. Некоторые алгоритмы можно использовать для обработки больших объемов данных на разных вычислительных машинах в облаке.

Недостатки машинного обучения включают:

необходимость получения данных в готовой к использованию форме. Специалисты по работе с данными тратят 80% времени на подготовку данных;
сложность сформулировать проблему таким образом, чтобы к ней можно было применить методы машинного обучения и получить практически ценные и измеримые результаты;
необходимость и сложность выбора правильных признаков для модели. Проектирование признаков представляет собой процесс преобразования входных данных в подходящие для предсказывающей модели признаки;
риск переобучения, когда модель идеально работает на обучающих данных, но не может давать достоверные прогнозы на основе новых данных. Это происходит из-за чрезмерной подгонки параметров модели к зависимостям, содержащимся в обучающем множестве.

Рабочий процесс машинного обучения состоит из пяти стадий: подготовка данных, построение модели, оценка, оптимизация и прогноз на новых данных. Эти этапы следуют друг за другом, но часто требуется повторять их в процессе последовательных приближений.

Сбор и подготовка данных для систем машинного обучения обычно включает представление данных в виде таблицы, если изначально они имеют другую форму. Первый этап построения успешной системы машинного обучения – это формулировка вопроса, ответ на который должны дать наши данные.

Алгоритм машинного обучения должен понять, каким образом набор входных признаков позволяет успешно предсказывать значение целевой переменной. Этот вариант усовершенствования данных, называемый извлечением признаков (feature extraction), крайне важен в реальных проектах машинного обучения.

Построив модель машинного обучения, можно делать прогнозы для новых данных с неизвестной целевой переменной. Предсказанная целевая переменная возвращается в той форме, в которой она фигурировала во взятых для обучения модели исходных данных. Прогнозирование с помощью модели, по сути, является заполнением пустого столбца новыми значениями. Некоторые алгоритмы машинного обучения также включают в результат своей работы связанные с каждым классом вероятности.

Оценка производительности модели заключается в том, что берется набор данных и представляется, что целевая переменная неизвестна. Затем строим на их основе модель и используем их в качестве тестовых данных для нескольких прогнозов.

Оптимизация производительности модели достигается тремя способами: редактирование параметров модели, выбор подмножества признаков и предварительная обработка данных. Каждый алгоритм машинного обучения обладает набором параметров, оптимальные значения которых зачастую зависят от типа и структуры данных. Выбор подмножества признаков заключается в тщательном выборе признаков, которые дадут наиболее универсальную и точную модель. Предварительная обработка данных называется выпасом данных (data munging или data wrangling) и включает в себя очистку и обработку данных, которые в большинстве случаев находятся далеко не в чистом виде.

Предварительная обработка данных и разработка признаков являются ключевыми шагами в рабочем процессе машинного обучения (ML). Этот процесс, известный как проектирование признаков (feature engineering), требует специальных знаний в любой предметной области, чтобы определить, какие данные нужно собирать и как извлекать ценную информацию из собранных данных. Примерами проектирования признаков могут быть извлечение информации из даты и времени, местоположения и цифровых средств коммуникации.

Примеры проектирования признаков:

дата и время: эти переменные часто встречаются в наборах данных, но сами по себе они бесполезны для алгоритмов ML. Однако из них можно извлечь ценную информацию, такую как время, день недели и время года, которая может быть полезна при выборе рекламы для демонстрации;
местоположение: в некоторых наборах данных присутствуют координаты или названия мест. Эта информация может быть полезна сама по себе, но также из нее можно извлечь дополнительные параметры, необходимые для решения более специфических задач;
цифровые средства коммуникации: в эту группу попадают такие данные, как тексты, документы, изображения и видео.

В большинстве случаев традиционные модели ML статичны и перестраиваются редко. Однако во многих случаях данные и прогнозы возвращаются обратно в систему, и желательно, чтобы модель постепенно совершенствовалась и адаптировалась к изменениям в этих данных. Существуют алгоритмы ML, поддерживающие динамическое обучение (online learning), которое позволяет модели непрерывно обучаться и улучшаться. Кроме того, машинное обучение активно используется в парсинге данных [2]. Это процесс автоматизированного извлечения информации из различных источников, таких как веб-страницы, документы или базы данных. Машинное обучение позволяет улучшить точность и эффективность парсинга данных, адаптируясь к новым формам и форматам данных, а также выявляя скрытые связи и шаблоны в обрабатываемой информации. Современные алгоритмы машинного обучения могут анализировать большие объемы данных с высокой скоростью, автоматически распознавая и структурируя информацию, что значительно упрощает процесс сбора данных и последующего анализа.

Машинное обучение является мощным инструментом, который находит применение в самых разнообразных областях. Оно не только позволяет решать сложные задачи с высокой точностью, но и автоматизирует процессы, увеличивает скорость обработки данных и адаптируется к изменениям в окружающей среде. Несмотря на некоторые недостатки, преимущества машинного обучения значительно перевешивают. С развитием технологий и накоплением данных его роль будет только возрастать, открывая новые возможности для бизнеса, науки и технологий.

Список литературы:

1. Бычков, А. Г. Использование сегментации для повышения эффективности свёрточных нейронных сетей / А. Г. Бычков, Т. В. Киселева, Е. В. Маслова // Системы автоматизации (в образовании, науке и производстве) AS’2023 : труды Всероссийской научно-практической конференции (с международным участием), Новокузнецк, 12–14 декабря 2023 года. – Новокузнецк: Сибирский государственный индустриальный университет, 2023. – С. 254-261.

2. Бабичева Н. Б., Кирчева А. С., Мамедов И. В. Использование предобработки данных для эффективной сегментации абитуриентов на основе цифрового следа // Сборник трудов международной молодёжной школы «Инженерия –XXI» (г. Новороссийск, 22–26 апреля 2024 г.) / под общ. ред. к. ф. н. доцента И. В. Чистякова. – Новороссийск: Изд-во НФ БГТУ им. В. Г. Шухова, 2024. – 249 с. – С. 107-108.

Пожалуйста, не забудьте правильно оформить цитату:
Бычков К.В., Кирчева А.С., Мамедов И.В. ОСНОВНЫЕ ПОНЯТИЯ МАШИННОГО ОБУЧЕНИЯ // Молодежный научный форум: электр. сб. ст. по мат. CCLV междунар. студ. науч.-практ. конф. № 23(255). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/23(255).pdf (дата обращения: 10.07.2024)