Тюнинг анализа данных: оптимизация машинного обучения

Статья на сайте МТИ рассказывает о новой автоматизированной системе машинного обучения, которая работает так же хорошо, как люди, но выполняет задачи в 100 раз быстрее.
Наблюдаемый в последнее время колоссальный рост значимости теории анализа и обработки данных (прикладной математики) — как дисциплины, так и вариантов её применения — можно отнести, в частности, к её эффективности в области решения проблем: Она может предсказывать, когда транзакции по кредитным картам являются мошенническими, помогает владельцам бизнесов определять, когда лучше отправлять купоны, чтобы максимально удовлетворить потребности клиента, или для проведения образовательных мероприятий путём прогнозирования момента, когда студент находится на грани вылета.
Однако для того, чтобы получить эти основанные на данных решения, учёные должны провести исходные данные через ряд сложных этапов, каждый из которых требует принятия множества субъективных решений. Последний шаг в этом процессе, то есть выбор техники моделирования, особенно важен. Существуют сотни методов ‑ от нейронных сетей до метода опорных векторов. Удачный выбор может принести миллионы долларов дополнительных доходов или вовремя обнаружить дефекты в критически важных медицинских приборах, которые были бы пропущены в случае, если бы вы выбрали другой вариант.
В документе под названием «АТМ: Распределённая, предназначенная для совместной работы, масштабируемая система автоматизированного машинного обучения», которая была представлена на прошлой неделе на международной конференции по большим данным IEEE, исследователи из МТИ и Мичиганского университета представили новую систему, которая автоматизирует этап отбора модели, тем самым повышая производительность сотрудника. Эта система, получившая название Auto-Tuned Models (ATM), использует преимущества облачных вычислений для выполнения высокопроизводительного поиска по вариантам моделирования, позволяя найти наилучший метод моделирования для конкретной проблемы. Также настраиваются «гиперпараметры» модели, представляющие собой способ оптимизации алгоритма, которые могут существенно повлиять на общую производительность. В настоящее время системы ATM доступны для использования на предприятиях в качестве платформы с открытым исходным кодом.
Для сравнения ATM с исполнителями из числа людей, исследователи протестировали эти системы против пользователей краундсорсинговой платформы совместной работы openml.org. На этой платформе специалисты по анализу данных вместе работают над решением задач, находя оптимальное решение с учётом результатов работы друг друга. Система ATM проанализировала 47 наборов данных, полученных с платформы, и представила более удачное решение, чем то, что смогли придумать люди после использования 30 процентов времени. Хотя ATM не смогла превзойти людей, но шла очень близко и, что особенно важно, работала гораздо быстрее, чем люди. В то время как у пользователей open-ml уходит в среднем 100 дней на то, чтобы придумать почти оптимальное решение, ATM может найти ответ менее чем за день.
Расширение возможностей учёных, занимающихся анализом данных
Этот уровень скорости и точности обеспечивает необходимое душевное спокойствие для специалистов по анализу данных, которых часто мучают сомнения. «Вариантов так много», ‑ жалуется Арун Росс, профессор отделения компьютерных наук и инженерии в университете штата Мичиган, который является основным автором доклада. «Если учёный, занимающийся анализом данных, выбирает в качестве метода моделирования машины опорных векторов, в его сознании постоянно будет висеть сомнение: а не были бы результаты точнее при использовании нейронной сети или другой модели?»
За последние несколько лет проблема выбора и настройки модели стала основой целью целого нового подраздела машинного обучения, известного как Auto-ML. Решения Auto-ML направлены на то, чтобы предоставить специалистам по анализу данных наилучшую модель для конкретной задачи из области машинного обучения. Есть только одна проблема: Конкурирующие подходы к работе с Auto-ML дают разные результаты, и их методы часто непрозрачны. Иными словами, пытаясь решить одну проблему выбора, сообщество создало другую проблему, ещё более сложную. «Сомнения по-прежнему остаются», ‑ говорит Калиан Вирамачанени, главный научный сотрудник лаборатории систем обработки информации принятия решений МТИ и один из основных авторов документа. «Просто теперь мы задаём себе вопрос: ‘А что если мы использовали бы другой подход Auto-ML?»
Система ATM работает иначе, используя облачные вычисления, чтобы генерировать и сравнивать сотни (или даже тысячи) моделей за короткий период времени. Для поиска среди методов исследователи используют интеллектуальный механизм отбора. Система тестирует тысячи моделей параллельно, оценивает каждую из них и выделяет больше вычислительных ресурсов для тех методов, которые кажутся более перспективными. Плохие решения отбрасываются в сторону, в то время как лучшие варианты поднимаются кверху.
Вместо того, чтобы слепо выбирать «лучший» вариант и предоставлять его пользователю, ATM отображает результаты в виде распределённого списка, позволяя параллельно сравнивать различные методы. Таким образом, утверждает Росс, ATM ускоряет процесс тестирования и сравнения различных подходов моделирования, не требуя автоматизации человеческой интуиции, которая остаётся жизненно важной частью прикладной математики.
Ориентированный на сообщество подход с открытым исходным кодом
Оптимизируя процесс выбора модели, Вирамачанени и его команда стремятся дать специалистам по прикладной математике возможность работать над более перспективными частями рабочего процесса. «Мы надеемся, что наша система позволит экспертам тратить больше времени на изучение данных, постановку задачи и разработку функций«, ‑ говорит Вирамачанени.
С этой целью исследователи открыли исходные коды ATM, сделав их доступными для предприятий, которые, возможно, захотят их использовать. Они также включили положения, которые позволят исследователям интегрировать новые методы отбора моделей, таким образом постоянно улучшая платформу. ATM могут работать на одном компьютере, локальных вычислительных или облачных кластерах, а также способны одновременно выполнять действия с несколькими наборами данных и несколькими пользователями.
«Команда специалистов по изучению данных небольшого или среднего размера может разработать и начать производить модели, выполнив всего несколько шагов,» ‑ рассказывает Вирамачанени. И ни один из них не заставит вас мучиться из-за сомнений.