Фраза дня: прогнозное моделирование

Прогнозное моделирование, также называемое прогнозной аналитикой, представляет собой математический процесс, который направлен на прогнозирование будущих событий или результатов путем анализа закономерностей, которые могут прогнозировать будущие результаты. Цель прогнозного моделирования - ответить на следующий вопрос: «Что, исходя из известного поведения в прошлом, наиболее вероятно произойдет в будущем?

После сбора данных аналитик выбирает и обучает статистические модели, используя исторические данные. Хотя может возникнуть соблазн думать, что большие данные делают прогнозные модели более точными, статистические теоремы показывают, что после определенного момента ввод большего количества данных в прогнозную аналитическую модель не улучшает точность. Старая поговорка «Все модели ошибочны, но некоторые полезны» часто упоминается в том смысле, что для определения будущих действий полагаться исключительно на модели прогнозирования.

Во многих случаях использования, включая прогнозы погоды, несколько моделей запускаются одновременно, а результаты объединяются для создания одного окончательного прогноза. Этот подход известен как ансамблевое моделирование. По мере появления дополнительных данных статистический анализ будет либо подтвержден, либо пересмотрен.

Приложения прогнозного моделирования
Прогнозное моделирование часто ассоциируется с метеорологией и прогнозированием погоды, но имеет множество приложений в бизнесе.

Одно из наиболее распространенных применений прогнозного моделирования - это интернет-реклама и маркетинг. Разработчики моделей используют исторические данные пользователей Интернета, прогоняя их через алгоритмы, чтобы определить, какие продукты могут быть интересны пользователям и на что они, вероятно, будут нажимать.

Байесовские фильтры спама используют прогнозное моделирование для определения вероятности того, что данное сообщение является спамом. При обнаружении мошенничества прогнозное моделирование используется для выявления в наборе данных выбросов, указывающих на мошенническую деятельность. А в управлении взаимоотношениями с клиентами (CRM) прогнозное моделирование используется для нацеливания сообщений на клиентов, которые с наибольшей вероятностью совершат покупку. Другие приложения включают планирование мощностей, управление изменениями, аварийное восстановление (DR), проектирование, управление физической и цифровой безопасностью и городское планирование.

Методы моделирования
Анализ репрезентативных частей доступной информации - выборка - может помочь сократить время разработки моделей и ускорить их развертывание.

После того, как специалисты по данным соберут эти образцы данных, они должны выбрать правильную модель. Линейные регрессии относятся к простейшим типам прогнозных моделей. Линейные модели, по сути, принимают две коррелированные переменные - одну независимую, а другую зависимую - и отображают одну на оси x, а другую - на оси y. Модель применяет наиболее подходящую линию к полученным точкам данных. Специалисты по обработке данных могут использовать это, чтобы предсказать появление зависимой переменной в будущем.

Некоторые из самых популярных методов включают:

  • Деревья решений. Алгоритмы дерева решений берут данные (добытые, с открытым исходным кодом, внутренние) и отображают их в виде ветвей, чтобы отобразить возможные результаты различных решений. Деревья решений классифицируют переменные отклика и предсказывают переменные отклика на основе прошлых решений, могут использоваться с неполными наборами данных, легко объяснимы и доступны для начинающих специалистов по анализу данных.
  • Анализ временных рядов. Это метод предсказания событий во времени. Вы можете предсказать будущие события, анализируя прошлые тенденции и экстраполируя их оттуда.
  • Логистическая регрессия. Этот метод представляет собой метод статистического анализа, который помогает в подготовке данных. По мере поступления большего количества данных способность алгоритма сортировать и классифицировать их улучшается, и поэтому можно делать прогнозы.

Самая сложная область прогнозного моделирования - нейронная сеть. Этот тип модели машинного обучения независимо просматривает большие объемы помеченных данных в поисках корреляций между переменными в данных. Он может обнаруживать даже тонкие корреляции, которые появляются только после просмотра миллионов точек данных. Затем алгоритм может сделать выводы о немаркированных файлах данных, которые по типу аналогичны набору данных, на котором он обучался. Нейронные сети составляют основу многих современных примеров искусственного интеллекта (ИИ), включая распознавание изображений, интеллектуальных помощников и генерацию естественного языка (NLG).

Общие алгоритмы прогнозного моделирования

  • Случайный лес. Алгоритм, объединяющий несвязанные деревья решений и использующий классификацию и регрессию для организации и маркировки огромных объемов данных.
  • Модель с градиентным усилением. Алгоритм, использующий несколько деревьев решений, похож на случайный лес, но они более тесно связаны. При этом каждое дерево исправляет недостатки предыдущего и строит более точную картину.
  • K-средства. Группирует точки данных аналогично модели кластеризации и пользуется популярностью в персонализированных розничных предложениях. Он может создавать персонализированные предложения при работе с большой группой, ища сходства.
  • Пророк. Процедура прогнозирования особенно эффективна при планировании мощностей. Этот алгоритм работает с данными временных рядов и является относительно гибким.

Инструменты прогнозного моделирования
Перед развертыванием инструмента модели прогнозирования важно, чтобы ваша организация задала вопросы. Вы должны разобраться в следующем: уточнить, кто будет запускать программное обеспечение, каковы будут варианты использования этих инструментов, с какими другими инструментами будет взаимодействовать ваша прогнозная аналитика, а также бюджет.

Различные инструменты предъявляют разные требования к грамотности данных, эффективны в разных случаях использования, лучше всего подходят для использования с аналогичным программным обеспечением и могут быть дорогими. Когда ваша организация прояснит эти вопросы, сравнивать инструменты станет проще.

  • Sisense. Программное обеспечение для бизнес-аналитики, предназначенное для различных компаний и предлагающее широкий спектр функций бизнес-аналитики. Для этого требуется минимальный ИТ-фон.
  • Oracle Crystal Ball. Приложение на основе электронных таблиц, предназначенное для инженеров, специалистов по стратегическому планированию и ученых из разных отраслей, которое можно использовать для прогнозного моделирования, прогнозирования, а также моделирования и оптимизации.
  • IBM SPSS Predictive Analytics Enterprise. Платформа бизнес-аналитики, которая поддерживает интеграцию с открытым исходным кодом и предлагает описательный и прогнозный анализ, а также подготовку данных.
  • SAS advanced Analytics. Программа, которая предлагает алгоритмы, определяющие вероятность будущих результатов, и может использоваться для интеллектуального анализа данных, прогнозирования и эконометрики.

Рекомендации по прогнозному моделированию
Одна из наиболее часто упускаемых из виду проблем прогнозного моделирования - получение необходимого объема данных и сортировка нужных данных для использования при разработке алгоритмов. По некоторым оценкам, специалисты по данным тратят на этот шаг около 80% своего времени. Сбор данных важен, но его полезность ограничена, если эти данные не обрабатываются и не очищаются должным образом.

После того, как данные отсортированы, организации должны соблюдать осторожность, чтобы избежать переобучения. Излишнее тестирование обучающих данных может привести к тому, что модель окажется очень точной, но запомнит ключевые моменты в наборе данных, а не научится обобщать.

Хотя прогнозное моделирование часто считается в первую очередь математической проблемой, пользователи должны планировать технические и организационные барьеры, которые могут помешать им получить необходимые данные. Часто системы, хранящие полезные данные, не подключены напрямую к централизованным хранилищам данных. Кроме того, некоторым направлениям бизнеса может казаться, что данные, которыми они управляют, являются их активом, и они не могут свободно делиться ими с группами специалистов по анализу данных.

Еще один потенциальный камень преткновения для инициатив в области прогнозного моделирования - обеспечение решения реальных бизнес-задач в проектах. Иногда специалисты по данным обнаруживают корреляции, которые кажутся интересными в то время, и создают алгоритмы для дальнейшего исследования корреляции. Однако то, что они находят что-то статистически значимое, не означает, что это дает представление, которое может использовать бизнес. Инициативы по прогнозному моделированию должны иметь прочную основу для бизнеса.