Выберите регион

Фраза дня: Интеллектуальный анализ данных

Что такое интеллектуальный анализ данных?
Интеллектуальный анализ данных - это процесс сортировки больших наборов данных для выявления закономерностей и взаимосвязей, которые могут помочь решить бизнес-проблемы с помощью анализа данных. Методы и инструменты интеллектуального анализа данных позволяют предприятиям прогнозировать будущие тенденции и принимать более обоснованные бизнес-решения.

Интеллектуальный анализ данных - это ключевая часть аналитики данных в целом и одна из основных дисциплин в науке о данных, которая использует передовые методы аналитики для поиска полезной информации в наборах данных. На более детальном уровне интеллектуальный анализ данных - это шаг в процессе обнаружения знаний в базах данных (KDD), методологии науки о данных для сбора, обработки и анализа данных. Интеллектуальный анализ данных и KDD иногда называют взаимозаменяемыми, но чаще они рассматриваются как разные вещи.

Почему важен интеллектуальный анализ данных?
Интеллектуальный анализ данных - важнейший компонент успешных аналитических инициатив в организациях. Генерируемая им информация может использоваться в приложениях бизнес-аналитики (BI) и расширенной аналитики, которые включают анализ исторических данных, а также в приложениях аналитики в реальном времени, которые исследуют потоковые данные по мере их создания или сбора.

Эффективный интеллектуальный анализ данных помогает в различных аспектах планирования бизнес-стратегий и управления операциями. Это включает в себя функции, ориентированные на клиентов, такие как маркетинг, реклама, продажи и поддержка клиентов, а также производство, управление цепочкой поставок, финансы и HR. Интеллектуальный анализ данных поддерживает обнаружение мошенничества, управление рисками, планирование кибербезопасности и многие другие критически важные бизнес-сценарии. Он также играет важную роль в здравоохранении, правительстве, научных исследованиях, математике, спорте и многом другом.

Процесс интеллектуального анализа данных: как это работает?
Интеллектуальный анализ данных обычно выполняется специалистами по данным и другими квалифицированными специалистами в области бизнес-аналитики и аналитики. Но это также может быть выполнено хорошо разбирающимися в данных бизнес-аналитиками, руководителями и работниками, которые действуют как гражданские специалисты по данным в организации.

Его основные элементы включают машинное обучение и статистический анализ, а также задачи управления данными, выполняемые для подготовки данных для анализа. Использование алгоритмов машинного обучения и инструментов искусственного интеллекта (ИИ) автоматизировало большую часть процесса и упростило добычу массивных наборов данных, таких как базы данных клиентов, записи транзакций и файлы журналов с веб-серверов, мобильных приложений и датчиков.

Процесс интеллектуального анализа данных можно разбить на четыре основных этапа:

  1. Сбор данных. Соответствующие данные для приложения аналитики идентифицируются и собираются. Данные могут находиться в разных исходных системах, хранилище данных или озере данных, все более распространенном репозитории в средах больших данных, которые содержат смесь структурированных и неструктурированных данных. Также могут использоваться внешние источники данных. Независимо от того, откуда поступают данные, специалист по данным часто перемещает их в озеро данных для оставшихся этапов процесса.
  2. Подготовка данных. Этот этап включает в себя набор шагов по подготовке данных к майнингу. Он начинается с исследования данных, профилирования и предварительной обработки, за которыми следует работа по очистке данных для исправления ошибок и других проблем с качеством данных. Преобразование данных также выполняется для обеспечения согласованности наборов данных, если только специалист по анализу данных не хочет анализировать нефильтрованные необработанные данные для конкретного приложения.
  3. Сбор данных. После подготовки данных специалист по анализу данных выбирает подходящий метод интеллектуального анализа данных, а затем реализует один или несколько алгоритмов для интеллектуального анализа данных. В приложениях машинного обучения алгоритмы обычно должны быть обучены на выборочных наборах данных, чтобы искать искомую информацию, прежде чем они будут работать с полным набором данных.
  4. Анализ и интерпретация данных. Результаты интеллектуального анализа данных используются для создания аналитических моделей, которые могут помочь в принятии решений и других бизнес-действиях. Специалист по анализу данных или другой член группы по науке о данных также должен сообщить результаты своим руководителям и пользователям, часто с помощью визуализации данных и использования методов рассказывания историй.

Типы методов интеллектуального анализа данных
Для сбора данных для различных приложений науки о данных могут использоваться различные методы. Распознавание образов - это распространенный вариант использования интеллектуального анализа данных, который обеспечивается несколькими методами, как и обнаружение аномалий, которое направлено на выявление значений выбросов в наборах данных. Популярные методы интеллектуального анализа данных включают следующие типы:

  • Майнинг правил ассоциации. В интеллектуальном анализе данных правила ассоциации - это операторы «если-то», которые определяют отношения между элементами данных. Критерии поддержки и уверенности используются для оценки взаимосвязей - поддержка измеряет, как часто связанные элементы появляются в наборе данных, в то время как уверенность отражает, сколько раз утверждение «если-то» было точным.
  • Классификация. Этот подход присваивает элементы в наборах данных различным категориям, определенным как часть процесса интеллектуального анализа данных. Деревья решений, наивные байесовские классификаторы, k-ближайший сосед и логистическая регрессия - вот некоторые примеры методов классификации.
  • Кластеризация. В этом случае элементы данных с общими характеристиками группируются в кластеры как часть приложений интеллектуального анализа данных. Примеры включают кластеризацию k-средних, иерархическую кластеризацию и модели гауссовой смеси.
  • Регресс. Это еще один способ поиска взаимосвязей в наборах данных путем вычисления прогнозируемых значений данных на основе набора переменных. Примеры - линейная регрессия и многомерная регрессия. Деревья решений и некоторые другие методы классификации также могут использоваться для регрессий.
  • Анализ последовательности и пути. Данные также можно добывать для поиска закономерностей, в которых определенный набор событий или значений приводит к более поздним.
  • Нейронные сети. Нейронная сеть - это набор алгоритмов, имитирующих деятельность человеческого мозга. Нейронные сети особенно полезны в приложениях для распознавания сложных образов, включающих глубокое обучение, более сложное ответвление машинного обучения.

Программное обеспечение и инструменты для интеллектуального анализа данных
Инструменты интеллектуального анализа данных доступны от большого числа поставщиков, как правило, как часть программных платформ, которые также включают в себя другие типы анализа данных и инструменты расширенной аналитики. Ключевые функции, предоставляемые программным обеспечением интеллектуального анализа данных, включают возможности подготовки данных, встроенные алгоритмы, поддержку прогнозного моделирования, среду разработки на основе графического интерфейса пользователя и инструменты для развертывания моделей и оценки их эффективности.

Поставщики, предлагающие инструменты для интеллектуального анализа данных, включают Alteryx, AWS, Databricks, Dataiku, DataRobot, Google, H2O.ai, IBM, Knime, Microsoft, Oracle, RapidMiner, SAP, SAS Institute и Tibco Software и другие.

Для добычи данных также можно использовать различные бесплатные технологии с открытым исходным кодом, включая DataMelt, Elki, Orange, Rattle, scikit-learn и Weka. Некоторые поставщики программного обеспечения также предоставляют варианты с открытым исходным кодом. Например, Knime объединяет аналитическую платформу с открытым исходным кодом с коммерческим программным обеспечением для управления приложениями для обработки данных, в то время как такие компании, как Dataiku и H2O.ai, предлагают бесплатные версии своих инструментов.

Преимущества интеллектуального анализа данных
В целом бизнес-преимущества интеллектуального анализа данных связаны с повышенной способностью обнаруживать скрытые закономерности, тенденции, корреляции и аномалии в наборах данных. Эту информацию можно использовать для улучшения принятия бизнес-решений и стратегического планирования за счет сочетания традиционного анализа данных и прогнозной аналитики.

Конкретные преимущества интеллектуального анализа данных включают следующее:

  • Более эффективный маркетинг и продажи. Интеллектуальный анализ данных помогает маркетологам лучше понимать поведение и предпочтения клиентов, что позволяет им создавать целевые маркетинговые и рекламные кампании. Аналогичным образом отделы продаж могут использовать результаты интеллектуального анализа данных для повышения коэффициента конверсии потенциальных клиентов и продажи дополнительных продуктов и услуг существующим клиентам.
  • Лучшее обслуживание клиентов. Благодаря интеллектуальному анализу данных компании могут быстрее выявлять потенциальные проблемы с обслуживанием клиентов и предоставлять агентам контакт-центра актуальную информацию для использования при звонках и онлайн-чатах с клиентами.
  • Улучшенное управление цепочкой поставок. Организации могут выявлять рыночные тенденции и более точно прогнозировать спрос на продукцию, что позволяет им лучше управлять запасами товаров и материалов. Менеджеры цепочки поставок также могут использовать информацию из интеллектуального анализа данных для оптимизации складских, распределительных и других логистических операций.
  • Увеличенное время безотказной работы. Сбор операционных данных с датчиков на производственных машинах и другом промышленном оборудовании поддерживает приложения для профилактического обслуживания для выявления потенциальных проблем до их возникновения, помогая избежать незапланированных простоев.
  • Более сильное управление рисками. Риск-менеджеры и руководители предприятий могут лучше оценивать финансовые, юридические, кибербезопасные и другие риски для компании и разрабатывать планы по управлению ими.
  • Снижение затрат. Интеллектуальный анализ данных помогает сократить расходы за счет повышения операционной эффективности бизнес-процессов и сокращения избыточности и потерь корпоративных расходов.

В конечном итоге инициативы по интеллектуальному анализу данных могут привести к более высоким доходам и прибыли, а также к конкурентным преимуществам, которые выделяют компании среди их конкурентов.

Отраслевые примеры интеллектуального анализа данных
Вот как организации в некоторых отраслях используют интеллектуальный анализ данных как часть аналитических приложений:

  • Розничная торговля. Интернет-магазины собирают данные о клиентах и ​​записи о посещениях, чтобы помочь им нацелить маркетинговые кампании, рекламу и рекламные предложения на отдельных покупателей. Интеллектуальный анализ данных и прогнозное моделирование также обеспечивают работу механизмов рекомендаций, которые предлагают посетителям веб-сайтов возможные покупки, а также действия по управлению запасами и цепочкой поставок.
  • Финансовые услуги. Банки и компании, выпускающие кредитные карты, используют инструменты интеллектуального анализа данных для построения моделей финансовых рисков, обнаружения мошеннических транзакций и проверки заявок на получение ссуд и кредитов. Интеллектуальный анализ данных также играет ключевую роль в маркетинге и в выявлении потенциальных возможностей увеличения продаж у существующих клиентов.
  • Страхование. Страховщики полагаются на интеллектуальный анализ данных, чтобы помочь в ценообразовании страховых полисов и принятии решения об утверждении приложений полисов, включая моделирование рисков и управление ими для потенциальных клиентов.
  • Производство. Приложения для сбора данных для производителей включают в себя усилия по увеличению времени безотказной работы и операционной эффективности производственных предприятий, производительности цепочки поставок и безопасности продукции.
  • Развлечение. Стриминговые сервисы выполняют интеллектуальный анализ данных, чтобы анализировать, что пользователи смотрят или слушают, и давать персонализированные рекомендации, основанные на привычках просмотра и прослушивания людей.
  • Здравоохранение. Интеллектуальный анализ данных помогает врачам диагностировать заболевания, лечить пациентов и анализировать рентгеновские снимки и другие результаты медицинской визуализации. Медицинские исследования также сильно зависят от интеллектуального анализа данных, машинного обучения и других форм аналитики.
     

Интеллектуальный анализ данных против аналитики данных и хранилищ данных
Интеллектуальный анализ данных иногда рассматривается как синоним аналитики данных. Но в основном это рассматривается как особый аспект аналитики данных, который автоматизирует анализ больших наборов данных для обнаружения информации, которую иначе невозможно было бы обнаружить. Затем эту информацию можно использовать в процессе обработки данных и в других приложениях бизнес-аналитики и аналитики.

Хранилище данных поддерживает усилия по интеллектуальному анализу данных, предоставляя репозитории для наборов данных. Традиционно исторические данные хранятся в корпоративных хранилищах данных или меньших витринах данных, созданных для отдельных бизнес-единиц или для хранения определенных подмножеств данных. Однако теперь приложения интеллектуального анализа данных часто обслуживаются озерами данных, в которых хранятся как исторические, так и потоковые данные, и основаны на платформах больших данных, таких как Hadoop и Spark, базах данных NoSQL или службах хранения облачных объектов.

История и происхождение интеллектуального анализа данных
Технологии хранилищ данных, бизнес-аналитики и аналитики начали появляться в конце 1980-х - начале 1990-х годов, обеспечивая повышенную способность анализировать растущие объемы данных, которые организации создают и собирают. Термин интеллектуальный анализ данных использовался к 1995 году, когда в Монреале прошла Первая международная конференция по открытию знаний и интеллектуальному анализу данных.

Мероприятие спонсировалось Ассоциацией развития искусственного интеллекта (AARI), которая также проводила конференцию ежегодно в течение следующих трех лет. С 1999 года конференция, широко известная как KDD 2021 и т. Д., Была организована в основном SIGKDD, специальной группой по обнаружению знаний и интеллектуальному анализу данных в рамках Ассоциации вычислительной техники.