Фраза дня: Интеллектуальный анализ данных
Что такое интеллектуальный анализ данных?
Интеллектуальный анализ данных - это процесс сортировки больших наборов данных для выявления закономерностей и взаимосвязей, которые могут помочь решить бизнес-проблемы с помощью анализа данных. Методы и инструменты интеллектуального анализа данных позволяют предприятиям прогнозировать будущие тенденции и принимать более обоснованные бизнес-решения.
Интеллектуальный анализ данных - это ключевая часть аналитики данных в целом и одна из основных дисциплин в науке о данных, которая использует передовые методы аналитики для поиска полезной информации в наборах данных. На более детальном уровне интеллектуальный анализ данных - это шаг в процессе обнаружения знаний в базах данных (KDD), методологии науки о данных для сбора, обработки и анализа данных. Интеллектуальный анализ данных и KDD иногда называют взаимозаменяемыми, но чаще они рассматриваются как разные вещи.
Почему важен интеллектуальный анализ данных?
Интеллектуальный анализ данных - важнейший компонент успешных аналитических инициатив в организациях. Генерируемая им информация может использоваться в приложениях бизнес-аналитики (BI) и расширенной аналитики, которые включают анализ исторических данных, а также в приложениях аналитики в реальном времени, которые исследуют потоковые данные по мере их создания или сбора.
Эффективный интеллектуальный анализ данных помогает в различных аспектах планирования бизнес-стратегий и управления операциями. Это включает в себя функции, ориентированные на клиентов, такие как маркетинг, реклама, продажи и поддержка клиентов, а также производство, управление цепочкой поставок, финансы и HR. Интеллектуальный анализ данных поддерживает обнаружение мошенничества, управление рисками, планирование кибербезопасности и многие другие критически важные бизнес-сценарии. Он также играет важную роль в здравоохранении, правительстве, научных исследованиях, математике, спорте и многом другом.
Процесс интеллектуального анализа данных: как это работает?
Интеллектуальный анализ данных обычно выполняется специалистами по данным и другими квалифицированными специалистами в области бизнес-аналитики и аналитики. Но это также может быть выполнено хорошо разбирающимися в данных бизнес-аналитиками, руководителями и работниками, которые действуют как гражданские специалисты по данным в организации.
Его основные элементы включают машинное обучение и статистический анализ, а также задачи управления данными, выполняемые для подготовки данных для анализа. Использование алгоритмов машинного обучения и инструментов искусственного интеллекта (ИИ) автоматизировало большую часть процесса и упростило добычу массивных наборов данных, таких как базы данных клиентов, записи транзакций и файлы журналов с веб-серверов, мобильных приложений и датчиков.
Процесс интеллектуального анализа данных можно разбить на четыре основных этапа:
- Сбор данных. Соответствующие данные для приложения аналитики идентифицируются и собираются. Данные могут находиться в разных исходных системах, хранилище данных или озере данных, все более распространенном репозитории в средах больших данных, которые содержат смесь структурированных и неструктурированных данных. Также могут использоваться внешние источники данных. Независимо от того, откуда поступают данные, специалист по данным часто перемещает их в озеро данных для оставшихся этапов процесса.
- Подготовка данных. Этот этап включает в себя набор шагов по подготовке данных к майнингу. Он начинается с исследования данных, профилирования и предварительной обработки, за которыми следует работа по очистке данных для исправления ошибок и других проблем с качеством данных. Преобразование данных также выполняется для обеспечения согласованности наборов данных, если только специалист по анализу данных не хочет анализировать нефильтрованные необработанные данные для конкретного приложения.
- Сбор данных. После подготовки данных специалист по анализу данных выбирает подходящий метод интеллектуального анализа данных, а затем реализует один или несколько алгоритмов для интеллектуального анализа данных. В приложениях машинного обучения алгоритмы обычно должны быть обучены на выборочных наборах данных, чтобы искать искомую информацию, прежде чем они будут работать с полным набором данных.
- Анализ и интерпретация данных. Результаты интеллектуального анализа данных используются для создания аналитических моделей, которые могут помочь в принятии решений и других бизнес-действиях. Специалист по анализу данных или другой член группы по науке о данных также должен сообщить результаты своим руководителям и пользователям, часто с помощью визуализации данных и использования методов рассказывания историй.
Типы методов интеллектуального анализа данных
Для сбора данных для различных приложений науки о данных могут использоваться различные методы. Распознавание образов - это распространенный вариант использования интеллектуального анализа данных, который обеспечивается несколькими методами, как и обнаружение аномалий, которое направлено на выявление значений выбросов в наборах данных. Популярные методы интеллектуального анализа данных включают следующие типы:
- Майнинг правил ассоциации. В интеллектуальном анализе данных правила ассоциации - это операторы «если-то», которые определяют отношения между элементами данных. Критерии поддержки и уверенности используются для оценки взаимосвязей - поддержка измеряет, как часто связанные элементы появляются в наборе данных, в то время как уверенность отражает, сколько раз утверждение «если-то» было точным.
- Классификация. Этот подход присваивает элементы в наборах данных различным категориям, определенным как часть процесса интеллектуального анализа данных. Деревья решений, наивные байесовские классификаторы, k-ближайший сосед и логистическая регрессия - вот некоторые примеры методов классификации.
- Кластеризация. В этом случае элементы данных с общими характеристиками группируются в кластеры как часть приложений интеллектуального анализа данных. Примеры включают кластеризацию k-средних, иерархическую кластеризацию и модели гауссовой смеси.
- Регресс. Это еще один способ поиска взаимосвязей в наборах данных путем вычисления прогнозируемых значений данных на основе набора переменных. Примеры - линейная регрессия и многомерная регрессия. Деревья решений и некоторые другие методы классификации также могут использоваться для регрессий.
- Анализ последовательности и пути. Данные также можно добывать для поиска закономерностей, в которых определенный набор событий или значений приводит к более поздним.
- Нейронные сети. Нейронная сеть - это набор алгоритмов, имитирующих деятельность человеческого мозга. Нейронные сети особенно полезны в приложениях для распознавания сложных образов, включающих глубокое обучение, более сложное ответвление машинного обучения.
Программное обеспечение и инструменты для интеллектуального анализа данных
Инструменты интеллектуального анализа данных доступны от большого числа поставщиков, как правило, как часть программных платформ, которые также включают в себя другие типы анализа данных и инструменты расширенной аналитики. Ключевые функции, предоставляемые программным обеспечением интеллектуального анализа данных, включают возможности подготовки данных, встроенные алгоритмы, поддержку прогнозного моделирования, среду разработки на основе графического интерфейса пользователя и инструменты для развертывания моделей и оценки их эффективности.
Поставщики, предлагающие инструменты для интеллектуального анализа данных, включают Alteryx, AWS, Databricks, Dataiku, DataRobot, Google, H2O.ai, IBM, Knime, Microsoft, Oracle, RapidMiner, SAP, SAS Institute и Tibco Software и другие.
Для добычи данных также можно использовать различные бесплатные технологии с открытым исходным кодом, включая DataMelt, Elki, Orange, Rattle, scikit-learn и Weka. Некоторые поставщики программного обеспечения также предоставляют варианты с открытым исходным кодом. Например, Knime объединяет аналитическую платформу с открытым исходным кодом с коммерческим программным обеспечением для управления приложениями для обработки данных, в то время как такие компании, как Dataiku и H2O.ai, предлагают бесплатные версии своих инструментов.
Преимущества интеллектуального анализа данных
В целом бизнес-преимущества интеллектуального анализа данных связаны с повышенной способностью обнаруживать скрытые закономерности, тенденции, корреляции и аномалии в наборах данных. Эту информацию можно использовать для улучшения принятия бизнес-решений и стратегического планирования за счет сочетания традиционного анализа данных и прогнозной аналитики.
Конкретные преимущества интеллектуального анализа данных включают следующее:
- Более эффективный маркетинг и продажи. Интеллектуальный анализ данных помогает маркетологам лучше понимать поведение и предпочтения клиентов, что позволяет им создавать целевые маркетинговые и рекламные кампании. Аналогичным образом отделы продаж могут использовать результаты интеллектуального анализа данных для повышения коэффициента конверсии потенциальных клиентов и продажи дополнительных продуктов и услуг существующим клиентам.
- Лучшее обслуживание клиентов. Благодаря интеллектуальному анализу данных компании могут быстрее выявлять потенциальные проблемы с обслуживанием клиентов и предоставлять агентам контакт-центра актуальную информацию для использования при звонках и онлайн-чатах с клиентами.
- Улучшенное управление цепочкой поставок. Организации могут выявлять рыночные тенденции и более точно прогнозировать спрос на продукцию, что позволяет им лучше управлять запасами товаров и материалов. Менеджеры цепочки поставок также могут использовать информацию из интеллектуального анализа данных для оптимизации складских, распределительных и других логистических операций.
- Увеличенное время безотказной работы. Сбор операционных данных с датчиков на производственных машинах и другом промышленном оборудовании поддерживает приложения для профилактического обслуживания для выявления потенциальных проблем до их возникновения, помогая избежать незапланированных простоев.
- Более сильное управление рисками. Риск-менеджеры и руководители предприятий могут лучше оценивать финансовые, юридические, кибербезопасные и другие риски для компании и разрабатывать планы по управлению ими.
- Снижение затрат. Интеллектуальный анализ данных помогает сократить расходы за счет повышения операционной эффективности бизнес-процессов и сокращения избыточности и потерь корпоративных расходов.
В конечном итоге инициативы по интеллектуальному анализу данных могут привести к более высоким доходам и прибыли, а также к конкурентным преимуществам, которые выделяют компании среди их конкурентов.
Отраслевые примеры интеллектуального анализа данных
Вот как организации в некоторых отраслях используют интеллектуальный анализ данных как часть аналитических приложений:
- Розничная торговля. Интернет-магазины собирают данные о клиентах и записи о посещениях, чтобы помочь им нацелить маркетинговые кампании, рекламу и рекламные предложения на отдельных покупателей. Интеллектуальный анализ данных и прогнозное моделирование также обеспечивают работу механизмов рекомендаций, которые предлагают посетителям веб-сайтов возможные покупки, а также действия по управлению запасами и цепочкой поставок.
- Финансовые услуги. Банки и компании, выпускающие кредитные карты, используют инструменты интеллектуального анализа данных для построения моделей финансовых рисков, обнаружения мошеннических транзакций и проверки заявок на получение ссуд и кредитов. Интеллектуальный анализ данных также играет ключевую роль в маркетинге и в выявлении потенциальных возможностей увеличения продаж у существующих клиентов.
- Страхование. Страховщики полагаются на интеллектуальный анализ данных, чтобы помочь в ценообразовании страховых полисов и принятии решения об утверждении приложений полисов, включая моделирование рисков и управление ими для потенциальных клиентов.
- Производство. Приложения для сбора данных для производителей включают в себя усилия по увеличению времени безотказной работы и операционной эффективности производственных предприятий, производительности цепочки поставок и безопасности продукции.
- Развлечение. Стриминговые сервисы выполняют интеллектуальный анализ данных, чтобы анализировать, что пользователи смотрят или слушают, и давать персонализированные рекомендации, основанные на привычках просмотра и прослушивания людей.
- Здравоохранение. Интеллектуальный анализ данных помогает врачам диагностировать заболевания, лечить пациентов и анализировать рентгеновские снимки и другие результаты медицинской визуализации. Медицинские исследования также сильно зависят от интеллектуального анализа данных, машинного обучения и других форм аналитики.
Интеллектуальный анализ данных против аналитики данных и хранилищ данных
Интеллектуальный анализ данных иногда рассматривается как синоним аналитики данных. Но в основном это рассматривается как особый аспект аналитики данных, который автоматизирует анализ больших наборов данных для обнаружения информации, которую иначе невозможно было бы обнаружить. Затем эту информацию можно использовать в процессе обработки данных и в других приложениях бизнес-аналитики и аналитики.
Хранилище данных поддерживает усилия по интеллектуальному анализу данных, предоставляя репозитории для наборов данных. Традиционно исторические данные хранятся в корпоративных хранилищах данных или меньших витринах данных, созданных для отдельных бизнес-единиц или для хранения определенных подмножеств данных. Однако теперь приложения интеллектуального анализа данных часто обслуживаются озерами данных, в которых хранятся как исторические, так и потоковые данные, и основаны на платформах больших данных, таких как Hadoop и Spark, базах данных NoSQL или службах хранения облачных объектов.
История и происхождение интеллектуального анализа данных
Технологии хранилищ данных, бизнес-аналитики и аналитики начали появляться в конце 1980-х - начале 1990-х годов, обеспечивая повышенную способность анализировать растущие объемы данных, которые организации создают и собирают. Термин интеллектуальный анализ данных использовался к 1995 году, когда в Монреале прошла Первая международная конференция по открытию знаний и интеллектуальному анализу данных.
Мероприятие спонсировалось Ассоциацией развития искусственного интеллекта (AARI), которая также проводила конференцию ежегодно в течение следующих трех лет. С 1999 года конференция, широко известная как KDD 2021 и т. Д., Была организована в основном SIGKDD, специальной группой по обнаружению знаний и интеллектуальному анализу данных в рамках Ассоциации вычислительной техники.