Фраза дня: неструктурированные данные

Неструктурированные данные - это информация во многих различных формах, которая не соответствует традиционным моделям данных и поэтому обычно не подходит для основной реляционной базы данных. Благодаря появлению альтернативных платформ для хранения и управления такими данными, они становятся все более распространенными в ИТ-системах и используются организациями в различных приложениях бизнес-аналитики и аналитики.

Традиционные структурированные данные, такие как данные транзакций в финансовых системах и других бизнес-приложениях, соответствуют жесткому формату для обеспечения согласованности при их обработке и анализе. С другой стороны, наборы неструктурированных данных могут поддерживаться в форматах, которые не являются единообразными, что позволяет аналитическим группам работать со всеми доступными данными без необходимости их предварительной консолидации и стандартизации. Это позволяет проводить более полный анализ, чем это было бы возможно в противном случае.

Типы неструктурированных данных
Одним из наиболее распространенных типов неструктурированных данных является текст. Неструктурированный текст создается и собирается в самых разных формах, включая документы Word, сообщения электронной почты, презентации PowerPoint, ответы на опросы, стенограммы взаимодействий в колл-центре, а также сообщения из блогов и социальных сетей.

Другие типы неструктурированных данных включают изображения, аудио- и видеофайлы. Машинные данные - это еще одна категория, которая быстро растет во многих организациях. Например, файлы журналов с веб-сайтов, серверов, сетей и приложений, особенно мобильных, содержат множество данных об активности и производительности. Кроме того, компании все чаще собирают и анализируют данные с датчиков на производственном оборудовании и других устройствах, подключенных к Интернету (IoT).

В некоторых случаях такие данные могут считаться частично структурированными - например, если теги метаданных добавляются для предоставления информации и контекста о содержимом данных. Однако грань между неструктурированными и полуструктурированными данными не является абсолютной; некоторые консультанты по управлению данными утверждают, что все данные, даже неструктурированные, имеют определенный уровень структуры.

Аналитика неструктурированных данных
По своей природе неструктурированные данные не подходят для приложений обработки транзакций, которые относятся к сфере структурированных данных. Вместо этого они в основном используется для бизнес-аналитики и аналитики. Одно из популярных приложений - это клиентская аналитика. Розничные торговцы, производители и другие компании анализируют неструктурированные данные для улучшения процессов управления отношениями с клиентами и обеспечения более целенаправленного маркетинга; они также проводят анализ настроений, чтобы выявлять как положительные, так и отрицательные мнения о продуктах, обслуживании клиентов и корпоративных структурах, выраженные клиентами в социальных сетях и на других форумах.

Преддуктивнoe (прогнозное) обслуживание - это новый пример использования аналитики для неструктурированных данных. Например, производители могут анализировать данные датчиков, чтобы попытаться обнаружить отказы оборудования до того, как они произойдут в производственных цехах или готовой продукции на местах. Трубопроводы также можно отслеживать и проверять на предмет потенциальных проблем с помощью неструктурированных данных, собранных с датчиков Интернета (IoT).

Анализ данных журнала из ИТ-систем позволяет выявить тенденции использования, выявлять ограничения емкости и выявлять причины ошибок приложений, сбоев системы, узких мест в производительности и других проблем. Аналитика неструктурированных данных также способствует соблюдению нормативных требований, особенно помогая организациям понять, что содержат корпоративные документы и записи.

Методы и платформы неструктурированных данных
Аналитические компании сообщают, что подавляющее большинство генерируемых новых данных неструктурированы. В прошлом такая информация часто была заперта в разрозненных системах управления документами, на отдельных производственных устройствах и т.п., что делало ее так называемые «темные данные» недоступными для анализа.

Но все изменилось с развитием платформ больших данных, в первую очередь кластеров Hadoop, баз данных NoSQL и Amazon Simple Storage Service (S3). Они обеспечивают необходимую инфраструктуру для обработки, хранения и управления большими объемами неструктурированных данных без навязывания общей модели данных и единой схемы базы данных как в реляционных базах данных и хранилищах данных.

Для анализа неструктурированных данных в средах больших данных используются различные аналитические методы и инструменты. Инструменты текстовой аналитики ищут шаблоны, ключевые слова и тональность в текстовых данных; На более продвинутом уровне технология обработки естественного языка - это форма искусственного интеллекта, которая стремится понять смысл и контекст в тексте и человеческой речи, все чаще с помощью алгоритмов глубокого обучения, которые используют нейронные сети для анализа данных. Другие методы, которые играют роль в аналитике неструктурированных данных, включают интеллектуальный анализ данных, машинное обучение и прогнозную аналитику.

Подробнее с некоторыми подходами обработки неструктурированных данных можно познакомиться здесь.

Делитесь информацией, задумками, опытом на платформе Сообщество еАдрес (тем, кому надо).