Краткий обзор DATASKAI
DATASKAI — это платформа для создания и управления ML-решениями в промышленности, обеспечивающая сбор, хранение и обработку индустриальных данных, масштабируемость и интеграцию с различными ИС. Программный продукт DATASKAI (рус. ДАТАСКАИ) от компании-разработчика Сколковский Институт Науки и Технологий, Сколтех предназначен для создания и управления ML-решениями в промышленной сфере — представляет собой платформу для сбора, хранения и обработки индустриальных данных, обеспечивает унифицированный доступ к разнородным данным, включает «индустриальные библиотеки» типовых решений с применением машинного обучения и поддерживает масштабирование Data Science-технологий.
Система DATASKAI ориентирована на компании среднего и крупного бизнеса, которые активно используют индустриальные данные и применяют технологии машинного обучения в своей деятельности, например, в сферах производства, энергетики, логистики и других отраслях, где требуется обработка значительных объёмов табличных и временных данных.
Система будет полезна аналитическим и Data Science-командам, специалистам по обработке данных, инженерам машинного обучения и руководителям проектов, связанным с внедрением интеллектуальных решений в производственные процессы.
Функциональные возможности DATASKAI:
-
Открытая и масштабируемая архитектура. Платформа построена на основе открытых технологий (Hadoop, Spark, Kafka и др.), что обеспечивает её масштабируемость и расширяемость. Распределённое хранение данных и модульная архитектура позволяют адаптировать систему под растущие объёмы информации и изменяющиеся требования бизнеса.
-
Единый интерфейс доступа к данным. Организован единый открытый API для доступа к массиву данных и результатам их обработки. Это упрощает работу с данными из различных источников и информационных систем, обеспечивая унифицированный механизм взаимодействия.
-
Индустриальные библиотеки ML-решений. Платформа обобщает опыт решения типовых индустриальных задач с применением машинного обучения, что позволяет сократить затраты на перенос рабочих решений из экспериментальной среды в рабочую и на адаптацию решений для работы в потоковом режиме.
-
Поддержка работы с данными, зависящими от времени. Платформа ориентирована на обработку временных рядов и табличных данных с реляционными связями, что делает её подходящей для анализа индустриальных данных с временной составляющей.
-
Возможность расширения на другие типы данных. Благодаря открытому API платформа может быть дополнена функционалом для работы с новыми типами данных, что повышает её универсальность и применимость в различных отраслях.
-
Масштабируемые технологии работы Data Science. Платформа предоставляет инструменты для обеспечения горизонтальной и вертикальной масштабируемости задач аналитиков, а также повышает прозрачность их рабочих процессов.
-
Работа с данными в потоковом режиме. В отличие от обработки данных в режиме реального времени, платформа нацелена на потоковую обработку, что позволяет эффективно анализировать последовательные потоки данных и извлекать из них ценную информацию.


