Этап № 1 «Постановка задачи и формирование представлений о доступных данных»
Требования к результату
- составлена оценка
социально-экономического эффекта проекта (или план её расчета), которая подтверждает целесообразность его запуска; - представлено описание данных, процедура и сроки их выгрузки для проведения моделирования (см. Этап № 2) и ко всем источникам данных имеется доступ;
- определены критерии успешного решение задачи;
- выбраны метрики оценки качества для задач машинного обучения, релевантные поставленной
бизнес-задаче ; - описана процедура валидации или применения алгоритмов машинного обучения.
- заданы бюджетные и ресурсные рамки;
- составлена первичная карта рисков и ограничений и способов их преодоления;
- определены заинтересованные лица проекта;
- определены сроки проекта.
Роли участников этапа
- Владелец продукта
- Руководитель проекта
- Системный аналитик/архитектор
- Аналитик данных
- Инженер данных
- Специалист по информационной безопасности
Описание процессов
- Постановка задачи: отраслевые эксперты совместно со специалистами по анализу данных формулируют постановку задачи и способы её решения на основе доступных данных.
- Поиск и исследование данных: отраслевые эксперты совместно со специалистами по анализу данных и информационной безопасности определяют возможные источники данных для решения задачи, далее аналитик данных проводит качественные исследования выгрузок и следом они совместно принимают решения об их использовании.
- Составление плана проекта: специалист по проектному управлению совместно с отраслевыми экспертами и аналитиками данных определяют ресурсные, технологические и финансовые потребности, составляют перечень работ и сопоставляют их со сроками выполнения.
Требования к инфраструктуре / ПО
- Инструментарий для анализа и очистки данных.
- Средства обеспечения доступа команды к проектным материалам.
- Средства хранения источников данных и выгрузок из этих источников.
- Средства обеспечения командной коммуникации.
- Средства управления и хранения персональных данных* и закрытой информации **.
- Инструменты для доступа к данным и их эксплуатационные инструкции.
Методические рекомендации по постановке задачи
Как уже отмечалось выше, корректно поставленная задача содержит 4 компоненты:
- Модель предметной области
- Исходные данные
- Цель
- Критерии решения
Для проверки качества постановки задачи можно использовать следующие вопросы:
- Каков язык задачи? Все ли его понимают одинаково?
- Почему возникла задача? Зачем она требует решения?
- Из каких подзадач она состоит? Какие задачи предваряют её?
- Какова точная формулировка задачи?
- Каковы критерии приемлемости решения задачи?
- Какие данные требуются для решения задачи?
- Какие ресурсы требуются для её решения?
- Находится ли задача в рамках этических и правовых норм?
При этом, постановка задачи на аналитику на основе данных может относится к одному из следующих типов*:
- Описательная аналитика (Descriptive Analytics), отвечает на вопрос «что произошло?».
- Диагностическая аналитика (Diagnostic Analytics), отвечает на вопрос «почему это произошло?».
- Предсказательная аналитика (Predictive Analytics), отвечает на вопрос «что произойдет?».
- Предписывающая аналитика (Prescriptive Analytics), отвечает на вопрос «что нужно сделать, чтобы это произошло?».
Для получения обоснованных ответов
- При формулировании постановки задачи так важно уделять внимание исходным данным — не должно быть сомнений в их полноте, достоверности и актуальности — следует развивать культуру обработки данных, их хранения и защиты.
- Создаваемые в рамках проектов технические решения сами по себе не могут являются решением задачи, а являются средствами достижения поставленных целей и инструментарием, культуру и опыт использования которых следует прививать на всех уровнях управления.
- Проекты по внедрению управления, основанного на данных, — комплексные инновационные проекты, вовлекающие, как видно из структуры Этапа 4, большое количество компетенций.
- Широкий масштаб решения / внедрения, присущий таким проектам, может сформировать
стандарт-де-факто на решения подобного рода.
Следует также искать способы выстраивания кооперации между государственными, социальными и
рынков к цифровым сервисам массового доступа, на условиях ГЧП или при помощи крупных некоммерческих образований, как это принято в мире.
Основные процессы на этом этапе
- Определение организационной и функциональной структуры объекта внедрения (в разрезе ключевых интересантов результатов).
- Определение проблемной области в которой будет построено решение на основе данных.
- Определение текущего решения(ий) с описанием его(их) плюсов и минусов.
- Определение проблемы, требующей решения при помощи анализа данных.
- Определение точных критериев успеха и их трассировка к проектным целям.
- Формулирование постановки задачи, определение прочих связанных требований и критериев успеха (настолько подробно, насколько это возможно).
- Формулирование обоснования, чем конкретно аналитика поможет достичь проектных целей.
- Формирование плана проекта.
Требования к результату:
- получена организационная и функциональная структуры объекта внедрения;
- получено обоснование, чем конкретно аналитика данных поможет достичь проектных целей;
- получено документальное представление о том, какие техники анализа позволяют получить лучшие результаты;
- определены критерии, благодаря которым будет понятно, что результаты аналитики данных достаточно точны и эффективны;
- получено документальное свидетельство понимания, каким образом результаты аналитики будут использованы и будет ли их внедрение;
- все выявленные риски и зависимости включены в план проекта;
Требования к компетенциям:
- Владелец продукта
- компетенции в формулировании постановок задач;
- отраслевая экспертиза (обычно представитель Заказчика или владелец продукта).
- Руководитель проекта
- компетенции в проектном управлении (ресурсы, коммуникации, структурирование проекта).
- Системный аналитик/архитектор
- компетенции в разработке требований;
- компетенции в постановке задачи.
- Аналитик данных
- компетенции в сборе данных;
- компетенции в подготовке данных к анализу (в ыборка, очистка, сортировка);
- Специалист по информационной безопасности
- экспертиза в режимах доступа к данным;
- компетенции в обеспечении конфиденциальности.
Методические рекомендации по поиску и исследованию данных
Для ускорения погружения в постановку задачи для специалиста по анализу данных рекомендуется подготовить описание доступных наборов данных,
содержащих нижеследующую информацию. Идеально, для каждого набора данных иметь:
- понятное описание данных, источника их возникновения и даты публикации/регистрации;
- ответственное лицо, которое отвечает за доступность данных и их чистоту;
- инструменты для их выгрузки для последующего анализа;
- наборы ранее созданных правил трансформации данных с указанием целевых систем, для которых эти данные предосталвяются;
- допустимые зоны передачи на основании положения об информационной безопасности *;
- схемы метаданных и проверки целостности;
- способы получения: потоковое извлечение, пакетная передача, агрегация
и т. д. ; - наборы полномочий и характер доступа к данным.
Кроме того, необходимо иметь возможность быстро собирать сведения о состоянии данных в наборе:
- статистика по заполненности полей;
- перечень возможных значений полей;
- корректность их заполнения в соответствии с правилами, действующими для полей;
- сведения о степени целостности данных: анализ потерянных ссылок или ссылки на несуществующие данные.
Состав процессов на этом этапе следующий:
- определение источников и типов данных, средств их хранения и компетенций доступных для анализа;
- определение базовых аппаратных и программных требований;
- определение типов данных, которые будут приобретены, включение этих сведений в бюджет проекта;
- определение типов ограничений на доступ к источникам данных и способов их устранения;
- определение рисков и способов их смягчения в случаях возникновения;
- определение целей аналитики данных: описание технической задачи и формулировка метрик для оценки успешности решения.
- составление плана проекта: обсуждение задач плана со всеми участниками команды внедрения, определение сроков выполнения задач, определение ресурсов для каждой из задач, определение циклических задач;
- определение атрибутов данных**, которые наиболее и наименее полезны для выполнения проекта;
- определение объёмов обрабатываемых данных, начиная с которых аналитика позволяет делать достаточно точные прогнозы/оценки.
- составление отчётов над данными: по сбору, по описанию, по обзору, по качеству.
Требования к результату:
- все источники данных точно определены и доступны;
- определены ключевые атрибуты в доступных данных;
- все источники данных точно определены и доступны;
- определены ключевые атрибуты в доступных данных;
- определены ключевые проектные гипотезы;
- определены объёмы данных и составлена статистика по каждому значащему атрибуту;
- существует представление о том, какие проблемы качества были выявлены в наборах данных;
- существует понимание всех шагов подготовки данных;
- составлен план выполнения проекта.
Требования к компетенциям:
- Владелец продукта
- отраслевая экспертиза (обычно представитель Заказчика или владелец продукта);
- знание источников данных.
- Руководитель проекта
- компетенции в проектном управлении (ресурсы, коммуникации, структурирование проекта).
- Аналитик данных
- компетенции в сборе данных;
- компетенции в подготовке данных к анализу (в ыборка, очистка, сортировка);
- компетенции в поиске закономерностей в данных.
- Инженер данных
- компетенции в области храненияи передачи данных / DataOps.
- Специалист по информационной безопасности
- экспертиза в режимах доступа к данным;
- компетенции в обеспечении конфиденциальности.