Комментировать

Этап № 1 «Постановка задачи и формирование представлений о доступных данных»

Этап №1 Этап №2 Этап №3 Этап №4 Этап №5
Этап №1 Этап №2 Этап №3 Этап №4 Этап №5
Описание методологии

Этап № 1 «Постановка задачи и формирование представлений о доступных данных»

Требования к результату

  • составлена оценка социально-экономического эффекта проекта (или план её расчета), которая подтверждает целесообразность его запуска;
  • представлено описание данных, процедура и сроки их выгрузки для проведения моделирования (см. Этап № 2) и ко всем источникам данных имеется доступ;
  • определены критерии успешного решение задачи;
  • выбраны метрики оценки качества для задач машинного обучения, релевантные поставленной бизнес-задаче;
  • описана процедура валидации или применения алгоритмов машинного обучения.
  • заданы бюджетные и ресурсные рамки;
  • составлена первичная карта рисков и ограничений и способов их преодоления;
  • определены заинтересованные лица проекта;
  • определены сроки проекта.

Роли участников этапа

  • Владелец продукта
  • Руководитель проекта
  • Системный аналитик/архитектор
  • Аналитик данных
  • Инженер данных
  • Специалист по информационной безопасности

Описание процессов

  • Постановка задачи: отраслевые эксперты совместно со специалистами по анализу данных формулируют постановку задачи и способы её решения на основе доступных данных.
  • Поиск и исследование данных: отраслевые эксперты совместно со специалистами по анализу данных и информационной безопасности определяют возможные источники данных для решения задачи, далее аналитик данных проводит качественные исследования выгрузок и следом они совместно принимают решения об их использовании.
  • Составление плана проекта: специалист по проектному управлению совместно с отраслевыми экспертами и аналитиками данных определяют ресурсные, технологические и финансовые потребности, составляют перечень работ и сопоставляют их со сроками выполнения.

Требования к инфраструктуре / ПО

  • Инструментарий для анализа и очистки данных.
  • Средства обеспечения доступа команды к проектным материалам.
  • Средства хранения источников данных и выгрузок из этих источников.
  • Средства обеспечения командной коммуникации.
  • Средства управления и хранения персональных данных* и закрытой информации **.
  • Инструменты для доступа к данным и их эксплуатационные инструкции.

Методические рекомендации по постановке задачи

Как уже отмечалось выше, корректно поставленная задача содержит 4 компоненты:

  • Модель предметной области
  • Исходные данные
  • Цель
  • Критерии решения

Для проверки качества постановки задачи можно использовать следующие вопросы:

  • Каков язык задачи? Все ли его понимают одинаково?
  • Почему возникла задача? Зачем она требует решения?
  • Из каких подзадач она состоит? Какие задачи предваряют её?
  • Какова точная формулировка задачи?
  • Каковы критерии приемлемости решения задачи?
  • Какие данные требуются для решения задачи?
  • Какие ресурсы требуются для её решения?
  • Находится ли задача в рамках этических и правовых норм?

При этом, постановка задачи на аналитику на основе данных может относится к одному из следующих типов*:

  • Описательная аналитика (Descriptive Analytics), отвечает на вопрос «что произошло?».
  • Диагностическая аналитика (Diagnostic Analytics), отвечает на вопрос «почему это произошло?».
  • Предсказательная аналитика (Predictive Analytics), отвечает на вопрос «что произойдет?».
  • Предписывающая аналитика (Prescriptive Analytics), отвечает на вопрос «что нужно сделать, чтобы это произошло?».

Для получения обоснованных ответов 4-го типа («Как можно добиться желаемого?»), требуется возможность получения обоснованных ответов 3-го типа («Что произойдёт?»). Таким образом, внедрение систем 4-го типа, не имея внедрённой системы 3-го типа, будет контрпродуктивно. и так далее. Поэтому:

  • При формулировании постановки задачи так важно уделять внимание исходным данным — не должно быть сомнений в их полноте, достоверности и актуальности — следует развивать культуру обработки данных, их хранения и защиты.
  • Создаваемые в рамках проектов технические решения сами по себе не могут являются решением задачи, а являются средствами достижения поставленных целей и инструментарием, культуру и опыт использования которых следует прививать на всех уровнях управления.
  • Проекты по внедрению управления, основанного на данных, — комплексные инновационные проекты, вовлекающие, как видно из структуры Этапа 4, большое количество компетенций.
  • Широкий масштаб решения / внедрения, присущий таким проектам, может сформировать стандарт-де-факто на решения подобного рода.

Следует также искать способы выстраивания кооперации между государственными, социальными и бизнес-решениями, сохраняя и расширяя возможности доступа к данным и решениям, усиливая эффект от воронок развития. Так, например, государство может брать на себя задачу выравнивания доступа участников
рынков к цифровым сервисам массового доступа, на условиях ГЧП или при помощи крупных некоммерческих образований, как это принято в мире.

Основные процессы на этом этапе

  • Определение организационной и функциональной структуры объекта внедрения (в разрезе ключевых интересантов результатов).
  • Определение проблемной области в которой будет построено решение на основе данных.
  • Определение текущего решения(ий) с описанием его(их) плюсов и минусов.
  • Определение проблемы, требующей решения при помощи анализа данных.
  • Определение точных критериев успеха и их трассировка к проектным целям.
  • Формулирование постановки задачи, определение прочих связанных требований и критериев успеха (настолько подробно, насколько это возможно).
  • Формулирование обоснования, чем конкретно аналитика поможет достичь проектных целей.
  • Формирование плана проекта.

Требования к результату:

  • получена организационная и функциональная структуры объекта внедрения;
  • получено обоснование, чем конкретно аналитика данных поможет достичь проектных целей;
  • получено документальное представление о том, какие техники анализа позволяют получить лучшие результаты;
  • определены критерии, благодаря которым будет понятно, что результаты аналитики данных достаточно точны и эффективны;
  • получено документальное свидетельство понимания, каким образом результаты аналитики будут использованы и будет ли их внедрение;
  • все выявленные риски и зависимости включены в план проекта;

Требования к компетенциям:

  • Владелец продукта
    • компетенции в формулировании постановок задач;
    • отраслевая экспертиза (обычно представитель Заказчика или владелец продукта).
  • Руководитель проекта
    • компетенции в проектном управлении (ресурсы, коммуникации, структурирование проекта).
  • Системный аналитик/архитектор
    • компетенции в разработке требований;
    • компетенции в постановке задачи.
  • Аналитик данных
    • компетенции в сборе данных;
    • компетенции в подготовке данных к анализу (в ыборка, очистка, сортировка);
  • Специалист по информационной безопасности
    • экспертиза в режимах доступа к данным;
    • компетенции в обеспечении конфиденциальности.

Методические рекомендации по поиску и исследованию данных

Для ускорения погружения в постановку задачи для специалиста по анализу данных рекомендуется подготовить описание доступных наборов данных,
содержащих нижеследующую информацию. Идеально, для каждого набора данных иметь:

  • понятное описание данных, источника их возникновения и даты публикации/регистрации;
  • ответственное лицо, которое отвечает за доступность данных и их чистоту;
  • инструменты для их выгрузки для последующего анализа;
  • наборы ранее созданных правил трансформации данных с указанием целевых систем, для которых эти данные предосталвяются;
  • допустимые зоны передачи на основании положения об информационной безопасности *;
  • схемы метаданных и проверки целостности;
  • способы получения: потоковое извлечение, пакетная передача, агрегация и т. д.;
  • наборы полномочий и характер доступа к данным.

Кроме того, необходимо иметь возможность быстро собирать сведения о состоянии данных в наборе:

  • статистика по заполненности полей;
  • перечень возможных значений полей;
  • корректность их заполнения в соответствии с правилами, действующими для полей;
  • сведения о степени целостности данных: анализ потерянных ссылок или ссылки на несуществующие данные.

Состав процессов на этом этапе следующий:

  • определение источников и типов данных, средств их хранения и компетенций доступных для анализа;
  • определение базовых аппаратных и программных требований;
  • определение типов данных, которые будут приобретены, включение этих сведений в бюджет проекта;
  • определение типов ограничений на доступ к источникам данных и способов их устранения;
  • определение рисков и способов их смягчения в случаях возникновения;
  • определение целей аналитики данных: описание технической задачи и формулировка метрик для оценки успешности решения.
  • составление плана проекта: обсуждение задач плана со всеми участниками команды внедрения, определение сроков выполнения задач, определение ресурсов для каждой из задач, определение циклических задач;
  • определение атрибутов данных**, которые наиболее и наименее полезны для выполнения проекта;
  • определение объёмов обрабатываемых данных, начиная с которых аналитика позволяет делать достаточно точные прогнозы/оценки.
  • составление отчётов над данными: по сбору, по описанию, по обзору, по качеству.

Требования к результату:

  • все источники данных точно определены и доступны;
  • определены ключевые атрибуты в доступных данных;
  • все источники данных точно определены и доступны;
  • определены ключевые атрибуты в доступных данных;
  • определены ключевые проектные гипотезы;
  • определены объёмы данных и составлена статистика по каждому значащему атрибуту;
  • существует представление о том, какие проблемы качества были выявлены в наборах данных;
  • существует понимание всех шагов подготовки данных;
  • составлен план выполнения проекта.

Требования к компетенциям:

  • Владелец продукта
    • отраслевая экспертиза (обычно представитель Заказчика или владелец продукта);
    • знание источников данных.
  • Руководитель проекта
    • компетенции в проектном управлении (ресурсы, коммуникации, структурирование проекта).
  • Аналитик данных
    • компетенции в сборе данных;
    • компетенции в подготовке данных к анализу (в ыборка, очистка, сортировка);
    • компетенции в поиске закономерностей в данных.
  • Инженер данных
    • компетенции в области храненияи передачи данных / DataOps.
  • Специалист по информационной безопасности
    • экспертиза в режимах доступа к данным;
    • компетенции в обеспечении конфиденциальности.