Комментировать
Этап №1 Этап №2 Этап №3 Этап №4 Этап №5

Описание методологии анализа данных и разделения на этапы

Настоящий документ опирается на рекомендации, представленные в международной методологии по исследованию данных Cross-Industry Standard Process for Data Mining (CRISP-DM).

Этап №1 Этап №2 Этап №3 Этап №4 Этап №5

На диаграмме выделены стадии:

  1. “Определение целей и задач” проекта (Business Understanding) | Понимание целей и задач бизнеса или государства, именуемого в дальнейшем “Заказчик” исследований. Результатом данной стадии является выбор и согласование метрики качества с Заказчиком. Выбор метрик качества должен учитывать балансировку классов, возможность проведения A/B-тестирования и т.п.
  2. “Исследование данных” (Data Understanding) | Стадия “Исследования данных” включает в себя получение информации о формате и объеме доступных наборов данных (что может выявить дополнительные требования к инфраструктуре анализа данных), особенности инструментов для выгрузки данных, доступная разметка и ее формат. Доступные данные и инфраструктура для их анализа могут сильно повлиять на выбранные метрики качества стадии “Определения целей и задач” (Business Understanding). Именно поэтому на диаграмме выделены стрелки для перехода между этими стадиями в обе стороны.
  3. “Подготовка данных” (Data Preparation) | Для подготовки и обучения моделей данные должны быть представлены в специализированном формате (наиболее часто – в табличном виде, см. csv формат). В дополнение к этому, по опыту взаимодействия с Заказчиками по проектам анализа данных, часто необходима очистка данных: работа с опечатками, неправильным вводом данных, обновление разметки (исправление ошибок или самого формата разметки для удобства обработки на компьютере).
  4. “Моделирование” (Modeling) | Результатом стадии “Моделирование” является разработка решения, основанного на алгоритмах и структурах данных. Исполнитель производит разработку решения на очищенных наборах данных и оптимизирует метрики качества, зафиксированные на предыдущих стадиях. Разные модели могут требовать специализированной предобработки для обучения, поэтому на диаграмме представлена стрелка от стадии “Моделирования” в стадию “Подготовка данных”.
  5. “Оценка решения” (Evaluation) | Проведение оценки обобщающей способности выбранной модели на новых данных, а также пилотные запуски в формате A/B-тестирования производятся на стадии “Оценка решения”.
  6. “Опытная эксплуатация” (Trial operation) | Стадия “Опытная эксплуатация” проводится для апробации планируемого к внедрению решения, в рамках которого проверяется нагрузочная способность, интеграционные возможности и эргономика решения, основной целью которой является снижение рисков, связанных с внедрением решения.
  7. “Внедрение” (Deployment) | Стадия “Внедрение” используется для введения в продуктив выбранных моделей, которые решают поставленные задачи Заказчика исследований и приносят большую ценность, чем требуют затрат на использование, развитие и поддержку модели / решения.

Внутренними стрелками на диаграмме выделены наиболее важные и частые зависимости и переходы между стадиями. Внешний цикл на диаграмме обозначает итеративную процедуру ведения проекта. На каждом новом цикле происходит уточнение постановки задачи за счет более глубокого понимания данных и результатов экспериментов (моделирования, пилотного тестирования и опыта внедрения).

Методические рекомендации по выделению этапов работы

Для работы над проектами по анализу данных, рекомендуется на начальной фазе проекта выделить следующие этапы:

  • Постановка задачи и формирование представлений о доступных данных;
  • формулировка задачи и критериев успешности решения;
  • спецификация данных и их источников;
  • оценка планируемых социально-экономического эффекта от внедрения и сроков окупаемости.

Подготовка данных и моделирование: макетирование и прототипирование решения, не рассматривая само решение в отрыве от данных, над которыми оно должно работать.

Оценка модели и принятие решения о внедрении: включая оценку ресурсов на получение более точной модели решения в случае повторного прохождения первого и второго этапов.

При этом, помнить, что корректно поставленная задача - это модель предметной области, исходные данные, над которыми она действует, цель постановки и критерии её решения. Цель постановки и критерии решения здесь - ключевой фокус, та как всё остальное в постановке подчиняется им.

Макетирование и прототипирование решения, которое происходит на этапе № 2 после того, как задача сформулирована, и проведена первичная оценка эффекта от внедрения, позволяет предложить несколько решений, которые могут рассматриваться, как по отдельности, так и совместно в итоговом решении. Переход на третий этап возможен, когда появилась уверенность в том, что предлагаемый макет удовлетворит критериям успешности решения.

Здесь особое место занимает вопрос существующего потребительского опыта: слишком новаторские решения могут быть весьма результативны, но могут требовать значительного времени для внедрения на местах. Поэтому, формулируя критерии результативности при оценке решений на Этапе № 3, необходимо принимать во внимание этот фактор, чтобы сохранить степень актуальности решаемой задачи.

Важным аспектом оценки является проверка моделей на технологические ограничения, так как у любой технологии, какой бы передовой она ни была, существуют рамки применения. Для технологий искусственного интеллекта это:

Необходимость обучения - как бы оно ни было устроено, речь всегда идёт о выборках для обучения и тестирования моделей.

Проблема “чёрного ящика” - если речь идёт о технологиях глубокого машинного обучения, основанных на нейронных сетях, то выявить чёткую причину того или иного решения, а также факторы, на них влияющие, в настоящее время, крайне затруднительно или невозможно.

События, с которыми нейронные сети ранее не встречались, будут обработаны случайным образом.

Введение новых факторов в модель влечёт за собой переобучение. Это может занимать время.

Если оценка возможности внедрения после Этапа № 3 будет положительной, то следующим шагом будет:

Планирование и согласование опытной эксплуатации разработанного решения, цель которого не только апробация разработанной модели, но и проверка действий участников внедрения в новых условиях. Такой подход позволяет получать дополнительные гарантии успешности внедрения.

Если учёт человеческого фактора приводит к тому, что оценка решения близка к удовлетворительной или хуже, следует рассмотреть возможность дополнительной проработки постановки задачи: снова зайти на Этап № 1 и сформулировать комплект частных технических заданий, относительно которых будет повторно выполнен Этап № 2.

Оценка возможности внедрения должна включать в себя учёт вычислительной мощности, доступной заказчику, так как это может существенным образом повлиять на характер решения, а это неизбежно приведёт к уточнению постановки задачи из-за изменения эксплуатационных условий решения.

Такой подход позволяет выйти на Этап № 4 с хорошо поставленными границами проектов (подпроектов) и утвердить образ технического решения, так как в рамках этапа внедрения решения основной фокус будет смещён в сторону автоматики и развития потребительского опыта людей (UX). Возникающие “болезни” решения будут не только оттягивать ресурс, но и создавать барьеры для внедрения изменений в создание людей. Поэтому в спектре компетенций четвёртого этапа присутствуют консультанты, специалисты HR и эксперты в UX.

В этой связи, если, например, решение будет охватывать большое количество людей, 4-ый этап целесообразно продублировать: в первую очередь выполнить ввод системы в опытную эксплуатацию и, при успехе, внедрить решение в промышленную: Этапы № 4 и № 5 соответственно. Для оценки качества перехода из опытной в промышленную эксплуатацию рекомендуем пройти сценарий этапа № 3 повторно, рассматривая полученный опыт, как моделирование (Этап 2). Такой подход позволит взглянуть на результат в комплексе.

Именно поэтому необходимо вести журнал проекта на всех этапах его выполнения, чтобы получить возможность объективной оценки результатов и трудозатрат, а также осмысленного выбора шагов и их последовательности, когда субъектами изменений станут большее количество человек.

На каждом из этапов могут появиться условия или возникнуть события, благодаря которым сразу или позже проявят себя новые возможности. Их следует фиксировать в отдельном журнале (соответствующие практики существуют и в ГОСТах, и в стандартах ISO, и в CRISP-DM), так как они могут стать точками роста. Это особенно важно в проектах, основанных на аналитике данных, где важную роль играют политики и практики повторного использования, например, при решении других, в том числе, ещё не поставленных задач, смысл которых проявит себя позже. Непрерывно и целенаправленно увеличивая качество процессов извлечения и преобразования информации, можно получать и закреплять эффекты во вновь создаваемых аналитических продуктах.

Ярким примером здесь является стратегия развития цифровых сервисов Яндекс от карты автомобильных дорог к уже привычной навигации и цифровому сервису срочной аренды автотранспорта или связи карты с контентом рекламного характера. Анализ карты точек роста в долгосрочной перспективе может приводить к формированию фундаментальных конкурентных преимуществ.