Комментировать

Инструменты формирования наборов данных

Webscraper.io

Автоматизированный инструмент для сбора web-данных. Справляется с данными динамических форм, способен выгружать информацию в разных форматах.

Сайт сервиса: https://webscraper.io

Инструменты подготовки наборов данных

Talend Data Preparation

Инструмент предназначен для решения целого спектра разных задач, связанных с подготовкой, очисткой и обогащением данных, в частности отлично справляется с задачей анонимизации персональных данных.

Обладает широким набором функций визуализации обрабатываемых данных, позволяет записывать сценарии для последующего воспроизведения. Предоставляется на основании коммерческой и свободной лицензии. Существует разница в функционале между типами версий.

Data Wrangler

Инструментальный набор для очистки и преобразования данных от Стендфордского университета. Функционал близок к инструменту Talend Data Preparation.

Сайт сервиса: http://vis.stanford.edu/wrangler

Trifacta

Программное обеспечение для обработки и подготовки данных к анализу.

Сайт сервиса: https://www.trifacta.com

Open Refine

Инструмент для работы с сырыми данными: преобразование в разные форматы, очистка, расширение.

Сайт сервиса: http://openrefine.org

Microsoft Excel / LibreOffice Calc

Широко известные табличные процессоры, предназначенные для хранения, обработки, вычислений и визуализации табличных данных. Могут, за счёт встроенных средств разработки сценариев, использоваться для решения таких задач, как:

  • --> преобразование данных из одного формата в другой: например, из CSV * в XLS или во внешнюю базу данных ( или наоборот );
  • --> исследование данных: например, выяснение пропусков в данных, максимальных, минимальных значений в колонках и так далее;
  • --> очистка данных: за счёт фильтров и встроенных инструментов автоматизации;
  • --> объединение данных: за счёт встроенных инструментов автоматизации.

Обладают встроенной справкой на русском языке.

Сайты:

Инструменты визуализации наборов данных

Metabase

Простая система класса BI, предназначенная для визуализации и анализа слабоструктурированных данных с открытым исходным кодом. Кроме свободной лицензии, предоставляется лицензия класса enterprise.

Для работы использует так называемую in-memory базу данных H2, которую не рекомендуется использовать для промышленной эксплуатации, для которой можно использовать MySQL ( MariaDB ) или PostgreSQL.

Методические рекомендации по работе с продуктом: https://docs.google.com/document/d/1gSiGvUNxmUHg Ps6WjvEtjotV5bhmBkVqIkblNxQOn10

Qlik

Платформа разработки аналитики, построенная на базе ассоциативного движка и библиотек.

Сайт сервиса: https://www.qlik.com

Tableau

Инструмент для визуального анализа, позволяющий осуществлять динамическую фильтрацию данных, выделять тренды или проводить глубинный когортный анализ.

Сайт сервиса: http://tableau.com

Power BI

Комплексное программное обеспечение бизнесанализа компании Microsoft, объединяющее несколько программных продуктов.

Сайт сервиса: https://powerbi.microsoft.com

Data Studio

Инструмент, который даёт маркетологам простые средства для визуализации данных, полученных из разных источников.

Сайт сервиса: https://datastudio.google.com

Infogram

Веб-сервис для создания инфографики, онлайнкарт и интерактивных схем.

Сайт сервиса: https://infogram.com

Gephi

Программное обеспечение с открытым кодом для анализа и визуализации графов.

Сайт сервиса: https://gephi.org

D3

JavaScript-библиотека для создания статичных и интерактивных визуализаций сложных данных.

Сайт сервиса: https://d3js.org

Программные среды и каркасы

Docker

Средство контейнерной виртуализации вычислений Docker будет полезным для упрощения задачи развёртывания сред прототипирования под различные задачи моделирования данных. в частности, некоторые из приводимых в настоящем параграфе инструментов великолепно упаковываются с его помощью ( для некоторых из них существуют официальные образы, поставляемые разработчиками продуктов ):

  • Metabase
  • PostgreSQL
  • GitLab
  • И многие другие

Существует официальный репозиторий контейнеров для использования в составе ваших решений Docker Hub ( https://hub.docker.com/ )

Flask

Flask — программный каркас для разработки вебприложений на языке Python, использующий набор инструментов Werkzeug и Jinja2. Предоставляет только базовые возможности для разработки.

Сайт среды: https://flask.palletsprojects.com/

Jupyter Notebook ( JupyterLab )

Интерактивное средство разработки для Python и некоторых других языков, позволяющее создавать интерактивные приложения и комбинировать их с презентационными текстами, диаграммами и данными. Можно воспользоваться как предоставляемым разработчиком среды сервисом, так и развернуть его на своих площадях. Запуск проектов Jupyter Notebook обеспечивает среда JupyterLab, к которой можно подключать все необходимые в работе библиотеки и сервисы.

Сайт среды: https://jupyter.org/

TensorFlow

Программный каркас для решения задач машинного обучения от Google на языке программирования Python, имеющий широкое распространение в мире. Содержит в себе широкий набор инструментов моделирования и визуализации данных. Предназначен для использования профессионалами в области разработки и машинного обучения.

Сайт среды: https://www.tensorflow.org

Средства работы с географическими данными

Mapbox

Онлайн-сервис, предназначенный для создания, редактирования и публикации карт.

Сайт сервиса: https://www.mapbox.com

Open Street Map

Некоммерческий веб-картографический проект по созданию силами сообщества участников — пользователей Интернета подробной свободной и бесплатной географической карты мира.

Сайт сервиса: https://www.openstreetmap.org

Маркетинговый инструментарий

Яндекс.Подбор слов

Сервис Яндекс, позволяющий для заданного слова или словосочетания находить релевантные этому словосочетанию запросы к поисковому сервису Яндекс. Сервис позволяет эффективно решать задачи микро-таргетинга в маркетинге, когда существует необходимость более чётко определить образ целевой аудитории.

Сайт сервиса: https://wordstat.yandex.ru/

Церебро Таргет

Сервис для поиска целевых аудиторий VK.

Сайт сервиса: https://церебро.рф

Прочий инструментарий

SQLite

Очень компактный SQL-сервер, используемый, как правило, для внедрения в более крупные прикладные разработки. в частности, может оказать неоценимую помощь, когда существует необходимость развернуть компактную базу данных в рамках мобильного приложения. Часто применяется для хранения журналов приложений или подготовки тестовых данных для последующего обучения модели.

RusVectōrēs: семантические модели для русского языка

Сервис, предоставляющий доступ к уже подготовленным моделям русского языка в форматах word2vec, позволяющих ускорить подготовку моделей машинного обучения для обработки текстов на живом русском языке.

Сайт сервиса: https://rusvectores.org/ru/models/