Amazon Web Services (AWS) на этой неделе объявил о запуске Glue DataBrew, инструмента, который позволяет организациям готовить данные для проектов машинного обучения с помощью простого интерфейса «укажи и щелкни» - без необходимости программирования.

Glue DataBrew - это расширение оригинального продукта AWS Glue, впервые представленного в 2017 году. Изначально Glue был разработан для автоматизации задач извлечения, преобразования и загрузки (ETL), связанных с подготовкой данных перед проектом машинного обучения. По данным AWS, обычно этот процесс может занять несколько месяцев. Glue обещает завершить за считанные минуты.

Glue DataBrew, который AWS рекламирует как «инструмент для визуальной подготовки данных», еще больше упрощает ETL, помогая организациям «очищать и нормализовать данные до 80% быстрее» с помощью своего визуального интерфейса, говорится в объявлении.

Инструмент может получать доступ к данным из различных ресурсов AWS, включая Amazon Redshift, Amazon Relational Database Service, Simple Storage Service (S3) и хранилище метаданных Glue. Он также работает с хранилищами данных, которые доступны через API подключения к базе данных Java.

Организации могут использовать консоль Glue DataBrew для быстрой организации, объединения и управления своими данными. Инструмент поставляется с 250 «преобразованиями», которые автоматизируют общие задачи очистки данных - например, обнаружение аномалий, исправление нестандартного форматирования или удаление недопустимых символов.

Пользователи также могут автоматически применять любые преобразования к будущим данным. «Каждое преобразование автоматически добавляется как шаг к созданию рецепта», - говорится в сообщении AWS. «Затем вы можете сохранять, публиковать и редактировать рецепты, а также автоматизировать задачи подготовки данных, применяя рецепты ко всем входящим данным».

Glue DataBrew также предоставляет карту «происхождения», которая визуально отслеживает преобразования, которые были применены к заданному набору данных. «Таким образом, вы можете понять, как потоки данных и каковы изменения. Эта информация называется происхождением данных и может помочь вам найти первопричину в случае ошибок в вашем выводе».

Glue DataBrew доступен в следующих регионах AWS: Восток США (Северная Вирджиния), Восток США (Огайо), Запад США (Орегон), Европа (Ирландия), Европа (Франкфурт), Азиатско-Тихоокеанский регион (Токио) и Азиатско-Тихоокеанский регион (Сидней). Согласно AWS, пользователи платят по мере использования сервиса, «без предоплаты».

Источник: AWS Insider

AWS запускает инструмент ETL без кода с Glue DataBrew

10 нояб. 2020 г.