Экспертная сеть EXPINET

09.07.2021 14:29

Автор:

Администратор

Discover трансформирует конвейер обработки данных для успеха искусственного интеллекта

Стремясь оптимизировать процессы, необходимые для полного использования машинного обучения и анализа данных в режиме реального времени, Discover Financial Services создала облачную структуру данных, которая автоматизирует большую часть работы.

Автор: Тор Олавсруд, старший автор CIO

Если и есть один ключевой компонент успеха искусственного интеллекта, то это данные. Но даже организациям, хорошо разбирающимся в данных и использовании аналитики, может быть сложно создать надежные автоматизированные конвейеры передачи данных для реализации стратегий машинного обучения.

Компания Discover Financial Services оказалась на этом перекрестке в 2019 году, когда ее разработчикам и специалистам по обработке данных приходилось справляться со сложными ручными процессами, которые отнимали время и снижали гибкость компании. Чтобы в полной мере использовать машинное обучение и анализ данных в режиме реального времени, Discover необходимо было изменить способы получения, обогащения и использования своих данных. Ее ответ? Cloud Data Fabric – это собственная платформа, которая объединяет множество сервисов для обеспечения автоматизации на основе метаданных, приема/загрузки в реальном времени и встроенного управления в облаке.

«Мы собрали наших лучших технических лидеров, чтобы продумать проблему, сформулировать некоторые первоначальные требования и создать архитектурные идеи, как мы могли бы достичь наших целей», - говорит Амир Аруни, исполнительный вице-президент и ИТ-директор Discover Financial Services. «Мы взяли эти идеи и отправились в тур по различным подразделениям инженерных разработок или к их руководителям, чтобы получить обратную связь и скорректировать идею на этом пути».

До этого процесс создания конвейеров данных Discover включал длительные беседы между разработчиками приложений и инженерами, чтобы решить, какие данные отправлять в аналитику. Затем разработчики вручную кодировали сценарии для извлечения данных из операционных баз данных и планировали сценарии для отправки необработанных данных в зону безопасной аналитической среды. Затем инженеры по обработке данных создавали специализированные приложения для обработки данных, которые должны принимать файлы необработанных данных для выполнения различных действий, таких как проверка схемы. Инженеры по обработке данных также должны были собирать информацию о конфиденциальности данных, чтобы запрограммировать логику для обозначения правильных полей.

В конечном итоге это означало, что инженеры по обработке данных часами вручную кодировали и выясняли, куда отправлять аналитические данные и в каких форматах их хранить.

Аруни и его команда работали с командами Discover по безопасности и передаче файлов, группами облачной инфраструктуры, администраторами баз данных и командами управления данными, а также инженерами и учеными по обработке данных над идеями по исправлению этой ситуации. Получившаяся в результате Cloud Data Fabric, за которую Discover Financial Services недавно получила награду CIO 100 за достижения в области ИТ, объединяет сервисы, которые передают данные из операционных баз данных приложений Discover, собирают метаданные, маркируют поля конфиденциальных данных и отслеживают происхождение набора данных.

«Продукты в этой структуре стремятся повысить эффективность разработки данных за счет автоматизациина основе метаданных и удобного взаимодействия с пользователями», - говорит Аруни. «Например, наша структура состоит из продуктов, которые обрабатывают поступление данных с гораздо более высокой скоростью, и мы можем направлять данные в несколько пунктов назначения в режиме реального времени несколькими нажатиями кнопок».

Путь к успеху

По словам Аруни, проект не обошелся без проблем, самой большой из которых было обеспечение согласованности всех участников на всех уровнях в целях и видении.

«Потребовалось много раундов общения от наших инженеров до высшего руководства, чтобы все было согласовано … все время», - говорит он. «Мы большая организация, и у нас много мыслей, мнений и разной степени понимания. Вы должны учитывать все эти аспекты в постановке целей и решении проблем, чтобы вести за собой во время выполнения».

Чтобы добиться этого, Discover представила новую инициативу под названием «The Runway», которая состоит из пяти рабочих потоков: инженерные кадры, экстремальная автоматизация, гибкие методы, надежность и технологическая организация, а также дисциплина и опыт сотрудников. The Runwayобъединяет небольшие, самостоятельные инженерные команды, которые сосредоточены на разработке единого гибкого подхода и автоматизации ручных функций с акцентом на упрощение.

По словам Аруни, формирование автономных команд, способных внедрять технологии, используемые для проекта, заняло некоторое время. Это требовало общения и установления доверия с различными владельцами технологий, и командам приходилось работать в кросс-функциональном режиме с разработчиками передачи файлов, администраторами баз данных, гуру управления данными, экспертами по безопасности и различными группами разработчиков полного стека. Архитекторы, менеджеры по продуктам, мастера Scrum и управленческие команды координировали свои усилия. Ряду инженеров пришлось впервые научиться разрабатывать облачное программное обеспечение.

«В рамках попытки создать более автономные команды мы смешали наборы навыков с производственными группами», - говорит Аруни. «Это означает, что каждый может участвовать в технологиях, которыми раньше у него не было возможности заниматься из-за искусственных барьеров владения».

Оглядываясь назад, Аруни говорит, что в начале он бы сделал больший толчок для более автономных команд, чтобы быстрее повысить эффективность и боевой дух. Он говорит, что команда также немного иначе организовала бы свою модель архитектурного проектированияя.

«И то, и другое мы сейчас делаем для разработки наших новых продуктов», - говорит он.

Также добавляет, что влияние Cloud Data Fabric на Discover было неоценимым. Проект сократил время разработки и поддержки своих конвейеров данных, а его специалисты по обработке данных, инженеры искусственного интеллекта и машинного обучения и разработчики моделей могут получать более значимые данные на более высоких скоростях. Проект позволил сэкономить миллионы долларов и избежать затрат на ретроактивные данные.

«Время, мощности и финансы, сэкономленные благодаря этой инновационной инициативе, являются огромной победой для Discover», - говорит Аруни.

Он также отмечает, что инженеры Discover разработали «массу идей» для дальнейших улучшений в процессе разработки и развертывания Cloud Data Fabric.

Обращаясь к своим коллегам, Аруни говорит: «Автоматизируйте как можно больше. Пользовательский опыт имеет первостепенное значение. И давайте своим инженерам больше прав и возможностей».

Ссылка на источник

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!