20.09.22 16:29

Новости

Автор:

Администратор

Один день из жизни специалиста по обработке данных

 Что делает специалист по обработке данных? Ведущий специалист по обработке данных компании Amperity Ник Резник  делится своим мнением  о том, что делает его работу динамичной. За последние шесть...

Что делает специалист по обработке данных? Ведущий специалист по обработке данных компании Amperity Ник Резник делится своим мнением о том, что делает его работу динамичной. За последние шесть лет я зарабатывала на жизнь моделированием, в основном в Нью-Йорке, но также в Сиэтле и в разных странах по всему миру. Хотя мне нравится наряжаться в самую модную уличную одежду Нью-Йорка, под “моделированием” я подразумеваю прогнозное моделирование, центральный элемент прикладной науки о данных, которой я занимался на протяжении всей своей карьеры.


Я начал свой путь в области науки о данных в Custora, нью-йоркской компании, которая создала программное обеспечение для прогнозирования маркетинга для предприятий электронной коммерции. После того как Custora была приобретена Amperity, я присоединился к их команде по исследованию данных, где сейчас являюсь ведущим специалистом по обработке данных. Наша компания частично работает в удаленном режиме, что позволило мне работать из любого места с надежным Wi-Fi и еще более надежным эспрессо.

 

Мой опыт в области науки о данных был сосредоточен на построении конвейеров машинного обучения как части корпоративного программного обеспечения. Такая работа в большей степени зависит от инженерного мастерства, инфраструктурных соображений и высокой производительности как с точки зрения вычислений, так и с точки зрения эффективности (я должен был посмотреть это). Это также требует регулярной координации между специалистами по обработке данных, инженерами по машинному обучению, серверными инженерами и менеджерами по продуктам. Построение конвейеров машинного обучения – это большое начинание - я работал над проектами, которые от начала до конца занимали от двух месяцев до двух лет. Тем не менее каждый проект следует аналогичной схеме - от идеи до прототипирования и доставки.

 

Ритмы проектов в области науки о данных

В науке о данных не существует “типичного” дня. Тем не менее есть общие этапы проекта, которые требуют, чтобы я напрягал разные мускулы, брал на себя разные обязанности и взаимодействовал с разными заинтересованными сторонами. Поскольку наша работа выполняется в большом масштабе, в интересах производительности мы должны разбить эту работу на более удобоваримые части. Если у нас есть цель на два месяца, мы разделим ее на восемь двухнедельных спринтов, каждый со своими вехами. Затем мы используем тиккеты, чтобы разбить эти этапы на конкретные вклады в код.

 

Три этапа проекта по изучению данных

Любой данный проект обычно состоит из трех основных этапов (оценка здесь пропорциональна зрелости проекта, а также указывает на количество клиентов, вовлеченных в разработку):

 

1. Фаза 0-1

Этот этап заключается в построении прогностической модели в специальной среде, которая может предсказать количество, представляющее интерес для одного из наших клиентов. На этом этапе требуется взаимодействие с командами, работающими с клиентами, менеджерами продуктов и внутренними инженерами, чтобы получить нужные ресурсы данных для моделирования, выполнить контроль качества данных, понять проблемное пространство и убедиться, что мы экспериментируем в правильном направлении. На этом этапе мы также проводим много мозговых штурмов, анализ литературы и прототипирование алгоритмов, чтобы изучить ландшафт пространства решений.

 

2. Фаза 1-5

Этот этап включает в себя создание рабочего прототипа ML и его обобщение для нескольких клиентов. Чтобы сделать это, мы должны инфраструктурно подумать о том, как эффективно и точно обучать и оценивать нашу модель. Мы также должны рассмотреть, какие типы разработки функций и алгоритмические методы позволят нам масштабироваться.

 

3. Фаза 5-100

Это когда мы берем многообещающий конвейер ML и готовим его к глобальному выпуску в нашем программном обеспечении. Это требует тщательного модульного и интеграционного тестирования, мониторинга стабильности прогнозирования и документирования. Мы также оцениваем и модифицируем разработку для оптимизации стоимости продаваемых товаров (cost of goods sold - COGS) и эксплуатационной надежности. В течение этого периода мы будем взаимодействовать с командами, не связанными с разработкой, включая отдел маркетинга и продаж продукции, чтобы ознакомить остальную часть организации с нашими новыми возможностями.

 

Ежедневные обязанности

Хотя нет двух одинаковых дней, наша команда внедрила некоторые ритуалы, чтобы убедиться, что мы увидимся, заставим друг друга смеяться и говорить о том, насколько хорош сериал "Выходное пособие". Хотя со стороны инженера это звучит почти кощунственно, мне нравятся собрания из-за структуры и изменения темпа, которые они привносят в рабочий день, поэтому я часто планирую встречи с коллегами в течение недели. У нас также есть ротация по вызову для решения внезапных проблем с нашими конвейерами прогнозирования - эксплуатационная надежность является общей ответственностью инженеров и специалистов по обработке данных в нашей команде.

 

Особые задачи

Каждый специалист по обработке данных в нашей команде занимается невероятно большой областью – сбором данных и контролем качества, исследовательским анализом данных, проектированием функций, разработкой алгоритмов, оценкой моделей и доставкой. В этом смысле мы часто говорим, что ищем “единорогов” для присоединения к нашей команде, специалистов по прикладным данным, обладающих навыками и интересом к тому, чтобы преуспеть и привнести инновации в компоненты по всей этой области.

 

Когда мы ищем специалистов по обработке данных начального уровня, больше всего на свете мы ищем это любопытство и способность быть самостоятельными. Если вы готовы усвоить как можно больше информации в течение первых нескольких месяцев, последовательно работать над своими навыками программирования, а затем погрузиться в сложные междисциплинарные проблемы, вы можете подойти для работы в команде data science.