Перейти к содержимому

Data engineer data scientist в чем отличие

  • автор:

Data Scientist, Data Analyst или все же Data Engineer? Переводим на русский с эйчарского

Профессии, связанные с обработкой и анализом данных, часто путают. Требования к Data Scientist, Data Analyst и Data Engineer могут отличаться в зависимости от целей, которые конкретная компания хочет достичь с помощью данных. При этом различия между этими специализациями достаточно четкие, а их понимание поможет оценить свои компетенции и не тратить время, откликаясь на нерелевантные вакансии.

Как бизнес работает с данными

Прежде, чем перейти к специализациям, разберемся, как компании получают данные и где их хранят.

С того момента, как пользователь заходит на сайт, все его действия отслеживаются и фиксируются. Сайт следит за тем, какую музыку он слушал, в какой стране находится, сколько времени провел, читая тексты или смотря видео. Вся эта информация записывается и отправляется на сервер — он может быть локальным или облачным, в зависимости от объема данных и специфики компании.

На сервер чаще всего попадают «сырые», неструктурированные данные, которые не удастся получить, просто обратившись к ним. Сначала их нужно перенести в базу данных, предварительно преобразовав в нужный формат и очистив от лишней информации. Например, перевести данные, записанные в строку, в табличный формат, выровнять их в соответствии с требованиями JSON и проверяются на достоверность.

Процесс очистки и преобразования данных в удобный формат называется ELT — это аббревиатура, которая расшифровывается как извлечение (extract), преобразование (transform) и загрузка в базу данных (load).

До этого этапа разделения на Data Scientist, Data Analyst и Data Engineer не существует — очисткой и преобразованием данных занимаются все перечисленные специализации. Различия зависят от того, какие именно действия нужно выполнять с данными. Разбираем разницу между ними вместе с карьерными коучами Elbrus Bootcamp.

Data Analyst

На основе данных, собранных в прошлом, аналитик оценивает текущую ситуацию и отвечает на вопросы «Почему сейчас происходит именно это?», «Каковы причины?», «Хорошо ли работает продукт?», «Что мы можем сделать, чтобы избежать/достичь чего-то?».

Data Analyst может делать трендовые предсказания, но его основная задача — следить за тем, как изменилась ситуация за определенный период времени. Для этого ему нужно глубоко разбираться в метриках и их взаимодействиях друг с другом, знать язык программирования SQL для работы с базами данных и уметь визуализировать результаты своих исследований.

Рассмотрим его работу на примере музыкального стримингового сервиса. В обязанности аналитика в числе прочего входит отслеживание изменений показателей, связанных с поведением пользователей, удобством интерфейса и оценка успешности проведения рекламных кампаний.

Data Scientist

Эта профессия сосредоточена не на анализе настоящего, а на предсказании будущего. Data Scientist строит модели машинного обучения, с помощью которых старается найти зависимости и на их основе создать новые продукты.

В примере со стриминговым сервисом Data Scientist решает бизнес-задачу, как рекомендовать композиции, которые понравятся пользователю. В частности, повышает точность существующих рекомендательных алгоритмов, чтобы увеличить возвращаемость клиента и время прослушивания музыки.

Если для Data Analyst понимание алгоритмов машинного обучения желательно, то для Data Scientist это обязательное требование. Такому специалисту нужно знать большое количество инструментов и методов построения моделей, а также математику и статистику. Кроме того, ему необходимы глубокие знания в программировании, поскольку основной продукт его деятельности — это код.

Стоит отметить, что Data Scientist — это широкий спектр профессий, в числе которых распознавание лиц, оптимизация поисковых алгоритмов, обработка естественного языка и другие. Каждая из них имеет свои особенности — некоторые близки к тому, чем занимается Data Analyst.

Data Engineer

Если две предыдущие специализации делают акцент на использовании данных, то Data Engineer заботится об их подготовке. Он отвечает на вопросы «Какие данные получают Data Analyst и Data Scientist?», «Как данные о поведении пользователя поступают в базу данных?», «Как убедиться, что они отражают реальность?».

Data Engineer строит инфраструктуру хранения и следит, чтобы данные, собранные компанией, были доступны Data Analyst и Data Engineer. В его зону ответственности входит проверка данных на соответствие требованиям — своевременности, чистоте, структурированности и другим.

Такому специалисту кроме знания языка SQL нужно разбираться в облачных вычислениях и программировании.

Заключение

Разделение на специализации скорее теоретическое, чем практическое — оно помогает понять, в какую сторону стоит двигаться начинающему специалисту и на какие вакансии обращать внимание.

В реальном мире один человек в зависимости от требований, навыков и размера компании может совмещать в себе одну и более ролей. Например, Data Scientist может выполнять задачи, которыми обычно занимается Data Analyst, а также поднимать новые сервера и разворачивать кластеры — то есть выполнять действия, которые входят в зону ответственности Data Engineer.

При устройстве на работу может произойти так, что начинающему специалисту придется заниматься аналитикой, моделями и выполнять небольшую часть работы Data Engineer. А его коллега возьмет на себя, например, дата-сайентистские и инженерные задач.

Поэтому некоторые школы программирования при обучении не делают упор на одну из специализаций, а стараются дать знания, которые позволят совмещать разные профессии, связанные с обработкой и анализом данных. Например, студенты Elbrus Bootcamp после выпуска могут работать и как Data Analyst, и как Data Scientist. Для того, чтобы откликаться на вакансии, связанные с Data Engineer, нужно будет получить дополнительные знания и углубить существующие.

Data Scientist и Data Engineer: в чем разница?

Data Scientist и Data Engineer: в чем разница?

Развитие науки о данных дало старт нескольким профессиям с префиксом «дата-», которые несложно перепутать. Работа дата-сайентиста и дата-инженера во многом похожа, но эти специалисты не взаимозаменяемы и выполняют разные задачи. Позиция Data Engineer — прикладная, а Data Scientist — более творческая и аналитическая.

Освойте профессию «Data Scientist»

Кто такие исследователи данных и дата-инженеры?

Дата-инженер разрабатывает, строит, тестирует и поддерживает архитектуру данных: крупные базы данных, хранилища или системы для обработки информации. Он работает с сырыми данными, перерабатывает их и строит пайплайны (схемы по их обслуживанию) — то есть подготавливает материал для использования дата-сайентистами. Дата-сайентист использует обработанные дата-инженером данные, чтобы построить прогнозные модели и решить те или иные бизнес-задачи. Такой специалист использует методы описательной статистики для анализа и систематизирования данных и строит модели с помощью алгоритмов машинного обучения, чтобы снабжать бизнес прогнозами и инсайтами.

Профессия / 24 месяца
Data Scientist
Решайте амбициозные задачи с помощью нейросетей
5 491 ₽/мес 9 983 ₽/мес

Group 1321314349 (2)

Что Data Scientist и Data Engineer могут делать в одной компании?

У исследователя данных и дата-инженера обычно разные цели. Первый непосредственно решает запросы бизнеса: для этого он проверяет гипотезы и строит прогнозные модели. Второй отвечает за оптимальное и надежное хранение данных, их преобразование, а также за быстрый и удобный доступ к ним. Это позволяет дата-сайентисту работать с корректными и актуальными данными. Компании, которые хотят использовать Data Science для развития своего бизнеса, могут нанимать и дата-инженера, и дата-сайентиста. Пример: в онлайн-магазине бытовой техники каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных. Дата-инженер может собрать эти данные и сохранить в удобном для доступа формате. Дата-сайентист получает данные о том, какие клиенты купили те или иные товары, и использует эту информацию так, чтобы предсказать вариант идеального предложения для каждого нового посетителя сайта. Пример: работа в платной онлайн-библиотеке. Если компания хочет узнать, какие пользователи тратят больше денег, им нужны компетенции и дата-сайентиста, и дата-инженера. Инженер соберет информацию из логов сервера и журналов событий сайта и создаст пайплайн, который соотносит данные с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение полученной информации в базе данных так, чтобы ее можно было без труда запросить. После этого дата-сайентист сможет проанализировать действия пользователей сайта и узнать особенности поведения тех, кто тратит больше денег.

Читайте также 8 причин стать дата-сайентистом в 2023 году

Что именно делает исследователь данных, а что — дата-инженер?

Часть навыков этих специалистов пересекается (например, в области доступа к данным или программирования), но специализация у них разная. Дата-инженер — более прикладная позиция, она направлена на кропотливую работу по формированию пайплайнов данных и их дальнейшему поддержанию. Работа дата-сайентиста — более творческая и аналитическая.

Обязанности дата-сайентиста:

  • проводить анализ и исследование данных, чтобы решать бизнес-задачи;
  • использовать большие объемы данных из внутренних и внешних источников, чтобы отвечать на запросы бизнеса;
  • использовать аналитические программы, машинное обучение и статистику для прогнозирования;
  • исследовать данные, чтобы находить скрытые закономерности;
  • подавать полученную информацию в доступном формате акционерам и руководителям.

Обязанности инженера данных:

  • разрабатывать, строить, тестировать и поддерживать архитектуру данных;
  • обеспечивать актуальность и пригодность архитектуры данных для бизнеса;
  • искать новые возможности для получения данных;
  • разрабатывать процессы создания наборов данных для моделирования, майнинга и производства;
  • давать рекомендации по улучшению эффективности, качества хранения и надежности данных.

Какую профессию выбрать?

На практике четкая граница между специальностями дата-сайентиста и инженера данных существует только в IT-компаниях и крупных корпорациях с большими IT-отделами. Специалист по Data Science часто сочетает навыки смежных позиций — он должен подстроиться под конкретную задачу и решить ее.

Вход в профессию будет легче, если человек уже обладает частью навыков: умеет программировать, знает математику и статистику. Человек с бэкграундом в IT быстрее поймет принципы работы с данными и сможет выбрать для себя специализацию. Часто разработчики и аналитики переучиваются на дата-сайентистов, продакт-менеджеры — на аналитиков данных, а бухгалтеры и маркетологи — на бизнес-аналитиков.

Изучать науку о данных можно и без технического бэкграунда и умения программировать. Так как позиции дата-аналитика, дата-сайентиста и дата-инженера близки, при необходимости можно будет довольно быстро поменять специализацию.

Помимо этих двух специальностей, есть и другие, связанные с наукой о данных: дата-аналитик, администратор баз данных, менеджер данных, бизнес-аналитик, маркетолог-аналитик, ML-инженер. Все они подразумевают работу с данными и требуют изучения базовых понятий Data Science.

Оптимальный путь для начинающего специалиста — освоить базовые навыки Data Science, а уже затем углубиться в ту область, которая покажется самой интересной.

Data Scientist

Дата-сайентисты решают поистине амбициозные задачи. Научитесь создавать искусственный интеллект, обучать нейронные сети, менять мир и при этом хорошо зарабатывать. Программа рассчитана на новичков и плавно введет вас в Data Science.

Data Engineer и Data Scientist: какая вообще разница?

Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен заниматься, поэтому и требования каждый предъявляет свои.

Разбираемся, в чём разница между этими специалистами, какие задачи бизнеса они решают, какими навыками обладают и сколько зарабатывают.

Материал получился большим, поэтому разделили его на две публикации. В первой части рассказываем об основных отличиях Data Scientist и Data Engineer и с какими инструментами они работают.

Елена Герасимова

Руководитель факультета « Аналитика и Data Science » в Нетологии

Как различаются роли дата-инженеров и дата-сайентистов

Инженер данных — это специалист, который, с одной стороны, разрабатывает, тестирует и поддерживает инфраструктуру работы с данными: базы данных, хранилища и системы массовой обработки. С другой стороны, дата-инженер очищает и «причёсывает» данные для использования аналитиками и дата-сайентистами, то есть создаёт конвейеры обработки данных.

Дата-сайентист создаёт и обучает предиктивные (и не только) модели с помощью алгоритмов машинного обучения и нейросетей, помогая бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые бизнес-процессы.

Главное различие между Data Scientist и Data Engineer состоит в том, что обычно у них разные цели. Оба работают для того, чтобы данные были доступными и качественными. Если дата-сайентист находит ответы на свои вопросы и проверяет гипотезы в экосистеме данных (например, на базе Hadoop), то дата-инженер создаёт пайплайн обслуживания алгоритма машинного обучения, написанного дата-сайентистом, в кластере Spark внутри той же экосистемы.

Инженер данных приносит ценность бизнесу, работая в команде. Он выступает важным звеном между различными участниками: от разработчиков до бизнес-потребителей отчетности. Также помогает повысить продуктивность аналитиков — от маркетинговых и продуктовых до BI.

Дата-сайентист принимает активное участие в стратегии компании и извлечении инсайтов, принятии решений, внедрении алгоритмов автоматизации, моделирования и генерации ценности из данных.

Data Engineer и Data Scientist: какая вообще разница?

Работа с данными подчиняется принципу GIGO (garbage in — garbage out): если аналитики и дата-сайентисты имеют дело с неподготовленными и потенциально некорректными данными, то результаты даже с помощью самых изощрённых алгоритмов анализа будут неверны.

Инженеры данных решают эту проблему, выстраивая пайплайны по обработке, очистке и трансформации данных и позволяя дата-сайентисту работать уже с качественными данными.

На рынке много инструментов для работы с данными на каждом этапе: от их появления до вывода на дашборд для совета директоров. И важно, чтобы решение об их использовании принималось дата-инженером, — не потому, что это модно, а потому что он действительно поможет в работе остальным участникам процесса.

Условно: если компании нужно подружить BI и ETL — загрузку данных и обновления отчётов, вот типичный legacy-фундамент, с которым придётся иметь дело Data Engineer (хорошо, если в команде кроме него будет ещё и архитектор).

Обязанности Data Engineer

  • Разработка, построение и обслуживание инфраструктуры работы с данными.
  • Обработка ошибок и создание надёжных конвейеров обработки данных.
  • Приведение неструктурированных данных из различных динамических источников к виду, необходимому для работы аналитиков.
  • Предоставление рекомендаций по повышению консистентности и качества данных.
  • Обеспечение и поддержка архитектуры данных, используемой дата- сайентистами и аналитиками данных.
  • Обработка и хранение данных последовательно и эффективно в распределённом кластере на десятки или сотни серверов.
  • Оценка технических компромиссов инструментов для создания простых, но надёжных архитектур, которые смогут пережить сбои.
  • Контроль и поддержка потоков данных и связанных систем (настройка мониторинга и алертов).

Существует ещё одна специализация внутри траектории Data Engineer — ML Engineer. Если коротко, то такие инженеры специализируются на доведении моделей машинного обучения до промышленного внедрения и использования. Зачастую модель, которая поступила от дата-сайентиста, является частью исследования и может не заработать в боевых условиях.

Data Engineer и Data Scientist: какая вообще разница?

Профессия

Дата-инженер с нуля до PRO

Узнать больше

  • Научитесь автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных
  • Получите знания, равноценные опыту 2‒3 лет самостоятельного изучения инжиниринга данных

Обязанности Data Scientist

  • Извлечение признаков из данных для применения алгоритмов машинного обучения.
  • Использование различных инструментов машинного обучения для прогнозирования и классификации паттернов в данных.
  • Повышение производительности и точности алгоритмов машинного обучения за счет тонкой настройки и оптимизации алгоритмов.
  • Формирование «сильных» гипотез в соответствии со стратегией компании, которые необходимо проверить.

И Data Engineer, и Data Scientist объединяет ощутимый вклад в развитие культуры работы с данными, с помощью которой компания может получать дополнительную прибыль или сокращать издержки.

С какими языками и инструментами работают инженеры данных и дата-сайентисты

Ожидания от специалистов по обработке данных изменились. Раньше дата-инженеры собирали большие SQL-запросы, вручную писали MapReduce и обрабатывали данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend.

В 2020 году специалисту не обойтись без знания Python и современных инструментов проведения вычислений (например, Airflow), понимания принципов работы с облачными платформами — использования их для экономии на «железе», при соблюдении принципов безопасности.

SAP, Oracle, MySQL, Redis — это традиционные для инженера данных инструменты в больших компаниях. Они хороши, но стоимость лицензий настолько высока, что учиться работать с ними имеет смысл только в промышленных проектах. При этом, есть альтернатива в виде Postgres — он бесплатный и подходит не только для обучения.

Data Engineer и Data Scientist: какая вообще разница?

Исторически часто встречается запрос на Java и Scala, хотя по мере развития технологий и подходов эти языки отходят на второй план.

Тем не менее, хардкорная BigData: Hadoop, Spark и остальной зоопарк — это уже не обязательное условие для инженера данных, а разновидность инструментов для решения задач, которые не решить традиционным ETL.

В тренде — сервисы для использования инструментов без знания языка, на котором они написаны (например, Hadoop без знания Java), а также предоставление готовых сервисов для обработки потоковых данных распознавание голоса или образов на видео.

Популярны промышленные решения от SAS и SPSS, при этом Tableau, Rapidminer, Stata и Julia также широко используются дата-сайентистами для локальных задач.

Data Engineer и Data Scientist: какая вообще разница?

Возможность самим строить пайплайны появилась у аналитиков и дата-сайентистов всего пару лет назад. Например, уже можно относительно несложными скриптами направлять данные в хранилище на основе PostgreSQL.

Обычно использование конвейеров и интегрированных структур данных остаётся в ведении дата-инженеров. Но сегодня как никогда силён тренд на Т-образных специалистов — с широкими компетенциями в смежных областях, ведь инструменты постоянно упрощаются.

Data Engineer и Data Scientist: какая вообще разница?

Профессия

Data Scientist

Узнать больше

  • Научитесь строить и обучать предиктивные модели с помощью алгоритмов машинного обучения и нейросетей
  • Будете находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые бизнес-процессы

Зачем Data Engineer и Data Scientist работать вместе

Работая в тесном сотрудничестве с дата-инженерами, дата-сайентисты могут сосредоточиться на исследовательской части и создавать готовые к работе алгоритмы машинного обучения. А инженеры — сфокусироваться на масштабируемости, повторном использовании данных, а также гарантировать, что пайплайны ввода и вывода данных в каждом отдельно взятом проекте соответствуют глобальной архитектуре.

Такое разделение обязанностей обеспечивает согласованность действий между группами специалистов, работающими над разными проектами машинного обучения.

Сотрудничество помогает эффективно создавать новые продукты. Скорость и качество достигаются, благодаря балансу между созданием сервиса для всех (глобальное хранилище или интеграция дашбордов) и реализацией каждой конкретной потребности или проекта (узкоспециализированный пайплайн, подключение внешних источников).

Тесная работа с дата-сайентистами и аналитиками помогает инженерам развивать аналитические и исследовательские навыки для написания более качественного кода. Улучшается обмен знаниями между пользователями хранилищ и озёр данных, что делает проекты более гибкими и обеспечивает более устойчивые долгосрочные результаты.

В компаниях, которые ставят своей целью развитие культуры работы с данными и выстраивание бизнес-процессов на их основе, Data Scientist и Data Engineer дополняют друг друга и создают полноценную систему анализа данных.

В следующем материале расскажем о том, какое образование должно быть у Data Engineer и Data Scientists, какие навыки им нужно развивать и сколько зарабатывают специалисты.

Материал изначально опубликован на habr .

ЧИТАТЬ ТАКЖЕ

Хотите написать колонку для Нетологии? Читайте наши условия публикации . Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии .

Елена Герасимова

Руководитель факультета « Аналитика и Data Science » в Нетологии

Data scientist, data analyst, data engineer

Data scientist, data analyst, data engineer

Некоторые считают, что data scientist, дата-аналитик и дата-инженер занимаются одним и тем же. На самом деле все не так просто. У каждого из них — свои задачи и функции, которые могут пересекаться.

Вместе с Ольгой Матевой, Analyst в Preply, Максимом Натальчишиным, Data Engineer в AutoDoc, и Виталием Радченко, Data Scientist в YouScan, рассказываем, в чем различие позиций и может ли один человек совмещать компетенции.

Кто за что отвечает

Дата-аналитик — позиция для тех, кто хочет начать работать с данными. Технические навыки важны, но главное — знание статистических методов.

Ольга: «Дата-аналитики ищут инсайты в данных , создают визуализации и дают ответы на запросы от бизнеса (например, какую метрику лучше использовать для этого функционала). В работе аналитиков больше коммуникации, чем в работе инженеров и специалистов по data science.

Ключевые навыки дата-аналитика:

  • знание языков Python/R, математики/статистики, SQL,
  • опыт работы с платформами для аналитики и визуализаций Tableau/Power BI
  • любовь к цифрам и усидчивость. Часто нужно довольно долго копать, чтобы найти что-то интересное.
  • способность решать проблемы, искать новые идеи и решения.
  • коммуникабельность (важны и коммуникация в команде, и правильная подача результатов анализа)».

Data scientist чаще работает с большими массивами данных. Он ищет в них закономерности, строит прогнозные модели, создает рекомендательные алгоритмы. Также data scientist может визуализировать данные.

Виталий: «Data scientist должен подстроиться под определенную задачу и решить ее. Если нужно, он может совмещать и компетенции дата-аналитика, и компетенции дата-инженера. Но это не значит, что data scientist справится лучше дата-инженера с задачей оптимизации пайплайна или найдет аномалии в данных быстрее дата-аналитика.

Сложнее всего для data scientist собрать качественные данные. Почти всегда качество данных — это определяющий критерий, без которого техническая часть не имеет смысла.

Ключевые навыки data scientist’а:

  • умение анализировать. Нужно проанализировать задачу перед ее выполнением, подумать над тем, какие данные нужны и как их лучше всего собрать. После сбора данных нужно оценить их качество, потом — качество моделей и вероятность их использования в реальном мире. На каждом этапе можно допустить ошибку. Поэтому нужно анализировать промежуточные результаты. Иначе вы рискуете не заметить ошибку и потратить время зря, обнаружив ее в финале.
  • способность учиться от задачи к задаче, чтобы предыдущий опыт помогал вам справляться с новыми вызовами быстрее».

Кроме этого, data scientist должен иметь опыт программирования на Python, уметь работать с SQL, создавать визуализации данных и обладать хотя бы базовыми знаниями в области machine learning.

курсы по теме:

Прогнозирование и анализ временных рядов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *