Data scientist, data analyst, data engineer

Некоторые считают, что data scientist, дата-аналитик и дата-инженер занимаются одним и тем же. На самом деле все не так просто. У каждого из них — свои задачи и функции, которые могут пересекаться.
Вместе с Ольгой Матевой, Analyst в Preply, Максимом Натальчишиным, Data Engineer в AutoDoc, и Виталием Радченко, Data Scientist в YouScan, рассказываем, в чем различие позиций и может ли один человек совмещать компетенции.
Кто за что отвечает
Дата-аналитик — позиция для тех, кто хочет начать работать с данными. Технические навыки важны, но главное — знание статистических методов.

Ольга: «Дата-аналитики ищут инсайты в данных , создают визуализации и дают ответы на запросы от бизнеса (например, какую метрику лучше использовать для этого функционала). В работе аналитиков больше коммуникации, чем в работе инженеров и специалистов по data science.
Ключевые навыки дата-аналитика:
- знание языков Python/R, математики/статистики, SQL,
- опыт работы с платформами для аналитики и визуализаций Tableau/Power BI
- любовь к цифрам и усидчивость. Часто нужно довольно долго копать, чтобы найти что-то интересное.
- способность решать проблемы, искать новые идеи и решения.
- коммуникабельность (важны и коммуникация в команде, и правильная подача результатов анализа)».
Data scientist чаще работает с большими массивами данных. Он ищет в них закономерности, строит прогнозные модели, создает рекомендательные алгоритмы. Также data scientist может визуализировать данные.

Виталий: «Data scientist должен подстроиться под определенную задачу и решить ее. Если нужно, он может совмещать и компетенции дата-аналитика, и компетенции дата-инженера. Но это не значит, что data scientist справится лучше дата-инженера с задачей оптимизации пайплайна или найдет аномалии в данных быстрее дата-аналитика.
Сложнее всего для data scientist собрать качественные данные. Почти всегда качество данных — это определяющий критерий, без которого техническая часть не имеет смысла.
Ключевые навыки data scientist’а:
- умение анализировать. Нужно проанализировать задачу перед ее выполнением, подумать над тем, какие данные нужны и как их лучше всего собрать. После сбора данных нужно оценить их качество, потом — качество моделей и вероятность их использования в реальном мире. На каждом этапе можно допустить ошибку. Поэтому нужно анализировать промежуточные результаты. Иначе вы рискуете не заметить ошибку и потратить время зря, обнаружив ее в финале.
- способность учиться от задачи к задаче, чтобы предыдущий опыт помогал вам справляться с новыми вызовами быстрее».
Кроме этого, data scientist должен иметь опыт программирования на Python, уметь работать с SQL, создавать визуализации данных и обладать хотя бы базовыми знаниями в области machine learning.
курсы по теме:
Прогнозирование и анализ временных рядов
Для чего и кому нужны Big Data
Недавно мы с вами познакомились с основными понятиями Big Data, сегодня мы расскажем вам какие технологии и профессии ними связаны, приведем примеры их использования в реальной жизни и выясним, что общего у больших данных и Data Science.
Большие данные (англ. Big Data) — это огромные массивы разнообразной информации, которые требуют применения специальных подходов для работы с ними. Отличительные черты больших данных — колоссальные объемы, высокая скорость обновления и многообразие форматов. Для эффективной работы с ними нужны передовые технологии и методы сбора, хранения, обработки и анализа и, конечно же, квалифицированные кадры.
Анализ больших данных позволяет миру получать ценные знания, осуществлять научные открытия, улучшать бизнес-процессы, разрабатывать новые лекарства, продукты и услуги.
Главная цель специалиста по большим данным — превратить огромные массивы raw data в smart data, несущие стратегическую ценность для бизнеса и общества.
Перед тем как ответить на вопрос, кто же работает с большими данными, мы хотим рассказать вам о том.
Где и для чего применяется аналитика больших данных
Аналитика больших данных активно используется в самых разных сферах, но мы вам расскажем об основных.
Бизнес
- Аналитика клиентов. Компании анализируют данные клиентов, их действия и предпочтения для создания персонализированных продуктов и услуг, улучшения уровня обслуживания и настройки актуальной рекламы.
- Управление запасами и логистика. Данные о складских запасах, снабжении, логистике и спросе собираются для оптимизации управления запасами, прогнозирования спроса, улучшения эффективности поставок и сокращения затрат на логистику.
- Финансовый анализ. Анализ записей транзакций, клиентских данных, рыночных трендов проводится с целью обнаружения мошенничества, оценки рисков, проведения прогнозов и принятия инвестиционных решений.
- Маркетинговые исследования. Здесь технологии больших данных помогают определить эффективность маркетинговых кампаний, идентифицировать новые рыночные возможности и разработать точные стратегии продвижения товаров и услуг.
- Прогнозирование и анализ трендов. Большие объемы данных помогают компаниям прогнозировать будущие тенденции и тренды, определять новые возможности и адаптироваться к изменчивому рынку.
- Управление качеством и обслуживание клиентов. Компании постоянно мониторят и анализируют информацию о качестве продуктов, удовлетворенности клиентов и обратной связи для выстраивания процессов обслуживания клиентов и повышения уровня лояльности.
Наука
- В геномике Big Data нужны для анализа генетических данных и поиска связей между генами и наследственными заболеваниями.
- В астрономии обнаруживать новые планеты, изучать эволюцию Вселенной, исследовать черные дыры и иные увлекательные космические вещи помогает анализ данных, полученных от телескопов или спутников.
- В экологии большие данные позволяет ученым изучать взаимодействие между разными экосистемами, прогнозировать изменения климата, а также разрабатывать стратегии для сбережения окружающей среды и биологического разнообразия.
- В физике элементарных частиц анализ этих данных позволяет исследователям открывать новые элементарные частицы, понимать природу темной материи и темной энергии, а также проверять фундаментальные физические теории.
Медицина
- Персонализированная медицина: врачи с помощью полученных и обработанных медицинских данных предсказывают персональные риски развития заболеваний, а также предлагают выбор наиболее эффективных лекарств и делают прогноз результата лечения.
- Обнаружение эпидемий и общественное здравоохранение: Big Data позволяет мониторить и анализировать данные о заболеваниях, распространении вирусов и эпидемиологических параметрах. Это помогает обнаруживать вспышки заболеваний, прогнозировать распространение эпидемий и вовремя принимать меры.
- Клинические исследования: чтобы исследователи находили новые лекарства, лечебные подходы и методы диагностики постоянно собирается и анализируется огромное количество информации о пациентах, включая историю болезни, результаты лабораторных исследований, медицинские изображения.
- Улучшение здравоохранения и управление больницами: распределение ресурсов, улучшение качества ухода, прогнозирование необходимости в медицинском оборудовании и планировании служб также происходит за счет анализа Больших данных.
Образование
- Анализ данных студентов
- Персонализированное обучение.
Сфера Безопасности
- Кибербезопасность
- Общественная безопасность
- Безопасность предприятий
- Мониторинг и предсказание аварий.
Также Big Data пользуются технологические и транспортные компании, финансовые учреждения и государственные органы, и даже создаются отдельные компании по аналитике данных.
Примеры использования Big Data
Для того, чтобы вам не было скучно, давайте рассмотрим реальные примеры из разных сфер.
Бизнес
- Amazon использует big data для изучения корзин покупателей, рекомендаций, ценообразования, таргетинга рекламы, логистики
- Netflix использует big data аналитику для персонализированных рекомендаций фильмов и сериалов.
Сфера науки
- В проекте Большого адронного коллайдера данные нужны для изучения столкновений частиц, поиска бозона Хиггса и темной материи
- Проект SETI применяет большие данные для поиска разумной жизни во Вселенной.
Медицина
- В проекте по расшифровке генома человека Большие данные применяются для анализа ДНК и выявления генетических причин заболеваний
- IBM Watson Health использует big data для персонализированной медицины
- Компания Apple использовала инструменты Big Data на массивах медицинских данных, чтобы внедрить функцию ЭКГ в Apple Watch.
Образование
- Платформа Coursera анализирует поведение студентов онлайн-курсов, чтобы дать им обратную связь
- Платформа Khan Academy применяет ее для анализа успеваемости и составления индивидуальных планов для студентов.
Сфера безопасности
- Агентство национальной безопасности США использует Big Data для борьбы с терроризмом, хакерством и мошенничеством путем анализа коммуникаций на предмет выявления подозрительных лиц и действий.
- Splunk предлагает платформу для обработки и анализа больших данных в реальном времени. Они помогают организациям обнаруживать и реагировать на киберугрозы, создавать аналитические отчеты и мониторить безопасность своих сетей и систем.
Big Data и Data Science — в чем разница
Big Data и Data Science — это два термина, которые часто используются в связи с анализом данных. Однако эти термины не являются синонимами и имеют различные значения и области применения.
Big Data — это данные, а Data Science — это наука о данных. Big Data является объектом изучения и применения Data Science.
Однако Data Science может работать не только с Большими данными, но и с любыми другими данными. А Big Data могут быть проанализированы не только с помощью Data Science, но и с помощью других методов и технологий. — Вот такая вот загадка!

Кто работает с большими данными
Работа с большими данными требует навыков в сфере ИТ, математики, статистики и машинного обучения.
Специалисты по большим данным
- Data Engineer отвечает за разработку инфраструктуры для сбора, хранения и обработки больших данных. Использует такие технологии, как Hadoop, Spark, Kafka.
- Data Analyst занимается извлечением знаний из данных, их очисткой, трансформацией, визуализацией. Применяет SQL, Python, статистику.
- Data Scientist строит модели машинного обучения для решения различных прикладных задач на основе больших данных. Работает с TensorFlow, SciKit Learn.
- Data Visualization Specialist проектирует инфографику и дашборды для наглядного представления результатов анализа данных. Применяет Tableau, D3.js.
- Data Steward занимается контролем качества и целостности данных, обеспечением их безопасности и доступности. Пользуется инструментами Data Governance и Data Quality.
Big data и Data science: в чем разница

В последнее время рынок труда демонстрирует огромную заинтересованность в специалистах, способных работать с большими данными. На тематических порталах появляются вакансии Big Data Engineer или Data Science-специалиста, но даже те, кто соответствует всем требованиям этих профессий, не всегда четко понимают разницу между ними. Далее – разбираемся сами и рассказываем вам, в чем отличие Big Data от Data Science и как попасть в одну из этих востребованных профессий.
Что такое Big Data и Data Science
- аналитический склад ума;
- хорошее знание статистики, математики и алгоритмов (в том числе машинного обучения);
- навыки построения и тестирования моделей;
- знание Python и SQL;
- умение визуализировать данные с помощью PowerBI или Tableau;
- коммуникабельность;
- способность работать в команде.
Но один из основных soft skills, который необходим Data Science-специалисту – это умение быстро и постоянно учиться, самостоятельно осваивать новые алгоритмы и способ обработки данных.
Несмотря на очевидные сходства между сферами Big Data и Data Science, разница между ними становится очевидной, если посмотреть на масштабы обрабатываемых данных и результат их обработки. В Big Data имеют место быть огромные массивы с информацией, которые нужно привести к «удобоваримому» формату. В случае с Data Science исследователь может работать и с небольшим количеством данных, но «вытрясти» из них результат, полезный для бизнеса. Например, понять, почему провалилась рекламная кампания.
В каких отраслях востребованы специалисты по Data Science и Big Data
Мы уже выяснили, что профессии в сфере обработки данных являются одними из самых востребованных на рынке труда. Где же работают специалисты по Data Science?
Алгоритмы изучения данных находят применение практически во всех областях digital-маркетинга, а именно:
- интернет-реклама (инструменты Data Science позволяют выяснить, как повысить коэффициент вовлечения и кликабельность);
- поиск в интернете (алгоритмы за доли секунд находят наиболее релевантный ответ на запрос пользователя);
- системы рекомендаций – например, в онлайн-кинотеатрах или интернет-магазинах (с помощью Data Science легко предложить пользователю полезный и интересный продукт, а также облегчить поиск).
Конечно, Data Science-специалист может работать в банковской сфере, продажах и других отраслях, помогать при проведении социологических и медицинских исследований.
Где работают специалисты по Big Data
Аналитика больших данных нужна во многих отраслях, которые так или иначе взаимодействуют с финансами или большим количеством пользователей.
В финансовой сфере Big Data помогают привести разрозненные данные (по валютам, транзакциям, фондовым биржам) к единому «знаменателю» и использовать их эффективнее.
В продажах сегодня идет борьба за каждого покупателя, а большие данные помогают собирать, анализировать и использовать все доступные пользовательские данные. Например, проанализировать регулярные покупки и предложить персональную скидку на избранные категории. Похожая ситуация наблюдается и в туристическом бизнесе.
В game-индустрии специалист по Big Data обрабатывает информацию об отношениях между пользователями, а также анализирует их игровое поведение.
В медицине аналитик больших данных оптимизирует потоки пациентов, анализирует оборот лекарств и использование оборудования, а также решает другие задачи.
Куда бы вы ни захотели пойти – в Data Science или Big Data – современные онлайн-школы научат вас всему. А наш сервис поможет подобрать подходящий курс и узнать обо всех действующих на него скидках.
В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением
В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).
Почему все стали так помешаны на больших данных и что значат все эти слова?
Почему все молятся на биг дату
Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:
- С ними интересно работать.
- Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
- Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
- Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.
Наука о данных
Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.
Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.
Примеры применения науки о данных:
- Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
- Прогнозируемая аналитика — прогноз спросов и событий.
- Рекомендательные системы — Amazon, Netflix.
- Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
- Социальные исследования — обработка анкет или данных, полученных любым другим способом.

Аналитика
Аналитика — это наука об анализе, применении анализа данных для принятия решений.
Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.
В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.
Анализ данных
Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.
Машинное обучение
Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.
При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.
Примеры алгоритмов:
- Модели, которые могут прогнозировать поведение пользователя.
- Классификационные модели, которые могут узнать и отфильтровать спам.
- Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
- Нейронные сети — не только распознают образы, но и сами могут их создавать.

Отбор данных
Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.
Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.
Конспект
- Чем больше данных, тем сложнее их анализ.
- Наука о данных — это знания о выводимых данных, отбор, подготовка и анализ.
- Машинное обучение применяется для сбора и анализа массивов данных.
- Дата майнинг — это процесс очистки больших данных и подготовки их к последующему анализу.