Если бы мне пришлось снова изучать Data Science с нуля, как бы я это сделал теперь?
Пару дней назад я вдруг задумался, если бы мне пришлось заново изучать machine learning и data science, с чего бы я начал? Самое смешное, что путь, который я себе описал, кардинально отличался от того, что было на моем старте в свое время.
Конечно, мы все учимся по-разному. Некоторые предпочитают видео, другие — просто книги, а многим людям необходимо платить за курсы, чтобы чувствовать дополнительную нагрузку и давление. И это нормально, самое важное — учиться и получать удовольствие от этого.
Итак, я разработал путь, который, с моей точки зрения, является наиболее эффективным, в случае, если бы мне пришлось изучать Data Science с нуля.

Как вы видите, мой любимый способ учиться — постепенно переходить от простого к сложному. Это значит начать с практических примеров, а затем перейти к более абстрактным понятиям.
Микро-курсы Kaggle
Я знаю, что начинать с этого вам может показаться странным, и многие предпочли бы начать с самых тяжелых основ и математических видеороликов, чтобы полностью понять, что происходит за каждой моделью ML. Но, с моей точки зрения, начинание с чего-то практичного и конкретного помогает лучше рассмотреть картину в целом.
Кроме того, эти микро-курсы занимают около 4 часов каждый, так что достижение этих маленьких целей заранее добавляет дополнительный мотивационный импульс.
Микро-курсы Kaggle: Python
Если вы знакомы с Python, то можете пропустить эту часть. Здесь вы изучите основные понятия Python, которые помогут вам в освоении Data Science. В Python будет много того, что все еще будет казаться загадкой. Но по мере продвижения вы все узнаете и поймете на практике.
Микро-курсы Kaggle: Pandas
Pandas дадут нам навыки, чтобы начать манипулировать данными в Python. Я считаю, что 4-часового микро-курса и практических примеров достаточно, чтобы иметь представление о том, что можно сделать.
Микро-курсы Kaggle: визуализация данных
Визуализация данных, пожалуй, является одним из наиболее недооцененных навыков, однако она очень важна. Визуализация данных позволит вам полностью понять данные, с которыми вы будете работать.
Микро-курсы Kaggle: введение в machine learning
Здесь начинается самое интересное. Вы будете изучать основные, но очень важные концепции, чтобы начать тренировать модели машинного обучения. Концепции, которые позднее будут предельно необходимы.
Микро-курсы Kaggle: machine learning средний уровень
Это дополнение к предыдущему, но здесь вы впервые будете работать с качественными переменными и иметь дело с нулевыми полями в ваших данных.
Остановимся здесь на минутку. Должно быть ясно, что эти пять микрокурсов не будут линейным процессом, вам, вероятно, придется изучать их параллельно. Когда вы работаете в Pandas, вам, возможно, придется вернуться к курсу Python, чтобы вспомнить некоторые вещи, которые вы изучили, или перейти к документации Pandas, чтобы понять новые функции, которые вы видели в курсе «Введение в машинное обучение». И это отлично, в этом и заключается настоящее обучение.
Теперь, если вы осознаете, что эти первые 5 курсов дадут вам необходимые навыки для проведения анализа данных (EDA) и создания базовых моделей, которые позже вы сможете улучшить, то сейчас самое время начать с простых соревнований Kaggle и применить на практике то, что вы узнали.
Соревнование Kaggle Playground: Титаник
Здесь вы будете применять на практике то, что вы узнали на вводных курсах. Возможно, поначалу это будет немного пугающе, но суть не в том, чтобы быть первым в списке лидеров, а в том, чтобы учиться. В этом конкурсе вы узнаете о классификации и соответствующих метриках для таких типов проблем, как точность, отзыв и достоверность.
Соревнование Kaggle Playground: цены на жилье
В этом конкурсе вы будете применять регрессионные модели и узнавать о соответствующих метриках, таких как RMSE.
К этому моменту у вас уже есть большой практический опыт, и вы почувствуете, что можете решить множество задач, но есть вероятность, что вы не до конца понимаете, что происходит за алгоритмами классификации и регрессии, которые вы использовали. Так что именно здесь мы должны рассмотреть основы того, что мы изучаем.
Многие курсы с этого начинаются — рассмотрения основ, но, по крайней мере, я усваиваю эту информацию лучше, если до этого имел дело с практикой.
Книга: Data Science с нуля
Сейчас мы на мгновение отделимся от Pandas, scikit-learn и других библиотек Python для практического изучения того, что происходит «за» этими алгоритмами.
Эта книга довольно приятна для чтения, в ней приведены примеры Python по каждой из тем, и в ней не так много математики, которая является фундаментальной для этого этапа. Мы хотим понять принцип алгоритмов, но, с практической точки зрения, мы не хотим быть демотивированными, читая множество математических обозначений.
Здесь я приглашаю вас продолжать участвовать в более сложных соревнованиях Kaggle, участвовать в форумах и исследовать новые методы, которые вы найдете в решениях других участников.
Онлайн курс: Машинное обучение от Andrew Ng
Здесь мы встретим многое из того, что уже изучили, но мы увидим, как это объясняет один из лидеров отрасли, и его подход будет более математическим, поэтому он станет отличным способом понять наши модели еще глубже.
Стоимость: бесплатно без сертификата — $ 79 с сертификатом
Книга: элементы статистического обучения
Теперь начинается тяжелая математическая часть. Представьте, что если бы мы начали отсюда, какой нелегкий был бы путь, и мы, вероятно, давно бы сдались.
Цена: $ 60, официальная бесплатная версия на Стэнфордской странице.
Онлайн курс: Deep learning от Andrew Ng
К этому времени вы, наверное, уже сталкивались с глубоким обучением и поиграли с некоторыми моделями. Но здесь мы собираемся изучить основы того, что такое нейронные сети, как они работают, и научиться внедрять и применять различные существующие архитектуры.
Цена: $ 49 / месяц
На данном этапе, многое зависит от ваших собственных интересов, вы можете сосредоточиться на регрессии и проблемах временных рядов или, возможно, углубиться в Deep learning.
Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Как узнать, подходит ли вам профессия «Data Scientist»?

Читайте также

Краткое описание
Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.
Черная пятница в Skillbox: месяц инвестиций в себя!
Получи скидку, курс в подарок и гарантию трудоустройства, чтобы стать востребованным специалистом.

Мечтаешь создать свою игру?
Воплоти мечту в реальность вместе с XYZ School!
Массивы больших данных подразделяют на 3 вида:
- структурированные (например, данные кассовых аппаратов в торговле);
- полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
- неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).
Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).
Новогодняя акция! Скидки до 60% и «Тайный Санта»
Всеми любимый «Тайный Санта» здесь: те, кто приобрел у нас курс, получат курс в подарок и смогут подарить мини-курс своему другу.

Яндекс.Практикум, скидки 20%
Приходите учиться любой профессии со скидкой 20% в честь сами знаете чего!

НОВОГОДНЯЯ РАСПРОДАЖА SKILLBOX
При покупке курса со скидкой до 60% выберите второй курс в подарок.
Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.
Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей.
Особенности профессии
Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.
Главные задачи Data Scientist´а:
- извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
- устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.
Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.
Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.
Что делает Data Scientist
В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:
- Выяснить, что нужно заказчику.
- Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
- Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
- Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
- Запрограммировать и «натренировать» модель ML.
- Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
- Внедрить модель в производство/продукт.
- Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.
Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.
В работе с данными Data Scientist использует:
- статистические методы;
- моделирование баз данных;
- методы интеллектуального анализа;
- искусственный интеллект для работы с данными;
- методы проектирования и разработки баз данных.
Разница между Data Scientist и другими Data-специалистами
С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.
Отличие Data Scientist от Business Analyst
Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.
Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.
Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.
Отличие Data Scientist от Data Engineer
Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.
Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.
Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.
Итак, задачи Data-инженера и дата-сайентиста разные:
- Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
- Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.
Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.
Плюсы и минусы профессии
Плюсы:
- Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня.
- Высокооплачиваемая профессия.
- Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
- Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.
Минусы:
- Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
- При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
- Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги.
Место работы
Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:
- высокотехнологические отрасли производства;
- наука;
- IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
- медицина (автоматическая диагностика болезней);
- финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
- телекоммуникации;
- транспорт;
- крупные торговые сети;
- сельское хозяйство;
- страхование;
- социология.
По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).
Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.
Важные качества
- Аналитический склад ума.
- Трудолюбие.
- Настойчивость.
- Скрупулёзность, точность, внимательность.
- Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
- Коммуникабельность.
- Умение объяснить сложные вещи простыми словами.
- Бизнес-интуиция.
Читайте также

Профессиональные знания и навыки
- Математика, матанализ, математическая статистика, теория вероятностей.
- Подготовка данных к анализу с использованием библиотек.
- Английский язык.
- Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
- Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
- Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
- Законы развития бизнеса.
Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.
Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.
Обучение на Data Scientist´а
Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:
- «Прикладная математика и информатика» (01.03.02), профили:
- «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
- «Анализ и принятие решений» (НИУ ВШЭ, Москва);
- «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
- «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
- «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
- «Анализ данных» (МТУСИ, РТУ МИРЭА);
- «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
- «Аналитика и управление данными» (РЭУ им. Плеханова).
С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.
Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:
- Machine Learning 101 – канал ML Youtube;
- YouTube-курс машинного обучения от «ШАД» Яндекса.
- курсы Udacity;
- курсы Dataquest, на которых можно стать настоящим профи в Data Science;
- 6-шаговые курсы Datacamp;
- обучающие видео O’Reilly;
- скринкасты для начинающих и продвинутых Data Origami;
- ежеквартальная конференция специалистов Moskow Data Scients Meetup;
- соревнования по анализу данных Kaggle.сom.
Как обучиться Data Science и стать Дата Сайентистом с нуля
Здравствуйте! В статье расскажем, как обучиться на Data Scientist. Разберемся, кому подойдет профессия, как освоить ее с нуля, где учиться и с чего лучше начинать карьеру в Дата Сайенс.
Кому подходит профессия
Обычно специалистами по Data Science становятся по следующим причинам:
- Есть желание освоить перспективную и высокооплачиваемую профессию.
- Имеется опыт в смежной отрасли, но хочется перейти в новое, более востребованное направление. Дата Сайентистами часто становятся программисты, маркетологи, финансисты и бизнес-аналитики.
- В профессиональной деятельности или научных исследованиях необходимо применять инновационные технологии: большие данные, нейросети, искусственный интеллект.
Для работы в Дата Сайенс нужны навыки программирования и знание математики за рамками школьной программы. Поэтому на старте гуманитариям будет сложнее учиться и работать, чем людям с техническим складом ума или образованием.
Чтобы стать Data Scientist, потребуется высокая мотивация и определенные личностные качества:
- Развитое аналитическое и критическое мышление, чтобы выявлять закономерности, а не мнимые связи.
- Широкий кругозор и любознательность, чтобы понимать, как работают бизнес-процессы.
- Коммуникабельность, готовность к командной работе, умение налаживать контакты как с коллегами, так и с заказчиками.
- Усидчивость, высокая работоспособность, целеустремленность, нацеленность на результат.
- Ответственность, внимательность к деталям.
Как обучиться Data Science с нуля
При желании профессию можно освоить с нуля, независимо от возраста или бэкграунда. Более того, некоторые компании готовы брать специалистов без опыта, но с профильным образованием.
Обучаться можно в государственном учебном заведении или онлайн-школе. Среди вузов, где можно учиться на Data Scientist, стоит отметить МГУ им. Ломоносова, Высшую школу экономики и Санкт-Петербургский государственный университет. Для изучения Дата Сайенс подойдут такие факультеты, как «Прикладная математика и информатика» или «Компьютерные науки и анализ данных».
Более быстрый и удобный способ стать специалистом по Data Science – пройти онлайн-обучение. Получить новую профессию можно дистанционно в среднем за 1-2 года.
На нашем сайте собраны лучшие курсы по Data Science на русском языке. С помощью удобного фильтра вы можете подобрать обучающую программу по стоимости, формату занятий, продолжительности, с рассрочкой или скидкой, а также с гарантией трудоустройства.
Почему стоит выбрать online-курс:
- Занятия ведут опытные программисты и аналитики, которые объясняют сложный материал, например, теорию вероятности или математический анализ доступным языком с примерами.
- Записи всех уроков хранятся в личном кабинете. У вас не будет пробелов в знаниях, потому что вебинары можно смотреть неоднократно в любое время. Видео останутся у вас навсегда.
- После каждой темы есть практическое задание. Задачи постепенно усложняются, и к концу курса вы построите нейросеть или рекомендательную систему. То есть у вас будут готовы проекты для портфолио.
- Если вы не можете справиться с вопросом самостоятельно, вам поможет куратор. Он укажет на ошибки и даст рекомендации.
- Многие школы бесплатно помогают с поиском работы, а также приглашают студентов на стажировку, поэтому у вас будет возможность получить опыт в реальном проекте.
Подборка курсов Все онлайн-курсы по Data Science в 2024 году
Посмотреть подборкуЧто нужно, чтобы стать Data Scientist
Расскажем подробнее, какие шаги нужно пройти, чтобы стать специалистом по Data Science:
- Изучить математику и линейную алгебру. Если у вас есть знания в рамках школьной программы, можно начать с книг, в которых простым языком разбирают основные понятия: производную, дифференциал, матрицу и пр.
- В любой аналитике используется математическая статистика и теория вероятности – это следующие большие темы, с которыми необходимо ознакомиться.
- Работа в Дата Сайенс невозможна без знания языков программирования. Новичку подойдет Python – он относительно простой, гибкий и многофункциональный.
- Следующий шаг – изучение алгоритмов машинного обучения: «с учителем», «без учителя», «с подкреплением». Вам нужно научиться собирать данные для анализа и визуализировать их.
- Разобравшись с теорией, переходите к практике. К примеру, можно поискать должность помощника или стажировку в крупных IT-компаниях.
Советы и книги для начинающих
ТОП-5 рекомендаций от экспертов в Data Science для новичков:
- Получите качественное профильное образование, если хотите стать профессионалом и работать по специальности. Лучше выбрать одну из ведущих онлайн-школ – вы узнаете максимум полезной информации и закрепите знания на реальных практических кейсах.
- Изучайте учебники не только российских, но и зарубежных авторов. Направление относительно новое, поэтому обязательно нужно ознакомиться с работами западных специалистов.
- Учите технический английский – без него будет сложно разобраться в терминологии, документации и профессиональной литературе.
- Больше практикуйтесь. Например, на платформе Kaggle можно принять участие в соревнованиях среди Дата Сайентистов, а также посмотреть скрипты более опытных участников.
- Работайте над своим портфолио. К примеру, программы анализа данных можно публиковать на GitHub.
Подборка полезных книг для начинающих специалистов по Дата Сайенс:
- «Наука о данных», Б. Тирни, Д. Келлехер.
- «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», П. Флах.
- «Python и анализ данных», У. Маккинни.
- «Работа с данными в любой сфере», К. Еременко.
- «Вероятностное программирование на Python: байесовский вывод и алгоритмы», К. Дэвидсон-Пайлон.
- «Big Data, Data Mining, and Machine Learning», J. Dean.
- «Data Mining and Analysis: Fundamental Concepts and Algorithms», Mohammed J. Zaki, Wagner Meria Jr.
Кто такой Data Scientist, чем он занимается и сколько зарабатывает

Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.
Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:
- Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
- Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
- Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
- Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.
Аналитик данных — с нуля до трудоустройства за 9 месяцев
- Постоянная поддержка от наставника и учебного центра
- Помощь с трудоустройством
- Готовое портфолио к концу обучения
- Практика с первого урока
Вы получите именно те инструменты и навыки, которые позволят вам найти работу
Где нужен Data Scientist
Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.
В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.
Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.
Какие задачи решает Data Scientist: разбираем на примере
Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.
Для этого нужно:
Собрать данные
Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.
Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.
Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».
Выбрать модель и подготовить данные
На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.
Оценить результат
Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.
Чем Data Scientist отличается от Data Analyst и Data Engineer
В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.
А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.
На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:
Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.
Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает
Что нужно знать и уметь, чтобы стать Data Scientist
Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.
Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.
Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.
Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.
Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.
Сколько зарабатывает Data Scientist
Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.
Junior Data Scientist может зарабатывать до 100 тысяч рублей.

Специалист со средним опытом — от 170 до 250 тысяч рублей.

Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

Плюсы и минусы работы Data Scientist
Плюсы
Востребованная профессия
По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

Высокая зарплата
У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.
Динамичный карьерный рост
В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.
Интересная работа
DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.
Минусы
Высокий порог входа
Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.
Непонимание со стороны бизнеса
Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.
Кто такой Data Scientist и как им стать — итоги
- Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
- Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
- Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
- Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.
Профессия «Аналитик данных»
- Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
- Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
- Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python