Перейти к содержимому

Data science сколько учиться

  • автор:

Если бы мне пришлось снова изучать Data Science с нуля, как бы я это сделал теперь?

Пару дней назад я вдруг задумался, если бы мне пришлось заново изучать machine learning и data science, с чего бы я начал? Самое смешное, что путь, который я себе описал, кардинально отличался от того, что было на моем старте в свое время.

Конечно, мы все учимся по-разному. Некоторые предпочитают видео, другие — просто книги, а многим людям необходимо платить за курсы, чтобы чувствовать дополнительную нагрузку и давление. И это нормально, самое важное — учиться и получать удовольствие от этого.

Итак, я разработал путь, который, с моей точки зрения, является наиболее эффективным, в случае, если бы мне пришлось изучать Data Science с нуля.

Как вы видите, мой любимый способ учиться — постепенно переходить от простого к сложному. Это значит начать с практических примеров, а затем перейти к более абстрактным понятиям.

Микро-курсы Kaggle

Я знаю, что начинать с этого вам может показаться странным, и многие предпочли бы начать с самых тяжелых основ и математических видеороликов, чтобы полностью понять, что происходит за каждой моделью ML. Но, с моей точки зрения, начинание с чего-то практичного и конкретного помогает лучше рассмотреть картину в целом.

Кроме того, эти микро-курсы занимают около 4 часов каждый, так что достижение этих маленьких целей заранее добавляет дополнительный мотивационный импульс.

Микро-курсы Kaggle: Python

Если вы знакомы с Python, то можете пропустить эту часть. Здесь вы изучите основные понятия Python, которые помогут вам в освоении Data Science. В Python будет много того, что все еще будет казаться загадкой. Но по мере продвижения вы все узнаете и поймете на практике.

Микро-курсы Kaggle: Pandas

Pandas дадут нам навыки, чтобы начать манипулировать данными в Python. Я считаю, что 4-часового микро-курса и практических примеров достаточно, чтобы иметь представление о том, что можно сделать.

Микро-курсы Kaggle: визуализация данных

Визуализация данных, пожалуй, является одним из наиболее недооцененных навыков, однако она очень важна. Визуализация данных позволит вам полностью понять данные, с которыми вы будете работать.

Микро-курсы Kaggle: введение в machine learning

Здесь начинается самое интересное. Вы будете изучать основные, но очень важные концепции, чтобы начать тренировать модели машинного обучения. Концепции, которые позднее будут предельно необходимы.

Микро-курсы Kaggle: machine learning средний уровень

Это дополнение к предыдущему, но здесь вы впервые будете работать с качественными переменными и иметь дело с нулевыми полями в ваших данных.

Остановимся здесь на минутку. Должно быть ясно, что эти пять микрокурсов не будут линейным процессом, вам, вероятно, придется изучать их параллельно. Когда вы работаете в Pandas, вам, возможно, придется вернуться к курсу Python, чтобы вспомнить некоторые вещи, которые вы изучили, или перейти к документации Pandas, чтобы понять новые функции, которые вы видели в курсе «Введение в машинное обучение». И это отлично, в этом и заключается настоящее обучение.

Теперь, если вы осознаете, что эти первые 5 курсов дадут вам необходимые навыки для проведения анализа данных (EDA) и создания базовых моделей, которые позже вы сможете улучшить, то сейчас самое время начать с простых соревнований Kaggle и применить на практике то, что вы узнали.

Соревнование Kaggle Playground: Титаник

Здесь вы будете применять на практике то, что вы узнали на вводных курсах. Возможно, поначалу это будет немного пугающе, но суть не в том, чтобы быть первым в списке лидеров, а в том, чтобы учиться. В этом конкурсе вы узнаете о классификации и соответствующих метриках для таких типов проблем, как точность, отзыв и достоверность.

Соревнование Kaggle Playground: цены на жилье

В этом конкурсе вы будете применять регрессионные модели и узнавать о соответствующих метриках, таких как RMSE.

К этому моменту у вас уже есть большой практический опыт, и вы почувствуете, что можете решить множество задач, но есть вероятность, что вы не до конца понимаете, что происходит за алгоритмами классификации и регрессии, которые вы использовали. Так что именно здесь мы должны рассмотреть основы того, что мы изучаем.

Многие курсы с этого начинаются — рассмотрения основ, но, по крайней мере, я усваиваю эту информацию лучше, если до этого имел дело с практикой.

Книга: Data Science с нуля

Сейчас мы на мгновение отделимся от Pandas, scikit-learn и других библиотек Python для практического изучения того, что происходит «за» этими алгоритмами.

Эта книга довольно приятна для чтения, в ней приведены примеры Python по каждой из тем, и в ней не так много математики, которая является фундаментальной для этого этапа. Мы хотим понять принцип алгоритмов, но, с практической точки зрения, мы не хотим быть демотивированными, читая множество математических обозначений.

Здесь я приглашаю вас продолжать участвовать в более сложных соревнованиях Kaggle, участвовать в форумах и исследовать новые методы, которые вы найдете в решениях других участников.

Онлайн курс: Машинное обучение от Andrew Ng

Здесь мы встретим многое из того, что уже изучили, но мы увидим, как это объясняет один из лидеров отрасли, и его подход будет более математическим, поэтому он станет отличным способом понять наши модели еще глубже.

Стоимость: бесплатно без сертификата — $ 79 с сертификатом

Книга: элементы статистического обучения

Теперь начинается тяжелая математическая часть. Представьте, что если бы мы начали отсюда, какой нелегкий был бы путь, и мы, вероятно, давно бы сдались.

Цена: $ 60, официальная бесплатная версия на Стэнфордской странице.

Онлайн курс: Deep learning от Andrew Ng

К этому времени вы, наверное, уже сталкивались с глубоким обучением и поиграли с некоторыми моделями. Но здесь мы собираемся изучить основы того, что такое нейронные сети, как они работают, и научиться внедрять и применять различные существующие архитектуры.

Цена: $ 49 / месяц

На данном этапе, многое зависит от ваших собственных интересов, вы можете сосредоточиться на регрессии и проблемах временных рядов или, возможно, углубиться в Deep learning.

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

С. Мальцева, В. Корнилов. НИУ ВШЭ

Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Как узнать, подходит ли вам профессия «Data Scientist»?

Тест на профориентацию

Читайте также

Профессия «Data Mining Specialist»

Краткое описание

Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.

  • Черная пятница в Skillbox: месяц инвестиций в себя!

Черная пятница в Skillbox: месяц инвестиций в себя!
Получи скидку, курс в подарок и гарантию трудоустройства, чтобы стать востребованным специалистом.

Мечтаешь создать свою игру?

Мечтаешь создать свою игру?
Воплоти мечту в реальность вместе с XYZ School!

Массивы больших данных подразделяют на 3 вида:

  • структурированные (например, данные кассовых аппаратов в торговле);
  • полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
  • неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).

Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).

  • Новогодняя акция! Скидки до 60% и «Тайный Санта»

Новогодняя акция! Скидки до 60% и «Тайный Санта»

Всеми любимый «Тайный Санта» здесь: те, кто приобрел у нас курс, получат курс в подарок и смогут подарить мини-курс своему другу.

Яндекс.Практикум, скидки 20%

Яндекс.Практикум, скидки 20%
Приходите учиться любой профессии со скидкой 20% в честь сами знаете чего!

НОВОГОДНЯЯ РАСПРОДАЖА SKILLBOX

НОВОГОДНЯЯ РАСПРОДАЖА SKILLBOX
При покупке курса со скидкой до 60% выберите второй курс в подарок.

Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.

Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей.

Особенности профессии

Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.

Главные задачи Data Scientist´а:

  • извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.

Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.

Что делает Data Scientist

В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:

  1. Выяснить, что нужно заказчику.
  2. Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
  3. Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
  4. Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
  5. Запрограммировать и «натренировать» модель ML.
  6. Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
  7. Внедрить модель в производство/продукт.
  8. Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.

Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.

В работе с данными Data Scientist использует:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • искусственный интеллект для работы с данными;
  • методы проектирования и разработки баз данных.

Разница между Data Scientist и другими Data-специалистами

С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.

Отличие Data Scientist от Business Analyst

Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.

Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.

Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.

Отличие Data Scientist от Data Engineer

Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.

Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.

Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.

Итак, задачи Data-инженера и дата-сайентиста разные:

  • Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
  • Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.

Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.

Плюсы и минусы профессии

Плюсы:

  • Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня.
  • Высокооплачиваемая профессия.
  • Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
  • Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.

Минусы:

  • Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
  • При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
  • Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги.

Место работы

Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:

  • высокотехнологические отрасли производства;
  • наука;
  • IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицина (автоматическая диагностика болезней);
  • финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
  • телекоммуникации;
  • транспорт;
  • крупные торговые сети;
  • сельское хозяйство;
  • страхование;
  • социология.

По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).

Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.

Важные качества

  • Аналитический склад ума.
  • Трудолюбие.
  • Настойчивость.
  • Скрупулёзность, точность, внимательность.
  • Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
  • Коммуникабельность.
  • Умение объяснить сложные вещи простыми словами.
  • Бизнес-интуиция.

Читайте также

Профессия «Big Data Analyst (аналитик больших данных)»

Профессиональные знания и навыки

  • Математика, матанализ, математическая статистика, теория вероятностей.
  • Подготовка данных к анализу с использованием библиотек.
  • Английский язык.
  • Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
  • Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
  • Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
  • Законы развития бизнеса.

Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.

Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.

Обучение на Data Scientist´а

Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:

  • «Прикладная математика и информатика» (01.03.02), профили:
    • «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
    • «Анализ и принятие решений» (НИУ ВШЭ, Москва);
    • «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
    • «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
    • «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
    • «Анализ данных» (МТУСИ, РТУ МИРЭА);
    • «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
    • «Аналитика и управление данными» (РЭУ им. Плеханова).

    С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.

    Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:

    • Machine Learning 101 – канал ML Youtube;
    • YouTube-курс машинного обучения от «ШАД» Яндекса.
    • курсы Udacity;
    • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
    • 6-шаговые курсы Datacamp;
    • обучающие видео O’Reilly;
    • скринкасты для начинающих и продвинутых Data Origami;
    • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
    • соревнования по анализу данных Kaggle.сom.

    Как обучиться Data Science и стать Дата Сайентистом с нуля

    Здравствуйте! В статье расскажем, как обучиться на Data Scientist. Разберемся, кому подойдет профессия, как освоить ее с нуля, где учиться и с чего лучше начинать карьеру в Дата Сайенс.

    Кому подходит профессия

    Обычно специалистами по Data Science становятся по следующим причинам:

    • Есть желание освоить перспективную и высокооплачиваемую профессию.
    • Имеется опыт в смежной отрасли, но хочется перейти в новое, более востребованное направление. Дата Сайентистами часто становятся программисты, маркетологи, финансисты и бизнес-аналитики.
    • В профессиональной деятельности или научных исследованиях необходимо применять инновационные технологии: большие данные, нейросети, искусственный интеллект.

    Для работы в Дата Сайенс нужны навыки программирования и знание математики за рамками школьной программы. Поэтому на старте гуманитариям будет сложнее учиться и работать, чем людям с техническим складом ума или образованием.

    Чтобы стать Data Scientist, потребуется высокая мотивация и определенные личностные качества:

    • Развитое аналитическое и критическое мышление, чтобы выявлять закономерности, а не мнимые связи.
    • Широкий кругозор и любознательность, чтобы понимать, как работают бизнес-процессы.
    • Коммуникабельность, готовность к командной работе, умение налаживать контакты как с коллегами, так и с заказчиками.
    • Усидчивость, высокая работоспособность, целеустремленность, нацеленность на результат.
    • Ответственность, внимательность к деталям.

    Как обучиться Data Science с нуля

    При желании профессию можно освоить с нуля, независимо от возраста или бэкграунда. Более того, некоторые компании готовы брать специалистов без опыта, но с профильным образованием.

    Обучаться можно в государственном учебном заведении или онлайн-школе. Среди вузов, где можно учиться на Data Scientist, стоит отметить МГУ им. Ломоносова, Высшую школу экономики и Санкт-Петербургский государственный университет. Для изучения Дата Сайенс подойдут такие факультеты, как «Прикладная математика и информатика» или «Компьютерные науки и анализ данных».

    Более быстрый и удобный способ стать специалистом по Data Science – пройти онлайн-обучение. Получить новую профессию можно дистанционно в среднем за 1-2 года.

    На нашем сайте собраны лучшие курсы по Data Science на русском языке. С помощью удобного фильтра вы можете подобрать обучающую программу по стоимости, формату занятий, продолжительности, с рассрочкой или скидкой, а также с гарантией трудоустройства.

    Почему стоит выбрать online-курс:

    • Занятия ведут опытные программисты и аналитики, которые объясняют сложный материал, например, теорию вероятности или математический анализ доступным языком с примерами.
    • Записи всех уроков хранятся в личном кабинете. У вас не будет пробелов в знаниях, потому что вебинары можно смотреть неоднократно в любое время. Видео останутся у вас навсегда.
    • После каждой темы есть практическое задание. Задачи постепенно усложняются, и к концу курса вы построите нейросеть или рекомендательную систему. То есть у вас будут готовы проекты для портфолио.
    • Если вы не можете справиться с вопросом самостоятельно, вам поможет куратор. Он укажет на ошибки и даст рекомендации.
    • Многие школы бесплатно помогают с поиском работы, а также приглашают студентов на стажировку, поэтому у вас будет возможность получить опыт в реальном проекте.

    Подборка курсов Все онлайн-курсы по Data Science в 2024 году
    Посмотреть подборку

    Что нужно, чтобы стать Data Scientist

    Расскажем подробнее, какие шаги нужно пройти, чтобы стать специалистом по Data Science:

    1. Изучить математику и линейную алгебру. Если у вас есть знания в рамках школьной программы, можно начать с книг, в которых простым языком разбирают основные понятия: производную, дифференциал, матрицу и пр.
    2. В любой аналитике используется математическая статистика и теория вероятности – это следующие большие темы, с которыми необходимо ознакомиться.
    3. Работа в Дата Сайенс невозможна без знания языков программирования. Новичку подойдет Python – он относительно простой, гибкий и многофункциональный.
    4. Следующий шаг – изучение алгоритмов машинного обучения: «с учителем», «без учителя», «с подкреплением». Вам нужно научиться собирать данные для анализа и визуализировать их.
    5. Разобравшись с теорией, переходите к практике. К примеру, можно поискать должность помощника или стажировку в крупных IT-компаниях.

    Советы и книги для начинающих

    ТОП-5 рекомендаций от экспертов в Data Science для новичков:

    1. Получите качественное профильное образование, если хотите стать профессионалом и работать по специальности. Лучше выбрать одну из ведущих онлайн-школ – вы узнаете максимум полезной информации и закрепите знания на реальных практических кейсах.
    2. Изучайте учебники не только российских, но и зарубежных авторов. Направление относительно новое, поэтому обязательно нужно ознакомиться с работами западных специалистов.
    3. Учите технический английский – без него будет сложно разобраться в терминологии, документации и профессиональной литературе.
    4. Больше практикуйтесь. Например, на платформе Kaggle можно принять участие в соревнованиях среди Дата Сайентистов, а также посмотреть скрипты более опытных участников.
    5. Работайте над своим портфолио. К примеру, про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub.

    Подборка полезных книг для начинающих специалистов по Дата Сайенс:

    • «Наука о данных», Б. Тирни, Д. Келлехер.
    • «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», П. Флах.
    • «Python и анализ данных», У. Маккинни.
    • «Работа с данными в любой сфере», К. Еременко.
    • «Вероятностное программирование на Python: байесовский вывод и алгоритмы», К. Дэвидсон-Пайлон.
    • «Big Data, Data Mining, and Machine Learning», J. Dean.
    • «Data Mining and Analysis: Fundamental Concepts and Algorithms», Mohammed J. Zaki, Wagner Meria Jr.

    Кто такой Data Scientist, чем он занимается и сколько зарабатывает

    Кто такой Data Scientist, чем он занимается и сколько зарабатывает главное изображение

    Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.

    Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:

    • Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
    • Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
    • Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
    • Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.

    Аналитик данных — с нуля до трудоустройства за 9 месяцев

    • Постоянная поддержка от наставника и учебного центра
    • Помощь с трудоустройством
    • Готовое портфолио к концу обучения
    • Практика с первого урока

    Вы получите именно те инструменты и навыки, которые позволят вам найти работу

    Где нужен Data Scientist

    Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.

    В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.

    Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.

    Какие задачи решает Data Scientist: разбираем на примере

    Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.

    Для этого нужно:

    Собрать данные

    Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.

    Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

    Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.

    Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».

    Выбрать модель и подготовить данные

    На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.

    Оценить результат

    Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.

    Чем Data Scientist отличается от Data Analyst и Data Engineer

    В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.

    А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.

    На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:

    Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.

    Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

    Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает

    Что нужно знать и уметь, чтобы стать Data Scientist

    Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.

    Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.

    Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

    Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.

    Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.

    Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.

    Сколько зарабатывает Data Scientist

    Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.

    Junior Data Scientist может зарабатывать до 100 тысяч рублей.

    Специалист со средним опытом — от 170 до 250 тысяч рублей.

    Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

    Плюсы и минусы работы Data Scientist

    Плюсы

    Востребованная профессия

    По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

    Высокая зарплата

    У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.

    Динамичный карьерный рост

    В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.

    Интересная работа

    DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.

    Минусы

    Высокий порог входа

    Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.

    Непонимание со стороны бизнеса

    Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.

    Кто такой Data Scientist и как им стать — итоги

    1. Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
    2. Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
    3. Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
    4. Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.

    Профессия «Аналитик данных»

    • Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
    • Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
    • Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *