Если бы мне пришлось снова изучать Data Science с нуля, как бы я это сделал теперь?
Пару дней назад я вдруг задумался, если бы мне пришлось заново изучать machine learning и data science, с чего бы я начал? Самое смешное, что путь, который я себе описал, кардинально отличался от того, что было на моем старте в свое время.
Конечно, мы все учимся по-разному. Некоторые предпочитают видео, другие — просто книги, а многим людям необходимо платить за курсы, чтобы чувствовать дополнительную нагрузку и давление. И это нормально, самое важное — учиться и получать удовольствие от этого.
Итак, я разработал путь, который, с моей точки зрения, является наиболее эффективным, в случае, если бы мне пришлось изучать Data Science с нуля.

Как вы видите, мой любимый способ учиться — постепенно переходить от простого к сложному. Это значит начать с практических примеров, а затем перейти к более абстрактным понятиям.
Микро-курсы Kaggle
Я знаю, что начинать с этого вам может показаться странным, и многие предпочли бы начать с самых тяжелых основ и математических видеороликов, чтобы полностью понять, что происходит за каждой моделью ML. Но, с моей точки зрения, начинание с чего-то практичного и конкретного помогает лучше рассмотреть картину в целом.
Кроме того, эти микро-курсы занимают около 4 часов каждый, так что достижение этих маленьких целей заранее добавляет дополнительный мотивационный импульс.
Микро-курсы Kaggle: Python
Если вы знакомы с Python, то можете пропустить эту часть. Здесь вы изучите основные понятия Python, которые помогут вам в освоении Data Science. В Python будет много того, что все еще будет казаться загадкой. Но по мере продвижения вы все узнаете и поймете на практике.
Микро-курсы Kaggle: Pandas
Pandas дадут нам навыки, чтобы начать манипулировать данными в Python. Я считаю, что 4-часового микро-курса и практических примеров достаточно, чтобы иметь представление о том, что можно сделать.
Микро-курсы Kaggle: визуализация данных
Визуализация данных, пожалуй, является одним из наиболее недооцененных навыков, однако она очень важна. Визуализация данных позволит вам полностью понять данные, с которыми вы будете работать.
Микро-курсы Kaggle: введение в machine learning
Здесь начинается самое интересное. Вы будете изучать основные, но очень важные концепции, чтобы начать тренировать модели машинного обучения. Концепции, которые позднее будут предельно необходимы.
Микро-курсы Kaggle: machine learning средний уровень
Это дополнение к предыдущему, но здесь вы впервые будете работать с качественными переменными и иметь дело с нулевыми полями в ваших данных.
Остановимся здесь на минутку. Должно быть ясно, что эти пять микрокурсов не будут линейным процессом, вам, вероятно, придется изучать их параллельно. Когда вы работаете в Pandas, вам, возможно, придется вернуться к курсу Python, чтобы вспомнить некоторые вещи, которые вы изучили, или перейти к документации Pandas, чтобы понять новые функции, которые вы видели в курсе «Введение в машинное обучение». И это отлично, в этом и заключается настоящее обучение.
Теперь, если вы осознаете, что эти первые 5 курсов дадут вам необходимые навыки для проведения анализа данных (EDA) и создания базовых моделей, которые позже вы сможете улучшить, то сейчас самое время начать с простых соревнований Kaggle и применить на практике то, что вы узнали.
Соревнование Kaggle Playground: Титаник
Здесь вы будете применять на практике то, что вы узнали на вводных курсах. Возможно, поначалу это будет немного пугающе, но суть не в том, чтобы быть первым в списке лидеров, а в том, чтобы учиться. В этом конкурсе вы узнаете о классификации и соответствующих метриках для таких типов проблем, как точность, отзыв и достоверность.
Соревнование Kaggle Playground: цены на жилье
В этом конкурсе вы будете применять регрессионные модели и узнавать о соответствующих метриках, таких как RMSE.
К этому моменту у вас уже есть большой практический опыт, и вы почувствуете, что можете решить множество задач, но есть вероятность, что вы не до конца понимаете, что происходит за алгоритмами классификации и регрессии, которые вы использовали. Так что именно здесь мы должны рассмотреть основы того, что мы изучаем.
Многие курсы с этого начинаются — рассмотрения основ, но, по крайней мере, я усваиваю эту информацию лучше, если до этого имел дело с практикой.
Книга: Data Science с нуля
Сейчас мы на мгновение отделимся от Pandas, scikit-learn и других библиотек Python для практического изучения того, что происходит «за» этими алгоритмами.
Эта книга довольно приятна для чтения, в ней приведены примеры Python по каждой из тем, и в ней не так много математики, которая является фундаментальной для этого этапа. Мы хотим понять принцип алгоритмов, но, с практической точки зрения, мы не хотим быть демотивированными, читая множество математических обозначений.
Здесь я приглашаю вас продолжать участвовать в более сложных соревнованиях Kaggle, участвовать в форумах и исследовать новые методы, которые вы найдете в решениях других участников.
Онлайн курс: Машинное обучение от Andrew Ng
Здесь мы встретим многое из того, что уже изучили, но мы увидим, как это объясняет один из лидеров отрасли, и его подход будет более математическим, поэтому он станет отличным способом понять наши модели еще глубже.
Стоимость: бесплатно без сертификата — $ 79 с сертификатом
Книга: элементы статистического обучения
Теперь начинается тяжелая математическая часть. Представьте, что если бы мы начали отсюда, какой нелегкий был бы путь, и мы, вероятно, давно бы сдались.
Цена: $ 60, официальная бесплатная версия на Стэнфордской странице.
Онлайн курс: Deep learning от Andrew Ng
К этому времени вы, наверное, уже сталкивались с глубоким обучением и поиграли с некоторыми моделями. Но здесь мы собираемся изучить основы того, что такое нейронные сети, как они работают, и научиться внедрять и применять различные существующие архитектуры.
Цена: $ 49 / месяц
На данном этапе, многое зависит от ваших собственных интересов, вы можете сосредоточиться на регрессии и проблемах временных рядов или, возможно, углубиться в Deep learning.
Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги
Меня зовут Айра, я веду блог про математику, продукты и ML в Instagram, делаю проекты в DS/ML, а также курсы по созданию ML-проектов. От своей аудитории блога и знакомых часто получаю вопросы в духе «Cтоит ли тратить деньги на тот или иной дорогой курс с codename «Стань DS за два месяца» или все же выучиться на дата-саентиста самостоятельно и бесплатно, и в таком случае, с чего начать?»
Недавно собрала ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.
— Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.
— Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.
— В-третьих, начну с рекордно короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем:
С чего советую начать, чтобы тратить время эффективно?
Предполагая, что начинающий дата-саентист уже прошел подготовительные курсы а-ля гарвардский CS50 по основам программирования, pythontutor.ru или курс на Stepik от Института Биоинформатики, посоветую несколько шагов, которые должны стать твердой базой. Далее ссылки все полные, чтобы было легче копировать:
- Зарегистрироваться в самом популярном в СНГ профессиональном slack-сообществе Open Data Science ODS.ai, вступить в как можно больше чатов, в том числе про менторство, обучение и карьеру и общаться с местными, чтобы расширить свой кругозор относительно работодателей, требований к прохождению интервью, к позиции и их различиях в разных компаниях и др, найти хороших наставников, тк. такие в сообществе есть!
- Пройти вводный курс «Математика и Python для анализа данных» на Coursera — платный, недорогой и хороший. www.coursera.org/learn/mathematics-and-python
- По программированию — пройти в leetcode.com все релевантные упражнения: это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).
- Пройти mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.
- Для обучения решению разнообразных задач и оптимизации кода — участвовать в соревнованиях по анализу данных и машинному обучению на платформе kaggle.com.
Математика для DS/ML
- Приятный курс Стэнфорда по DS «Introduction to Statistics» www.coursera.org/learn/stanford-statistics
- Коротенький интерактивный курс по теории вероятностей и математической статистике «Seeing Theory» seeing-theory.brown.edu/
- Хороший вводный курс по математике для анализа данных, более объёмный «Специализация Математика для анализа данных:. Можно послушать только интересную тему: дискретная математика / линейная алгебра / математический анализ / теория вероятностей. www.coursera.org/specializations/maths-for-data-analysis
- Довольно подробная и читаемая книга по теорверу и матстату «Dekking, A Modern Introduction to Probability and Statistics» cis.temple.edu/~latecki/Courses/CIS2033-Spring13/Modern_intro_probability_statistics_Dekking05.pdf
Python&SQL для DS/ML
- Упомянутый выше бесплатный тренажер по Python с нуля: pythontutor.ru/
- Отличный курс по инструментам по DS от IBM «Специализация Data Science Fundamentals with Python and SQL» www.coursera.org/specializations/data-science-fundamentals-python-sql
- Упомянутый выше русский курс по питону и математике (платный, недорогой и хороший) «Математика и Python для анализа данных (Coursera)» www.coursera.org/learn/mathematics-and-python
- Упомянутый выше https://leetcode.com/: пройти все релевантные упражнения, это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).
Начальные курсы по ML
- Как бы этот курс не ругали из-за устаревшего языка программирования Octave (на котором пишут на Matlab), на мой вкус — это пока что самый простой и понятный курс по ML. Машинное обучение (Coursera) https://www.coursera.org/learn/machine-learning — стэнфордский курс по машинному обучению от Andrew Ng
- mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.
Более продвинутые курсы по ML
- Если хочется погрузиться в математические доказательства методов машинного обучения, то есть прекрасные ШАДовские лекции К.В. Воронцова: плейлист «Курс «Машинное обучение» 2019” на YouTube-канале “Компьютерные науки», www.youtube.com/watc? v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK&index=2
- Также хорош ежегодный гарвардский курс «Advanced Topics in Data Science CS109B». harvard-iacs.github.io/2020-CS109B/
- Или курс по углубленным алгоритмам Advanced ML от ВШЭ: «Специализация Продвинутое машинное обучение» www.coursera.org/specializations/aml
Deep learning
(Мне кажется, можно пройти один курс из списка, а остальные смотреть на предмет дополнений)
- Рекомендованный Стэнфордовский курс по DL «CS231n: Convolutional Neural Networks for Visual Recognition» cs231n.github.io/
- Хороший курс от Университета Карнеги—Меллон «11-785 Introduction to Deep Learning» deeplearning.cs.cmu.edu/F21/index.html
- Курс от MIT: «Practical Deep Learning for Coders» https://course.fast.ai/
- ШАДовский курс по глубокому обучению доступен в github: «Practical_DL» github.com/yandexdataschool/Practical_DL
- Бесплатные классные курсы от МФТИ: dlschool.org/
- Также есть курс по DL у ODS.ai, который тоже советуют проходить в самом сообществе: «Deep Learning на пальцах» dlcourse.ai/
- А еще есть курс у Samsung AI Research Center на Stepik.org stepik.org/course/50352/info
Natural Language Processing
- Стэнфордовский «CS224n: Natural Language Processing with Deep Learning » web.stanford.edu/class/cs224n/
- ШАДовский «NLP Course (Lena Voita, Github)» lena-voita.github.io/nlp_course.html
- Оксфордовский «DL for NLP», правда 2016-2017 г www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/
- Второй курс у Samsung AI Research Center на Stepik.org https://stepik.org/course/54098/promo
Reinforcement Learning & Self-driving cars
- ШАДовский «Practical RL»: github.com/yandexdataschool/Practical_RL
- От Deepmind «RL Course by David Silver» www.youtube.com/watc? v=2pWv7GOvuf0
- Курс от ETH & Toyota: «Self-Driving Cars with Duckietown» www.edx.org/course/self-driving-cars-with-duckietown
- Выгруженные лекции курса Udacity courseclub.me/1-udacity-intro-to-self-driving-cars-v1-0-0/
- Австралийский курс StarAi «Deep Reinforcement Learning Course » www.starai.io/course/
Data Engineering & MLOps
- Cookbook на Github.com github.com/andkret/Cookbook
- Бесплатный курс по DE от Дмитрия Аношина, дата-инженера из Microsoft, ex-Amazon: Getting start with Data Engineering and Analytics https://datalearn.ru/ (курс готовится in progress)
Соревнования
Ну, и для обучения решению разнообразных задач и оптимизации кода — участвуйте в Kaggle. https://kaggle.com/
Кроме Kaggle, есть еще несколько соревнований:
- По RL от AWS: AWS DeepRacer https://aws.amazon.com/deepracer/
- Crowdsourcing AI (Alcrowd) https://www.aicrowd.com/
- По RL от MIT: Battlecode https://battlecode.org/
- По RL от open.ai: Gym https://gym.openai.com/
- От Mail.Ru Group: AI Cup https://russianaicup.ru/
- От Yandex: Yandex Cup ML Challenge https://yandex.com/cup/ml/
- CodeCup https://www.codecup.nl/intro.php
Подписывайтесь на мой блог, если было полезно.
Успехов в самостоятельной подготовке!
Data Science с нуля: подробный гайд для начинающих
Можно ли освоить Data Science с нуля самостоятельно? Спойлер: да. Мы составили гайд с полезной информацией и материалами для самостоятельного изучения.
Можно ли погрузиться в мир данных, самостоятельно освоив Data Science с нуля? Спойлер: да. В этом материале мы вместе с Факультетом Искусственного интеллекта GeekUniversity расскажем о навыках и дисциплинах, которые необходимо освоить на пути к карьере Data Scientist.
Чем отличаются Artificial Intelligence, Machine Learning, Deep Learning и Data Science?
Искусственный интеллект фокусируется на создании технологий, которые действуют и реагируют, как человеческий разум. В большинстве областей ИИ всё ещё не может полностью заменить человека.
Машинное обучение — техника, позволяющая смоделировать определённое поведение, основываясь на данных (например обучение нейронной сети, чтобы та могла отличать кошек от собак по фотографиям).
Глубокое обучение нейронных сетей — это создание многослойных нейронных сетей в областях, где требуется более продвинутый анализ, и традиционное машинное обучение с ним не справляется.
Наука о данных — сбор, визуализация и обработка данных, а также принятие решений на их основе.
Чем занимается Data Scientist?
В Data Science обучении стоит отталкиваться от задач, поставленных перед специалистом. При этом задачи Data Scientist могут отличаться в зависимости от сферы деятельности компании. Вот несколько примеров:
- обнаружение аномалий — например нестандартных действий с банковской картой, мошенничества;
- анализ и прогнозирование — показатели эффективности, качество рекламных кампаний;
- системы баллов и оценок — обработка больших объёмов данных для принятия решения, например, о выдаче кредита;
- базовое взаимодействие с клиентом — автоматические ответы в чатах, голосовые помощники, сортировка писем по папкам.
Но для любой из вышеперечисленных задач всегда нужно выполнять примерно одни и те же шаги:
- Сбор данных — поиск источников и способов получения информации, а также сам процесс сбора.
- Проверка — валидация, удаление аномалий.
- Анализ — изучение данных, построение предположений, выводов.
- Визуализация — приведение данных в вид, понятный для человека (графики и диаграммы).
- Результат — принятие решений на основе анализируемых данных, например об изменении маркетинговой стратегии или увеличении бюджета на какую-либо деятельность компании.
Что нужно знать?
Несмотря на то, что знать нужно довольно много, сейчас есть огромное число онлайн-курсов и книг, которые помогут получить нужные навыки гораздо быстрее.
Статистика, математика, линейная алгебра
Вам понадобится изучить фундаментальный курс по теории вероятностей, математический анализ, линейную алгебру и математическую статистику. Математические знания важны, чтобы уметь анализировать результаты применения алгоритмов обработки данных.
Книги по теме:
- «Практическая статистика для специалистов Data Science», П. Брюс, Э. Брюс — подойдёт тем, кто уже имеет начальные знания в статистике;
- «Наука о данных с нуля», Дж. Грас — книга для быстрого погружения в профессию, охватывающая большинство необходимых дисциплин;
- «Нейронные сети. Полный курс», С. Хайкин — материал, раскрывающий математическую составляющую нейросетей.
Машинное обучение
Машинное обучение позволяет научить компьютеры самостоятельно принимать решения, чтобы автоматизировать выполнение определённых задач. По этой причине МО применяется во многих областях, среди которых есть и наука о данных.
Чтобы освоить Data Science с нуля, первым делом нужно изучить три основных раздела машинного обучения:
- Обучение с учителем (Supervised Learning)
Позволяет спрогнозировать результат по заранее размеченным данным. Если нужно предсказать несколько значений (например отличить фотографии машин от самолётов и поездов), то это задача классификации, если одно (скажем, предположить цену квартиры в зависимости от её характеристик) — задача регрессии. - Обучение без учителя (Unsupervised learning)
Здесь входные данные не размечены, то есть ни результат, ни способ обработки данных не известны заранее. В пример можно привести поиск аномалий — необычных транзакций по кредитной карте, ошибочных показаний датчиков и тому подобное. - Обучение с подкреплением (Reinforcement learning)
Исходные данные тоже не размечены, но при каждом действии нейросеть получает стимул — положительный или отрицательный. По такому принципу ИИ учат играть в компьютерные игры, например в Dota 2 и Starcraft II.
Книги по теме
- «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» П. Флах — книга о методах построения моделей и алгоритмах МО.
- «Вероятностное программирование на Python: байесовский вывод и алгоритмы», К. Дэвидсон-Пайлон — рассказывает об алгоритмах обработки данных и развивает аналитические навыки.
- «Введение в машинное обучение с помощью Python», А. Мюллер, С. Гвидо — книга для оттачивания практических навыков машинного обучения.
Что нужно уметь?
Программировать на Python
Большим преимуществом будет знание основ программирования. Но это довольно обширная и сложная область, и чтобы немного упростить её изучение, можно сосредоточиться на одном языке. Python идеально подходит начинающим — у него относительно простой синтаксис, он многофункциональный и часто используется для обработки данных.
Книги по теме:
- «Python для сложных задач. Наука о данных и машинное обучение», Дж. Вандер Плас — руководство по статистическим и аналитическим методам обработки данных;
- «Python и анализ данных», Уэс Маккинни — пособие по применению Python в науке о данных;
- «Автоматизация рутинных задач с помощью Python», Эл Свейгарт — книга даёт хорошие практические основы для начинающих.
- «Изучаем Python», М. Лутц — учебник с практическим подходом, который подойдёт как новичкам, так и разработчикам с опытом.
После того, как вы изучите основы Python, можете ознакомиться с библиотеками для Дата Сайнс.
Машинное обучение и глубокое обучение:
- SciKit-Learn
- TensorFlow
- Theano
- Keras
Обработка естественного языка:
Собирать данные
Data Mining — важный аналитический процесс, предназначенный для исследования данных. Он позволяет находить скрытые паттерны, чтобы получить ранее неизвестную полезную информацию, необходимую для принятия каких-либо решений. Сюда же входит визуализация данных — представление информации в понятном графическом виде.
Книги по теме:
- «Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP» В.В. Степаненко, И.И. Холод — описание методов обработки данных с примерами;
- «Data mining. Извлечение информации из Twitter, LinkedIn, GitHub», М. Рассел. М. Классен — книга, которая учит практическим приёмам анализа данных на примере популярных соцсетей.
Хорошая стратегия — получить базу по Data Science в онлайн-университете, а потом решать более сложные практические задачи на стажировке в компании.
Что дальше?
После того, как вы изучите основы и пройдёте всевозможные Data Science курсы, попробуйте свои силы в открытых проектах или соревнованиях, а затем начинайте искать работу.
Как вы уже поняли, изучение Data Science с нуля — это не только теория. Для практического опыта хорошо подойдёт Kaggle — веб-сайт, где постоянно проводятся соревнования по анализу данных, в которых принимают участие все желающие. Также есть много открытых наборов данных — можете анализировать их и публиковать свои результаты. Также изучайте на Kaggle работы других участников и учитесь на чужом опыте.
Чтобы подтвердить свою квалификацию, зарабатывайте баллы за участие в соревнованиях Kaggle и публикуйте свои проекты на GitHub. Главное — не прекращать обучение и получать удовольствие от того, что вы делаете.
Как начать карьеру в Data Science: пошаговый план
Чем занимается Data Scientist? Преимущества работы в Data Science Как начать карьеру в Data Science с нуля? Какие требования предъявляют к специалистам по Data Science? Какие навыки важны для Data Scientist? Карьерные перспективы
Данные — это «новая валюта» в современном мире бизнеса и технологий. Поэтому компании заинтересованы в профессионалах, которые умеют преобразовывать сырые данные в реально работающие идеи. К таким можно отнести специалистов по Data Science — быстрорастущему и востребованному направлению в сфере IT и не только. Data Science предлагает множество возможностей в разработке новейших алгоритмов, определении запросов потребителей, внедрении мощных стратегий, основанных на данных.
Чем занимается Data Scientist?
- Анализ и интерпретация данных с помощью статистических и аналитических методов и инструментов для того, чтобы извлечь из них ценную информацию.
- Сбор и очистка данных для дальнейшего анализа.
- Представление сложных наборов данных с помощью визуальных инструментов таким образом, чтобы они были доступны и понятны для заинтересованных лиц, а также подготовка подробных отчетов.
- Постоянное обучение и профессиональное развитие: профессионалы в этой области должны быть в курсе актуальных тенденций, учитывать быстрое развитие технологий.
- Поддержка принятия важных бизнес-решений с использованием данных.
- Создание и тестирование моделей для прогнозирования.
Преимущества работы в Data Science
- Специалисты по Data Science востребованы, и в ближайшее время ситуация вряд ли изменится.
- Большой вклад в развитие разных сфер: например, ваша работа может помочь в оптимизации маршрутов доставки, выявлении ранних стадий злокачественых опухолей, борьбе с мошенничеством и т. д.
- Знания о данных можно эффективно применять практически в любой организации.
- Это отличная возможность для профессионального роста и приобретения новых знаний и навыков.
- Вы будете регулярно общаться с экспертами из различных областей, обмениваться точками зрения, знаниями и идеями.
- Гибкие условия работы: во многих компаниях можно работать удаленно, что позволяет найти оптимальный баланс между работой и личной жизнью.
- Перспективы для организации собственного бизнеса в будущем с учетом накопленного опыта.

Как начать карьеру в Data Science с нуля?
1. Пройдите курс по Data Science
Курсы для новичков могут стать первым шагом ко входу в профессию. Они обычно охватывают основы статистики, программирования и аналитики и помогают разобраться в базовых понятиях и методах. Дополнительным источником знаний могут стать книги, специализированные сайты и прочие ресурсы для самообучения.
2. Изучите инструменты визуализации и отчетности
Визуализация информации важна для выявления закономерностей, трендов и аномалий в данных. Вы также должны уметь структурировать и эффективно предоставлять результаты в отчетах — все это позволяет просто и наглядно доносить сложные идеи заинтересованным лицам. Здесь будут полезными такие аналитические системы, как Tableau и Power BI, а также библиотеки программирования, например, Matplotlib или Seaborn в Python.
3. Совершенствуйте навыки машинного обучения
Изучайте различные алгоритмы машинного обучения, чтобы научиться выбирать подходящий в зависимости от поставленых задач и целей. Это поможет создавать эффективные модели прогнозирования и автоматизировать многие операции.
4. Научитесь программировать
Владение языками программирования, такими как Python или R, необходимо как минимум для того, чтобы писать скрипты для обработки данных. Это упрощает процесс сбора, очистки и анализа информации.
5. Научитесь работать с big data и базами данных
В эпоху big data умение работать с большими объемами данных — огромный плюс. Ознакомьтесь с платформами Hadoop и Spark и изучите системы управления базами данных PostgreSQL, NoSQL и MySQL.
6. Ищите стажировки
Активно ищите стажировки или вакансии начального уровня для Data Scientist, чтобы получить практический опыт на реальных проектах.
7. Подготовьтесь к собеседованию
Заранее поищите стандартные вопросы, связанные со статистикой, программированием, машинным обучением и решением проблем, и потренируйтесь уверенно отвечать на них. Тщательная подготовка к собеседованию поможет показать ваши знания и навыки и произвести впечатление на потенциального нанимателя.
8. Стройте профессиональную сеть
Общайтесь с экспертами на тематических конференциях и в онлайн-сообществах, таких как LinkedIn или GitHub. Построение профессиональной сети позволяет быть в курсе последних тенденций в сфере и получать ценные советы от опытных коллег. Это также открывает потенциальные возможности трудоустройства и совместных проектов.
9. Создайте портфолио
Уделите время составлению портфолио с вашими проектами. Хорошо составленное портфолио продемонстрирует ваши практические навыки и способности в решении задач.

Какие требования предъявляют к специалистам по Data Science?
Требования могут различаться в зависимости от позиции, отрасли и компании, однако в большинстве случаев обязательно наличие релевантного образования, например степень бакалавра в математике, статистике или информатике, иногда может подойти степень в области инженерии, экономики или физических наук.
Не всегда образование становится решающим фактором о приеме на работу, но зачастую диплом признанного учебного заведения может предоставить конкурентное преимущество.
Для тех, кто сменил профессию или только начинает путь в Data Science, полезными будут различные курсы и профессиональные сертификации, например, Certified Analytics Professional (CAP).
Какие навыки важны для Data Scientist?
- статистический анализ,
- программирование,
- очистка и предварительная обработка данных,
- машинное обучение и искусственный интеллект,
- технологии big data,
- визуализация,
- решение проблем,
- data mining (интеллектуальный анализ данных),
- эффективная коммуникация,
- работа в команде.
Карьерные перспективы
Карьерные возможности в Data Science огромны и охватывают множество направлений. Вы можете работать исследователем искусственного интеллекта, продакт-менеджером, количественным аналитиком, бизнес- или дата-аналитиком, статистиком или заниматься наукой.
Вне зависимости от специализации дата-сайентисты могут применять свои знания и навыки в различных отраслях, таких как здравоохранение, технологии, финансы и многих других.
Получай новости и актуальные материалы от Anywhere Club
Подписываясь, ты соглашаешься получать рассылку от Anywhere Club и партнеров клуба, а еще принимаешь политику конфиденциальности.
Добавляй посты в избранное
Кликни рядом с постом, чтобы сохранить его. Cохраненные материалы доступны на странице профиля.

Универсальный Copilot для вашего компьютера / Влад Янченко
ИИ 08 января 2024

Как построить карьеру в Data Science
Работа 04 января 2024 время чтения: 3 мин

Midjourney V6 и спасение жизней с ИИ — топ AI-новостей недели
ИИ 03 января 2024 время чтения: 2 мин

Получи лицензию LinkedIn Learning
Выбирай из 16 000+ курсов для самостоятельного обучения.
Материалы по теме

Универсальный Copilot для вашего компьютера / Влад Янченко
ИИ 08 января 2024

Как построить карьеру в Data Science
Работа 04 января 2024 время чтения: 3 мин

Midjourney V6 и спасение жизней с ИИ — топ AI-новостей недели
ИИ 03 января 2024 время чтения: 2 мин
Получай новости и актуальные материалы от Anywhere Club
Подписываясь, ты соглашаешься получать рассылку от Anywhere Club и партнеров клуба, а еще принимаешь политику конфиденциальности.