Где взять данные для анализа?
Привет, где в интернете можно взять таблицы с наблюдениями различного размера и сложности? Раньше сто пудов где то видел)
пс Пишу курсовую, нужны данный чтобы тестировать прогу. Функциональность предварительная обработка данных (пропуски, шум, выбросы) и регрессионный множественный анализ.
- Вопрос задан более трёх лет назад
- 3798 просмотров
Комментировать
Решения вопроса 0
Ответы на вопрос 2

Скорее всего Вы видели вот это : kdd.ics.uci.edu
Ну и конечно, обратите внимание на
https://kaggle.com/
Ответ написан более трёх лет назад
Комментировать
Нравится 4 Комментировать

random.org, SETI, краденные и просто устаревшие базы, сайты «открытых» рулеток, blockchain.info, forex, kinopoisk.ru, мне продолжать?
Поставьте интересную задачу и ограничьте область поиска ее проблематикой. Причем информацию нужно не только обрабатывать, а еще и собирать и систематизировать, поэтому если хотите качественных сведений, или договаривайтесь с кем-либо (сетью заправок) либо берите, что плохо лежит (парсинг, те же базы, распечатки ЭКГ)
Ответ написан более трёх лет назад
Комментировать
Нравится Комментировать
Ваш ответ на вопрос
Войдите, чтобы написать ответ

- Аналитика
Можно ли составить формулу для подсчета суммы уникальных значений в Google Data Studio?
- 1 подписчик
- 25 дек. 2023
- 17 просмотров
Где брать данные для анализа и машинного обучения: бесплатно и удобно
В своих проектах мы почти всегда пользуемся чужими данными: это удобнее и быстрее, чем собирать всё самому. В этом тексте собраны проверенные и бесплатные источники данных, которые можно использовать в своих проектах. Если у вас есть свои подборки, которые не вошли в статью, — расскажите о них в комментариях.
Kaggle
Kaggle изначально задумывался как сайт для дата-сайентистов, где они могли бы хвастаться собранными данными. Со временем проект вырос в библиотеку открытых данных.
Датасеты можно отфильтровать по темам, качеству обработки, формату файлов и типу лицензии, по которой её добавили на сайт:

Awesome data на GitHub
В этом репозитории хранится две сотни датасетов, сгруппированные по темам. Эту подборку составляют и обновляют сами пользователи Гитхаба, добавляя туда и данные из открытых источников. Если с датасетом что-то не так, пользователи сообщают об этом в комментариях, и такой набор данных помечается жёлтым значком. Это значит, что с данными могут быть сложности — например, не хватает части заполненных полей или некоторые данные перемешаны.

Pew Research
The Pew Research Center — американская компания, которая занимается исследованиями социальных вопросов, общественного мнения и демографических тенденций в США и мире. С 2004 года у центра накопилось много данных, которые он периодически выкладывает на сайт.
Чаще всего центр выкладывает сырые и необработанные данные — самое то для специалиста по data-science. Для скачивания датасетов нужна регистрация — она бесплатная, нужен только адрес электронной почты.
Open Data Network
Это не сайт с каталогами датасетов, а один из самых мощных поисковиков биг-даты. Он ищет сразу по сотням ресурсов с открытыми данными и выводит описание для каждого результата. Так как источников много, то данные могут быть как сырыми, так и очищенными и готовыми для анализа, поэтому смотрите внимательнее на датасеты перед началом работы.
При желании с каждым датасетом можно поработать по API, чтобы не тащить себе все данные. Там же — инструкции о том, как это сделать:

Данные Минздрава и Минкульта
А вот официальная биг-дата от государства. Это данные, которые ведомства выкладывают в открытый доступ. Огромный плюс в том, что эти данные могут показать интересные взаимосвязи между разными элементами, которые происходят в нашей стране.
Если вы хотели сделать полезный проект с биг-датой, но не знали, с чего начать, начните с анализа этих данных. Например, там можно найти независимую оценку качества оказания услуг медицинскими организациями в стационарных условиях или сведения из единого государственного реестра объектов культурного наследия народов Российской Федерации.
Данные мониторинга цен на товары
Компания «ПромоДата» мониторит цены на продукты и непродовольственные FMCG-товары по всей России. В бесплатной версии можно получить эксельку с самыми популярными товарами в Москве за последний месяц: сколько они стоят в разных магазинах.
- Заходите на сайт Promodata.ru.
- Внизу вводите адрес почты и говорите «Получить пример отчёта».
- Если нужны более глубокие данные, выбираете нужные штрихкоды и идёте на https://promodata.ru/pokodu.
- Загружаете файлик со штрихкодами (экселька, csv). Получаете на почту детальный отчёт по этим штрихкодам.
Источники данных
Любой анализ невозможен без данных. Поэтому работа аналитика невозможна без поиска информации.
Делимся несколькими надежными источниками, которые ты сможешь использовать в своих проектах и в будущей работе.
Официальные источники
РОССТАТ
Федеральная служба государственной статистики
Главное информационное ведомство России. Эта федеральная служба осуществляет формирование официальной статистической информации о социальных, экономических, демографических, экологических и других общественных процессах в нашей стране.
Практически любую статистическую информацию о России, будь это уровень безработицы в республике Карелия или количество овцебыков по годам, можно найти на сайте Росстата
FRED
Federal Reserve Economic Data
База экономических данных Федеральной резервной системы США. Огромным преимуществом FRED перед другими похожими ресурсами является встроенные функции для построения графиков различного типа. Интерфейс сайта позволяет переходить от показателя к темпу его прироста, выносить на один график два временных ряда и не только.
Если ты не готов разбираться с работой в статистических пакетах, но хочешь строить красивые графики – FRED отличное решение.
САЙТ ДАННЫХ ЕВРОЦЕНТРОБАНКА
European Central Bank
Центробанк Европы – один из самых обширных и достоверных источников экономических данных. На сайте ЕЦБ можно найти данные по уровню безработицы, ВВП, объёму инвестиций и сбережений для стран Европы. Большое количество данных о разных странах позволяет тестировать экономические гипотезы на Европейском регионе.
МЕЖДУНАРОДНЫЙ ВАЛЮТНЫЙ ФОНД
International Monetary Fund
Сайт фонда публикует данные о макроэкономических показателях для обширного списка государств. Сайт отслеживает не такое большое количество факторов, как Евроцентробанк, но работает с большим количеством стран, что является преимуществом.
US data
United States Government’s open data
Источник открытых данных по США различной тематики — от состояния экологии до экономических показателей.
При поиске датасетов можно применять фильтры по тематике (энергетическая отрасль, здоровье, экология и тд), географической территории, ключевым словам и организациям, предоставляющим данные.
Датасеты доступны в разных форматах: как csv, подходящего для работы в Excel,так и html и text для программной обработки.
UK data
База открытых данных Великобритании
Основными тематическими разделами являются: бизнес и экономика, государственные данные, преступность, окружающая среда, транспорт.
Также доступны различные форматы датасета, в том числе geojson, который позволяет работать с картами и географическими координатами при помощи Python.
Портал открытых данных Правительства Москвы
Очень насыщенные и подробные данные по Москве, подходящие для проверки различных гипотез. Основной минус — сильная территориальная ограниченность датасета.
Тем не менее, с этого источника можно начинать исследование, так как данные достаточно качественные и репрезентативные.
Earthdata
Данные о Земле
Если вам нужны данные, связанные с Землей и космосом, Earthdata — идеальное место для этого.
Earthdata является частью программы систем данных науки о Земле, созданной NASA, которая предоставляет наборы данных, основанные на атмосфере Земли, океанах, солнечных вспышках, криосфере, геомагнетизме, тектонике и т.д.
Earthdata, в частности, является частью Системы данных и информации Системы наблюдения Земли (EOSDIS), которая собирает и обрабатывает данные с различных самолетов NASA, спутников и полевых данных, полученных с земли.
На портале также есть инструменты для поиска, обработки, упорядочения, отображения и визуализации данных.
Национальный центр экологической информации
Если хочешь получить доступ к данным о погоде и условиях окружающей среды, то Национальный центр экологической информации — лучший вариант! Здесь ты сможешь найти не только датасеты, но и интересные видео по экологической тематике.
Институциональные источники
РМЭЗ НИУ ВШЭ
Российский мониторинг экономического положения и здоровья населения
В единую базу собраны данные опросов одних и тех же домохозяйств на протяжении несколько лет. При помощи этих данных можно делать выводы о структуре доходов и расходов, благосостоянии, инвестиционном поведении, структуре занятости, миграции, состоянии здоровья и структуре питания и т.д в разрезе целой страны.
База является уникальной: она обновляется ежегодно, в неё входят показатели, отсутствующие в государственной статистике.
RLMS-HSE — незаменимый инструмент проектирования, анализа и оценки как уже реализованных, так и будущих российских реформ.
Numbeo
База данных, которая позволяет пользователям обмениваться и сравнивать показатели стоимости жизни между странами и городами. Например, с помощью Numbeo можно найти информацию о цене продуктов, одежды, услуг в интересующем тебя регионе.
Кроме того, на сайте содержатся данные о загрязнении воздуха, уровне преступности, пробках, качестве жизни и многом другом.
Поисковик данных
Google Dataset Search
Чтобы сэкономить время, которое ты тратишь на поиск нужной информации, можно воспользоваться специальным поисковиком, содержащим более 25 миллионов наборов данных.
Данный сервис по запросу предложит наиболее релевантные датасеты из поддерживаемых им хранилищ — стоит лишь вбить нужные ключевые слова.
Базы данных о запросах в Интернете
Google Trends
Данный сервис позволяет оценивать популярность запросов в поисковике Google в различных регионах за разные промежутки времени (от 17 последних лет до последних четырёх часов).
Данные собираются с 2004 года. Для удобства анализа прилагается большое количество инфографики.
Yandex Wordstat
Здесь собрана практически аналогичная Google Trends статистика запросов в поисковике Яндекс. Можно уточнить в настройках данные о запросах с каких типов устройств ты хочешь получить.
Независимые источники
Yahoo! Finance
Провайдер финансовой информации принадлежащий Yahoo!
Один из главных поставщиков подобной информации в США. Сайт предоставляет новости и справочную информацию по темам, связанным с бизнесом, финансами и экономикой — котировки и рейтинги ценных бумаг, пресс-релизы и финансовые отчёты компаний.
Kaggle
Публичная веб-платформа, на которой пользователи и организации могут делиться высококачественными наборами данных, исследовать и создавать модели, взаимодействовать с другими специалистами, организовывать конкурсы по исследованию данных и участвовать в них.
Rdatasets
Сайт с более чем 400 датасетами, вобравших себя самую разнообразную статистику. Эти данные во многом похожи на мини учебные курсы, по каждому из них, ты сможешь найти работу или анализ в мировых журналах, повторить разбор и свериться с выводами научных деятелей, а также найти что-то новое для себя.
Stanford Large Network Dataset Collection
База данных Стэнфордского университета, которая вобрала в себя не только простые базы данных по Соединенному Королевству, но и направленные сети в виде матриц, так что если мечтаешь начать изучать строение социальных сетей, то тебе сюда. К данным прилагаются полезные статьи для чтения и реализации проектов.
Nasdaq
Сайт, который позволяют находить самостоятельно обновляющиеся данные в реальном времени. Экономические, социальные, экологические показатели — все можно найти здесь. Главное — найти тему по душе!
MYGREATLEARNING
В отличии от Kaggle этот сайт содержит ссылки не только на самые известные датасеты, но и датасеты профильных европейских и Американских университетов, которые можно бесплатно скачать и проанализировать.
Geeks for geeks
Сайт, где можно найти ссылки на интересные статьи с датасетами с разных сайтов. Изюминкой сайта: здесь есть не только список датасетов, но и вводные курсы для студентов и школьников по анализу данных, а также интересные статьи, где эти данные рассматриваются.
Глобальная обсерватория здравоохранения
Всемирная организация здравоохранения опубликовала все свои данные в Глобальной обсерватории здравоохранения, чтобы качественная медицинская информация была свободно доступна во всем мире на случай, если она потребуется для выявления и восстановления после чрезвычайной ситуации в области здравоохранения в любой точке мира.
Данные о состоянии здоровья разделены по различным характеристикам, таким как инфекционные и неинфекционные заболевания, психическое здоровье, показатели смертности, лекарства и вакцины, борьба против табака, женщины и здоровье, риски для здоровья, иммунизация и т.д. В настоящее время они уделяют огромное внимание данным COVID-19, чтобы эту пандемию можно было остановить как можно скорее.
Инфраструктура научно-исследовательских данных (ИНИД)
Платформа доступа исследователей к данным о государстве и обществе. Благодаря платформе исследователи могут получать доступ к данным, а представители органов государственной власти ставить прикладные задачи и предоставлять для их решения наборы данных.
Где брать данные для анализа
Для поддержки растущей необходимости в данных в интернете сегодня доступно множество источников. Они предлагают информацию всем, кто в ней нуждаются. Такая информация называется открытыми данными.
Вот список основных источников.
- DataHub (https://datahub.io/dataset)
- Всемирная организация здравоохранения (https://www.who.int/research/en/)
- Data.gov (https://data.gov)
- Портал открытых данных ЕС (https://open-data.europa.eu/en/data/)
- Открытые наборы данных Amazon Web Service (https://aws.amazon.com/datasets)
- Facebook Graph (https://developers.facebook.com/docs/graph-api)
- Healthdata.gov (https://www.healthdata.gov)
- Google Тренды (https://www.google.com/trends/explore)
- Google Finance (https://www.google.com/finance)
- Google Books Ngrams (https://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
- Репозитории для Машинного обучения (https://archive.ics.uci.edu/ml/)
Политические и правительственные данные
- Socrata https://www.socrata.com/resources/
Socrata хороший сайт для изучения данных, связанных с правительством. Кроме того, он дает инструменты визуализации для исследования данных. - Бюро переписей США https://www.census.gov/data.html
Этот сайт предоставляет информацию о гражданах США, охватывающую данные о населении, географические и об образовании. - Данные баз ООН https://data.un.org/
UNdata — это интернет-служба данных, которая предоставляет статистические базы данных ООН. - Портал открытых данных ЕС https://open-data.europa.eu/en/data/
Этот сайт предоставляет много данных из учреждений Европейского Союза. - Data.gov.ukhttps://data.gov.uk/
Этот сайт правительства Великобритании включает Британскую национальную библиографию: метаданные всех британских книг и публикаций с 1950 года. - Всемирная книга фактов ЦРУ https://www.cia.gov/library/publications/the-world-factbook/
Этот сайт Центрального разведывательного управления предоставляет много информации об истории, населении, экономике, правительстве, инфраструктуре и вооруженных силах 267 стран.
Медицинские данные
- Информационный центр здравоохранения и социального обеспечения https://www.hscic.gov.uk/home
Наборы данных о здоровье от Национальной службы здравоохранения Великобритании.
Социальные данные
- Topsy https://topsy.com/
Topsy предоставляет доступную для поиска по базе данных публичных твитов, начиная с 2006 года, а также несколько инструментов для анализа. - Likebutton https://likebutton.com/
Публикует общедоступные данные Facebook, чтобы дать представление о том, что людям «нравится» в данный момент.
Общедоступные наборы данных
- DBPedia https://wiki.dbpedia.org
Википедия содержит миллионы данных, структурированных и неструктурированных, по каждой теме. DBPedia — это амбициозный проект по каталогизации и созданию публичной, свободной
базы данных, позволяющей любому анализировать эти данные. - Freebase https://www.freebase.com/
Эта база данных предоставляет информацию по нескольким темам с более чем 45 миллионами записей. - Gapminder https://www.gapminder.org/data/
Этот сайт предоставляет данные, поступающие от Всемирной организации здравоохранения и Всемирного банка, которые охватывают экономическую, медицинскую и социальную статистику со всего мира.
Климатические данные
- Национальный центр климатических данных https://www.ncdc.noaa.gov/data-access/quick-links#loc-clim
Огромный набор экологических, метеорологических и климатических данных из Национального центра климатических данных США. Самый большой в мире архив данных о погоде. - WeatherBase https://www.weatherbase.com/
На этом сайте представлены средние значения погодных условий, прогнозы и текущие условия для более чем 40 000 городов по всему миру. - Wunderground https://www.wunderground.com/
Этот сайт предоставляет климатические данные со спутников и метеостанций, что позволяет получать всю информацию о температуре, ветре и других измерениях.
Спортивные данные
- Pro-Football-Reference https://www.pro-football-reference.com/
Этот сайт предоставляет данные о футболе и некоторых других видах спорта.
Газеты
- New York Times https://developer.nytimes.com/docs
Поисковой, проиндексированный архив новостных статей, начиная с 1851 года.
Музыкальные данные
- Датасет с миллионом песен
https://aws.amazon.com/datasets/6468931156960467
Метаданные о более чем миллионе песен и музыкальных произведений. Часть Amazon Web Services
Многие источники с открытыми данными можно найти на диаграмме LOD cloud (https://lod-coud.net). Она показывает связи между разными источниками открытых данных, которые доступны в сети.

- ТЕГИ
- Data Science
- Анализ данных
- Теория анализа данных