При парсинге Яндекс Новостей выдает не свежую новость
Проблема заключается в том, что при работе кода, выдает почему то новости которые небыли указаны вообще, я код еще не дописал, но работоспособность решил проверить и вот такая тут проблема, пытаюсь парсить новости от туда с хештегом Москва река.
from turtle import Turtle from requests import request import requests from bs4 import BeautifulSoup URL = "https://newssearch.yandex.ru/news/search?text=%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0+%D1%80%D0%B5%D0%BA%D0%B0&sortby=date" page = requests.get(URL) soup = BeautifulSoup(page.content, "html.parser") post = soup.find("h1", class_="mg-aria-label") post1 = soup.find("a", ="mg-snippet__url") print(post1)
Отслеживать
2,326 2 2 золотых знака 11 11 серебряных знаков 38 38 бронзовых знаков
задан 20 мая 2022 в 8:14
5 2 2 бронзовых знака
1 ответ 1
Сортировка: Сброс на вариант по умолчанию
import requests from bs4 import BeautifulSoup URL = 'https://newssearch.yandex.ru/news/' \ 'search?text=%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0+%D1%80%D0%B5%D0%BA%D0%B0&sortby=date' page = requests.get(URL) soup = BeautifulSoup(page.content, "html.parser") postes = soup.findAll("article", class_="news-search-story news-search__main-item mg-grid__item") for post in postes: title = post.a.text url = post.a['href'] print(title) print(url) Мосводосток обследовал реку Лихоборку после жалоб на сине-фиолетовую воду https://www.msk.kp.ru/online/news/4763438/?utm_source=yxnews&utm_medium=desktop&utm_referrer=https%3A%2F%2Fyandex.ru%2Fnews%2Fsearch%3Ftext%3D В Москве река окрасилась в сине-фиолетовый https://mockva.ru/2022/05/26/365391.html?utm_source=yxnews&utm_medium=desktop&utm_referrer=https%3A%2F%2Fyandex.ru%2Fnews%2Fsearch%3Ftext%3D В Москве появилась фиолетовая река https://www.avtoradio.ru/news/uid/256461?utm_source=yxnews&utm_medium=desktop&utm_referrer=https%3A%2F%2Fyandex.ru%2Fnews%2Fsearch%3Ftext%3D .
Отслеживать
ответ дан 26 мая 2022 в 16:03
4,530 4 4 золотых знака 8 8 серебряных знаков 22 22 бронзовых знака
- python
- парсер
- beautiful-soup
-
Важное на Мете
Связанные
Похожие
Подписаться на ленту
Лента вопроса
Для подписки на ленту скопируйте и вставьте эту ссылку в вашу программу для чтения RSS.
Дизайн сайта / логотип © 2024 Stack Exchange Inc; пользовательские материалы лицензированы в соответствии с CC BY-SA . rev 2024.1.8.3130
Нажимая «Принять все файлы cookie» вы соглашаетесь, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.
Как парсить новости с news.yandex и mail.ru на php
насколько нужны частые запросы? кэшируйте на своей стороне данные, обновляйте раз в 5 мин, и будет вам счастье.
Ответ написан более трёх лет назад
Комментировать
Нравится Комментировать

А с яндекса парсить через RSS и прокси не пробовали?
года два назад прокатывало.
Ответ написан более трёх лет назад

Igor Tkachenko @foozzi Автор вопроса
у них только определенные каналы rss новостей, свои нельзя формировать

А кто ни будь замечал если выкинул капчу и с этого IP нет больше запросов Яндекс снимает капчу через какое-то время?
Ответ написан более трёх лет назад

@itforge Ну не факт, бывает сяду за комп только, войду на яндекс а он капчу сразу просит ))) Вы не замечали через какое приблизительно время снимается?
О том, что на антигейте еле разгадывают даже цифровые капчи, а с русским языком не справляются, потому что там разрез стран — Индонезия и Пакистан, вы, наверное, не слышали.
У меня мегафоновские капчи (а там только цифры и ничего более) еле разгадывали, постоянно им мерещелись то буквы O, то A, то B, то колбаса мясная.
А яндекс со своими русскими словечками — импосибл.
Парсер Яндекс.Новости — Антон — Pakkard — Работа #3258283
Парсер разработан как два java-приложения. Первое парсит напрямую Яндекс.Новости. В него забиты данные о категориях новостей и регионах, в которых требуется их парсить, а также статус категории в данном регионе (требуется ли парсить или нет). В данной реализации парсер не прекращает работу, лишь уходят в спячку на заданный в административной панели срок (от 3 до 5 минут на каждую итерацию).
Данный парсер собирает ссылку на источник новости, её название, данные о категории и дате размещения новости. Эта инф. складывается в служебную таблицу.
Проблему парсинга тысяч новостных ресурсов я решил следующим путём — был разработан универсальный парсер, который принимает в качестве значения ссылку на новость, регулярным выражением выдергивает название ресурса, ищет в базе шаблонов (об этом далее) шаблон этого сайта и выкачивает информацию по шаблону, складывая её напрямую в базу новостного сайта.
По поводу шаблонов — они задавались для каждого новостного сайта-партнёра Яндекса. Шаблон текстовый — указывает в каких тегах искать текст новости. Шаблон медийный — где искать изображение. В парсере было реализовано много крутых функций, о которых не позволяет написать объем описания. В приложении скриншот интерфейса для создания шаблонов.
WPGrabber
Смотрите — заходим в любую из основных рубрик, скажем происшествия httpss://news.yandex.ru/incident.html , там есть кнопка rss = окей, то что надо! httpss://news.yandex.ru/incident.rss забираем rss с происшествиями и идет в наш плагин.
Что бы я не делал и как не менял настройки — все равно «пустая страница».
Вложения export(3).xml (6.13 КБ) 190 скачиваний
Последний раз редактировалось wturm 25 дек 2015, 22:06, всего редактировалось 1 раз.
WPGrabber Администратор Сообщения: 135 Зарегистрирован: 24 ноя 2015, 22:09 Откуда: СССР Благодарил (а): 4 раза Поблагодарили: 5 раз Контактная информация:
Re: Парсинг Яндекс Новости
Сообщение WPGrabber » 25 дек 2015, 16:32
В настройках ленты на вкладке Дополнительно измените Для запросов использовать метод на file_get_contents — https://prntscr.com/9idhea
wturm Новичок Сообщения: 5 Зарегистрирован: 25 дек 2015, 14:29
Re: Парсинг Яндекс Новости
Сообщение wturm » 25 дек 2015, 20:14
Пошло дело, спасибо большое!
Скажите, а если пробовать снипеты в выдаче яндекса парсить — возможно ли такое на кроне?
Admin Администратор Сообщения: 578 Зарегистрирован: 22 ноя 2015, 12:18 Откуда: СССР Благодарил (а): 48 раз Поблагодарили: 20 раз Контактная информация: