Skip to main content

SE::Yandex::Video - Yandex Video scraper

Yandex Images

Scraper Overview

The scraper for searching videos on Yandex. Thanks to the SE::Yandex::Video scraper, you can obtain databases of video links. You can use queries in the same way as you enter them in the Yandex search bar.

The A-Parser functionality allows you to save the Yandex scraper's parsing settings for future use (presets), set a parsing schedule, and much more. You can use automatic query multiplication, substitution of subqueries from files, permutation of alphanumeric combinations and lists to get the maximum possible number of results.

Saving results is possible in the form and structure that you need, thanks to the built-in powerful templating engine Template Toolkit which allows you to apply additional logic to the results and output data in various formats, including JSON, SQL, and CSV.

Collected Data

  • Video links
  • Anchors
  • Snippets
  • The name of the service where the video is located
  • Duration, number of views, and publication date
  • Links to the poster and video preview
  • Brief video content
  • List of sections in the video
  • Code for embedding on websites
Collected data

Capabilities

  • Support for filters (brief, fresh)
  • Choice of the number of search results pages

Use Cases

  • Collecting videos for filling your blogs, tubes, doorways...
  • Collecting textual data

Queries

As queries, you need to specify search phrases, for example:

Cats
Football
Waterfall
Speak in english
cars

Query Substitutions

You can use built-in macros for query multiplication, for example, we want to get a very large database of forums, we will specify several main queries in different languages:

forum
форум
foro
论坛

In the query format, we will specify a permutation of characters from a to zzzz, this method allows you to maximally rotate the search output and get many new unique results:

$query {az:a:zzzz}

This macro will create 475254 additional queries for each original search query, which in total will give 4 x 475254 = 1901016 search queries, an impressive figure, but this is not a problem for A-Parser. At a speed of 2000 queries per minute, such a task will be processed in just 16 hours.

Output Results Examples

A-Parser supports flexible formatting of results thanks to the built-in templating engine Template Toolkit, which allows it to output results in any form, as well as in structured formats, such as CSV or JSON

Default Output

Result format:

$serp.format('$link\n')

Example of result:

http://www.youtube.com/v/lcYzh7IjJj0
http://www.youtube.com/watch?v=VD2h2YUY_WQ
http://www.youtube.com/watch?v=UPOUE8ObCy8
http://www.youtube.com/watch?v=Ha9Q1kHqCHA
http://www.youtube.com/watch?v=P5rlifhgewY
https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video
http://www.youtube.com/v/-cvEA8897Fc?fs=0
https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video
http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/
http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/
http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/
http://www.youtube.com/v/OuOK2fEPdMU
http://www.youtube.com/watch?v=UcbmVFYp4Lg
http://www.youtube.com/watch?v=JgJE4oQf-Gs
http://www.youtube.com/watch?v=ektN1-ptnDE

Output in CSV Table

Result format:

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.anchor, item.prevPoster, item.duration, item.views);
END %]

Example of result:

test,http://www.youtube.com/v/lcYzh7IjJj0,"<b>Тест</b> на IQ при помощи 10 фото",https://avatars.mds.yandex.net/get-vthumb/4322300/5f649751351f727400bfd1be494fd6b4/564x318_1,07:09,"2,5 млн просмотров"
test,http://www.youtube.com/watch?v=VD2h2YUY_WQ,"Online <b>Test</b> Pad -как самому создать <b>тест</b>",https://avatars.mds.yandex.net/get-vthumb/1023253/fffa43fb9402c436d6881537bb9aee9a/564x318_1,05:38,"16,6 тыс. просмотров"
test,http://www.youtube.com/watch?v=UPOUE8ObCy8,"Простой образовательный <b>тест</b>. Online <b>Test</b> Pad",https://avatars.mds.yandex.net/get-vthumb/3435353/fa94c2b60d9bb0fa8cda2d469b6dcf0a/564x318_1,04:16,"76,5 тыс. просмотров"
test,http://www.youtube.com/watch?v=Ha9Q1kHqCHA,"Создаем <b>тесты</b> с Online <b>Test</b> Pad #2",https://avatars.mds.yandex.net/get-vthumb/2032788/4ffd2b149fbfc3de17b67ef92290028e/564x318_1,07:00,"1704 просмотра"
test,http://www.youtube.com/watch?v=P5rlifhgewY,"Этот IQ-<b>тест</b> из 5 Вопросов Покажет Уровень Вашего Интеллекта",https://avatars.mds.yandex.net/get-vthumb/4507451/f3475d744f7841b40912dd933dce65c1/564x318_1,08:01,"606 тыс. просмотров"
test,https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video,"Spotlight 4 класс. Итоговый <b>тест</b>. Exit <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/3304426/beaeeaba5bfc6c00bcae50c4fa7cf236/564x318_1,09:39,
test,http://www.youtube.com/v/-cvEA8897Fc?fs=0,"English grammar <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/2428342/b5b8a32f0260ce4ac785b6a4f1a8b006/564x318_1,12:35,"597 тыс. просмотров"
test,https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video,"ЭТИ Ответы Знают Единицы ""Brain <b>Test</b>"" #1",https://avatars.mds.yandex.net/get-vh/5811343/2a00000180429688a113593b8944b066f53d/564x318_1,17:07,
test,http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/,"Как пройти игру Brain <b>Test</b> 2? Ответы на все уровни",https://avatars.mds.yandex.net/get-vthumb/4407993/aa07260f286afde40d15abad02f816af/564x318_1,1:29:03,
test,http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/,"Brain <b>Test</b> Полное прохождение № 4 Погружаемся в мир головоломок",https://avatars.mds.yandex.net/get-vthumb/467972/c078458de66e698c5680527352261b9d/564x318_1,26:23,
test,http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/,"SpeedTest - Тестирование скорости интернет соединения",https://avatars.mds.yandex.net/get-vthumb/3446066/7cca0b8914479dcfe294b06246ea6df8/564x318_1,05:16,"223 тыс. просм. всего"

Saving in SQL Format

Result format:

[%  FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '";
link _ "', '";
snippet.replace("\n", '\n') _ "', '";
summary.replace("\n", '\n') _ "')\n";
END %]

Example of result:

INSERT INTO serp VALUES('test', 'http://www.youtube.com/v/lcYzh7IjJj0', '', '00:25 Загадка с досками\nВопрос: сколько здесь досок?\nОтвет: нисколько, так как к доскам прорисованы лишние линии и одна доска плавно переходит в другую\n01:10 Загадка с ногами слона\nВопрос: сколько ног у слона?\nОтвет: у слона одна нога, расположенная сзади, а все остальные ноги не настоящие\n02:00 Загадка с женщиной у окна\nВопрос: чем отличаются эти два изображения?\nОтвет: в правом нижнем углу есть мышиная нора')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=VD2h2YUY_WQ', '', '00:01 Введение\nВ видео рассказывается о сайте онлайн тест пат, где можно создавать тесты, опросы, кроссворды и логические игры.\nДля начала нужно зарегистрироваться с помощью почты.\n00:35 Создание теста\nПосле регистрации можно создавать свои тесты, опросы, кроссворды и логические игры.\nВ видео демонстрируется создание теста с нуля.\n01:06 Варианты вопросов\nВ видео показывается, как создавать разные варианты вопросов: одиночный выбор, ввод текста, заполнение пропусков и другие.\nДемонстрируются примеры вопросов и ответов для каждого варианта.')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=P5rlifhgewY', '', '00:00 Введение\nВидео представляет собой тест на IQ, состоящий из пяти вопросов, который поможет определить уровень интеллекта.\n04:00 Результаты теста\nЕсли выбраны первые варианты ответов, то уровень счастья высокий, а интеллект средний.\nЕсли выбраны вторые варианты ответов, то уровень интеллекта высокий, а уровень счастья средний.\nЕсли выбраны разные варианты ответов, то уровень интеллекта и счастья находится на золотой середине.\n07:08 Заключение\nВидео призывает поделиться результатами теста с друзьями и подписаться на канал.\nЕсли наберут 50 тысяч лайков, подготовят еще один тест.')
INSERT INTO serp VALUES('test', 'https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video', '"Brain <b>Test</b>" ► Прохождение ВСЕМ Приятного Просмотра :) Ссылки: Музыка в Видео: https://www.youtube.com/watch?v=5qap5aO4i9A Discord Сервер ► https://discord.gg/4JWEu9URwB YouTube ►...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/', 'Прошел игру Brain <b>Test</b> 2. Делюсь ответами на все уровни. Прохождение игры Brain <b>Test</b> 2 все части: Худеем с Настей Побег из тюрьмы Агент Беймс Джонд Семья Всезнайкиных Охотник на монстров Ваня...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/', 'https://www.youtube.com/channel/UCgpWRYOfFZ0whXZ8F26KbUg Канал на Ютубе https://t.me/DimaDaimont телеграмм канал https://www.donationalerts.com/r/dimadaimont2 помочь с развитием...', '')

Dump Results to JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.videos = [];

FOREACH item IN p1.serp;
obj.videos.push({
link = item.link
anchor = item.anchor
snippet = item.snippet
service = item.service
embed = item.embed
});
END;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Example of result:

[{
"videos": [
{
"embed": "<iframe src=\"//www.youtube.com/embed/lcYzh7IjJj0?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/v/lcYzh7IjJj0",
"snippet": "",
"anchor": "<b>Тест</b> на IQ при помощи 10 фото",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/VD2h2YUY_WQ?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=VD2h2YUY_WQ",
"snippet": "",
"anchor": "Online <b>Test</b> Pad -как самому создать <b>тест</b>",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/UPOUE8ObCy8?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=UPOUE8ObCy8",
"snippet": "",
"anchor": "Простой образовательный <b>тест</b>. Online <b>Test</b> Pad",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/Ha9Q1kHqCHA?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=Ha9Q1kHqCHA",
"snippet": "",
"anchor": "Создаем <b>тесты</b> с Online <b>Test</b> Pad #2",
"service": "YouTube"
}
],
"query": "test"
}]
tip

To make the "Initial text" and "Final text" options available in the Task Editor, you need to activate "More options".

Possible settings

ParameterDefault valueDescription
Pages count5Number of pages for scraping
New videosFresh videos
Short videosShort videos