Яндекс королев новый поисковик как установить

«Яндекс» запускает новую поисковую систему на базе алгоритма «Королёв»

В минувший вторник в Московском планетарии состоялась презентация обновлённой поисковой системы компании «Яндекс». Он построен на двух основополагающих компонентах: обновлённом алгоритме «Королёв» на базе нейронных сетей и сервисе «Яндекс.Толока», который был интегрирован с «MatrixNet», отвечающим за построение формулы ранжирования при выдаче результатов поиска. Новый алгоритм способен лучше понимать сложные запросы и выдавать более точные результаты, так как теперь поиск осуществляется не только по заголовкам страниц, но и по текстам статей в целом.

«В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат — миллионы пользователей «Яндекса». Любой запрос — это анонимный сигнал, который помогает машине лучше понимать людей. Поэтому мы не ошибёмся, если скажем: новый поиск — это поиск, который мы сделали вместе», — говорится на сайте «Яндекс».

Новый алгоритм «Королёв» построен на базе «Палеха» — первого алгоритма поиска на основе нейронной сети «Яндекса», выпущенного в конце 2016 года. «Королёв» лучше понимает намерение пользователя, чем его предшественник, так как он рассматривает весь контент веб-страниц, а не только заголовки. Также «Королёв» может масштабироваться, чтобы анализировать в тысячу раз больше документов в реальном времени, чем «Палех».

«Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ — один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 тысяч документов — то есть в тысячу с лишним раз больше. Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу. Так можно установить дополнительные смысловые связи», — объясняют представители «Яндекса».

Результаты поиска «Королёва» передаются в «MatrixNet» — собственный алгоритм ранжирования машинного обучения Яндекса, учитывающий ряд других факторов ранжирования до того, как результаты будут возвращены пользователю. С недавних пор «MatrixNet» использует данные, полученные из сервиса «Яндекс.Толока», в котором люди за денежные вознаграждения помогают компании улучшать работу её сервисов.

Новый поиск «Яндекса» уже запущен и доступен всем желающим.

Источник

Алгоритм Яндекса «Королёв»

Искусственная нейронная сеть со скрытыми слоями, «длинный хвост», дополнительный индекс и поиск с учётом семантического соответствия («смысла»).
Хм, серьёзно? Вместе разбираемся с новым алгоритмом Яндекса.

Во второй половине августа Яндекс запустил новый алгоритм с названием «Королёв». Официальный анонс состоялся 22 августа 2017 года в блоге Яндекса для вебмастеров [1] и в блоге на Хабрахабре [2]. Реальные же изменения выдачи — были заметны и ранее, благодаря анализатору апдейтов выдачи «Пиксель Тулс».

Основная задача: улучшение качества выдачи по многословным низкочастотным запросам, по которым качество выдачи было низким (заведомо хуже, чем у Google — основного конкурента в рунете). В данный сегмент фраз часто попадают и голосовые запросы, заданные с переносных устройств на естественном языке (растущий спрос).

Что отличает данный алгоритм «Королёв» от предыдущего «Палеха» [3]? Добавление в общий набор факторов ранжирования, которые учитывают:

Схожесть того «смысла», который скрыт в поисковой фразе и «смысла» всего документа, а не только заголовка окна браузера Title.

Качество ответа документа на схожие по «смыслу» запросы пользователей.

Новая техническая реализация с расчётом ряда факторов на этапе индексирования и внедрением дополнительного индекса (см. ниже).

Чтобы понять, какой смысл* вкладывает пользователь в поисковый запрос и какой смысл раскрывается в тексте страницы — используется нейронная сеть. То есть, нейронная сеть как один из методов машинного обучения, лежит в основе вычисления ряда новых факторов, которые далее используются в алгоритме ранжирования.

* — далее мы будем употреблять это слово без кавычек, но важно понимать, что «смысл», который вычисляется с помощью компьютерного алгоритма и реальный смысл, который вкладывает в запрос/документ автор — неэквивалентные понятия.

Влияние алгоритма на запросы разных типов

В первую очередь, «Королёв» затрагивает ранжирование по длинным и/или редким поисковым запроса, которые часто задаются на естественном языке. Пример: [фильм где человек бежит из тюрьмы после очень долгой отсидки].

С точки зрения SEO-классификации это НЧ- и мНЧ-запросы, как правило, информационные, но возможных и коммерческие варианты, скажем: [купить штуку которая крутиться на пальцах]. Именно данный сегмент поисковых фраз носит название «длинного хвоста». На него приходится более 34% запросов из потока.

READ  Как установить музыку на телефон через айтюнс

На текущий момент, для ряда запросов, по которым новая группа факторов получила высокую значимость, но поисковая система не до конца уверена в корректности его применения — проводится анкетирование пользователей (Рис. 1).


Рис. 1. Яндекс уточняет у пользователя, корректно ли была повышена значимость новой группы факторов для запроса
[как называется бритва в стиле ножа], какой ответ за вопрос является правильным и где он был найден?

Сравнение: Яндекс versus Google

С запросом, который приведён выше — Google справляется куда лучше, чем Яндекс (Рис. 2), но репрезентативная ли это картина? Для ответа на данный вопрос — выборка была увеличена и проведена ручная оценка качества выдачи по каждому из 127 запросов в режиме «Инкогнито». Исходный файл в TXT-формате, разделитель между колонками — точка с запятой. Данные собраны Викторией Левеной («Пиксель Плюс») через 3 дня после официального анонса.


Рис. 2. Сравнение качества выдачи Яндекса и Google по запросу [фильм где человек бежит из тюрьмы после очень долгой отсидки].

В результате анализа SERP двух поисковых систем по пулу запросов, можно сделать следующие выводы:

Качество отработки алгоритмов «Королёв» и «RankBrain» — является соизмеримым.

В большинстве случаев (около 70% из выборки) — SERP оказывается схожим по качеству, что может говорить о близости самих алгоритмов реализации (напомним, что «RankBrain» был запущен в Google в октябре 2015 года).

Доля запросов, для которых алгоритмам удается успешно угадывать смысл, заданного на естественном языке составляет около 80% из выборки (полнота).


Рис. 3. Итоговые показатели работы алгоритмов Яндекса и Google по выборке мНЧ-фраз.

Значимость для SEO

Как сказывается новый алгоритм ранжирования Яндекса на поисковой оптимизации (SEO)? Фактически, наиболее значимые изменения наблюдаются лишь для фраз, по которым нет достаточного количества релевантных ответов с классической точки зрения (нет страниц с точными вхождениями фраз и высокой частотой встречаемости термов). Это значит, что ранжирование по частотным запросам, по которым продвигается большинство коммерческих проектов претерпит минимальные изменения за счёт вклада новой группы факторов.

Как показывает практика, значительно чаще точное вхождение ключевой фразы (если оно есть) «побеждает» вклад новой группы факторов в ранжирование. Для примера рассмотрим запрос [ленивая кошка из монголии], который упоминался в презентации алгоритма как один из тех, по которому «Королёв» помогает найти короткий и правильный ответ — манула.

На иллюстрации ниже (Рис. 4) видно, что хотя алгоритм и угадывает смысл фразы (объектный ответ справа [4]), но выше в SERP оказываются документы с вхождениями слов из запроса и точным вхождением в тексте (те же анонсы), что наглядно подтверждает гипотезу. Это одна из причин, по которой примеры, которые публично анонсируют для иллюстрации отработки алгоритма перестают «работать» после пресс-релиза.


Рис. 4. Текущий «сломанный» вид SERP Яндекса по запросу из презентации.

Итого: если SEO-специалист провёл работы по улучшению «классических» факторов ранжирования, то URL будет хорошо ранжироваться по нужной НЧ-фразе. Здесь революции нет.

В коммерческом ранжировании, при прочих равных, новая группа факторов, конечно, может вносить некий вклад в ранжирование. Для улучшения значений по ней используются приёмы LSI-копирайтинга.

Техническая реализация

Для ускорения формирования ответа на запрос пользователя, используется не только итоговая формула ранжирования. Имеется несколько этапов, каждый из которых отбирает претендентов для следующего, более «тяжелого» алгоритма (Рис. 5).


Рис. 5. Этапы ранжирования в поисковой системе Яндекс (фильтрация / кворум, Fast Rank, моном или частичное выполнение Матрикснет и итоговая формула релевантности).

Так как вычисление смысла для большого числа текстов на лету является длительной задачей, то данный процесс был сдвинут с финальной стадии ранжирования (как было в «Палехе») на этап индексирования.

Для ускорения финальной стадии ранжирования и освобождения вычислительных ресурсов был введён дополнительный индекс, который содержит уже вычисленную информацию об «ориентировочной» релевантности всех документов для всех одиночных слов и популярных пар слов, которые встречаются в запросах пользователей. Данный шаг позволил высвободить для поиска вычислительные мощности, которые необходимы для отработки сложных моделей, основанных на нейронных сетях (новый набор факторов).

Обучение нейронной сети производилось опираясь на многочисленные асессорские оценки и поведение пользователей. Напомним, что для увеличение общего числа оцененных пар запрос-документ, Яндексом был запущен публичный сервис «Толока» [5], который позволил кратно увеличить число асессоров и самих оценок (Рис. 6).


Рис. 6. Внешний вид сервиса Яндекс.Толока для исполнителя заданий (асессора).

READ  Как правильно установить сайт на хостинг

Вторая причина причина по которой примеры, которые публично анонсируют перестают «работать» состоит именно в резком изменении паттерна поведения пользователей по ним и росте их популярности.

Дальнейшее развитие подхода

Машинное обучение используется в поиске Яндекса для построения формулы ранжирования начиная с 2009 года [6]. Итоговая формула и сейчас формируется благодаря методу Матрикснет, но ряд факторов в ней являются «непростыми» и сами получены с помощью нейронных сетей (машинного обучения). В каком-то смысле — матрёшка.

В дальнейшем планируется:

Улучшение качества оценки семантического соответствия (смысла) запроса и страницы.

Повышение полноты отработки.

Изменение логики фильтрации документов на стартовом этапе L0 (Рис. 5) — прохождения кворума.

Добавление к модели вектора персональных интересов пользователя (персонификация выдачи).

Источник

Новый алгоритм Яндекса «Королев»

22 августа 2017 Яндекс запустил новую версию поискового алгоритма – «Королёв». Максимально кратко и емко можно описать его суть словами из пресс-релиза Яндекса:

Если вы мало что поняли, читайте дальше нашу статью, мы объясним подробнее.

Ссылка на пресс-релиз и все другие официальные источники приведена ниже.

Запуск алгоритма состоялся в Московском планетарии и сопровождался докладами разработчиков алгоритма, торжественным нажатием кнопки запуска и даже звонком на МКС и прямым эфиром с космонавтами.

Полное видео презентации можно посмотреть прямо здесь, а ниже мы рассмотрим основные изменения и ответы на частые вопросы. Информацию мы будем сопровождать комментариями сотрудников Яндекса в блоге компании, а также цитатами из официальных источников.

Что изменилось в поиске Яндекса?

«Королев» же теперь умеет понимать смысл всей страницы, а не только заголовка title, как было после анонса «Палеха».

Алгоритм должен улучшить выдачу по редким и сложным запросам.

Документы могут не содержать многих слов запроса, поэтому традиционные алгоритмы определения текстовой релевантности не справятся с этой задачей.

Выглядит это примерно так:

В Google работает аналогичный алгоритм – RankBrain:

Область действия алгоритма «Королев» распространяется на все запросы, в том числе на коммерческие. Однако больше всего влияние заметно именно на многословных запросах. Яндекс подтвердил, что алгоритм работает на всем поиске.

Конечно, целью алгоритма было улучшение качества выдачи по редким и сложным вопросам. Проверим на редких и сложных коммерческих запросах, связанных как раз с названием предмета.Например, в этом случае Яндекс действительно понимает, о чем идет речь. Правда, в выдаче в основном обзоры и статьи, а не коммерческие сайты.

А в этом случае поисковик понял, что меня, скорее всего, интересует дрон или квадрокоптер. Конечно же, выдача начинается с Яндекс.Маркет:

Но в некоторых случаях Яндекс бессилен.

Как это работает (+ 11 фото из презентации)

Разберем подробнее презентацию нового алгоритма. Ниже будут только выдержки самых интересных моментов с нашими комментариями и слайды из презентации.

Новая версия поиска основана на нейронной сети. Она состоит из большого количества нейронов. У нейрона есть один выход и несколько входов, он умеет суммировать полученную информацию и после преобразования передавать ее дальше.

Нейронная сеть может выполнять гораздо более сложные задачи и ее можно обучить понимать смысл текста. Для этого нужно дать ей много обучающих примеров.

Работу в этом направлении Яндекс начал с модели DSSM, состоящей из двух частей, соответствующих запросу и странице. На выходе была оценка, насколько они близки по смыслу.

Для обучения нейросети нужно много обучающих примеров.

Согласно презентации, Яндекс использовал для обучения массив данных о поведении пользователей на выдаче и считал связанными по смыслу запрос и страницу, на которую часто кликают пользователи в выдаче. Но как позже пояснил Михаил Сливинский, удовлетворенность пользователя результатами поиска меряются не только кликами:

Как ранее рассказывал в презентации «Палеха» Александр Садовский, наличие клика не говорит о том, что документ релевантен, а отсутствие, что не релевантен. Модель Яндекса предсказывает, задержится ли пользователь на сайте и учитывает множество других метрик удовлетворенности пользователя.

После обучения модель представляет текст в виде набора 300 чисел – семантического вектора. Чем ближе тексты по смыслу, тем больше сходство чисел векторов.

В поиске Яндекса нейронные модели использовались давно, но в алгоритме «Королёв» увеличено влияние нейронных сетей на ранжирование.

Теперь при оценке смысловой близости алгоритм смотрит не только на заголовок, но и на текст страницы.

В «Палехе» нейронные модели применялись только на самых поздних стадиях ранжирования, приблизительно на 150 лучших документов. Поэтому на ранних стадиях ранжирования часть документов терялась, а они могли быть хорошими. Это особенно важно для сложных и низкочастотных запросов.

Теперь вместо вычисления семантического вектора во время исполнения запроса Яндекс делает вычисления заранее – при индексации. «Королёв» проводит вычисления на 200 тыс. документов на запрос, вместо 150, которые были раньше при «Палехе». Сначала такой метод предварительного расчета был испытан на «Палехе», это позволило сэкономить на мощности и находить соответствие запросу не только заголовка, но и текста.

READ  Как установить русификатор на майнкрафт стори мод

Поисковик берет полный текст на этапе индексации, проводит нужные операции и получает значение. В итоге для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу.

Команда Яндекса, которая занималась проектированием и внедрением нового поиска, запускает его.

Обучение искусственного интеллекта

В Яндексе уже много лет задачей сбора данных для машинного обучения занимаются асессоры, которые оценивают релевантность документов запросу. С 2009 по 2013 год поисковик получил более 30 млн таких оценок.

За это время появился поиск по картинкам, по видео, внутренние классификаторы и алгоритмы: количество проектов Яндекса выросло.

Например, вот такие задания встречаются в «Толоке»:

Если хотите подробнее узнать, как пользователи оценивают релевантность ответов, чтобы понимать, какие параметры выдачи оцениваются, рекомендуем почитать инструкции по заданиям или даже попробовать пройти обучение.

За несколько лет в сервисе собралось более 1 млн человек, которые сделали более 2 млрд оценок. Это позволило Яндексу сделать огромный рывок в масштабировании и объеме обучающих данных. Только в 2017 году задания выполняли более 500 000 человек.

Среди заданий есть:

Правила, которым Яндекс хочет научить алгоритм, открыты всем зарегистрированным пользователям в виде инструкций для работников «Толоки». По некоторым заданиям просто собирается субъективное мнение людей.

Вот выдержка из инструкции о том, как Яндекс определяет релевантность документа:

Именно поэтому нельзя сетовать на то, что необъективность асессоров погубила ваш сайт.

Что изменилось в топе Яндекса?

По этим данным можно выдвинуть гипотезу, что уменьшение доли главных страниц в топ-100 и уменьшение возраста документов в пределах топ-100 связано с новым алгоритмом, который помогает получить больше релевантных ответов.

Правда, при этом заметных изменений в топ-10, топ-20 или топ-50 не видно. Возможно, их там нет либо они незначительны. Мы также не заметили существенных изменений выдачи по продвигаемым запросам.

Текстовая релевантность в стандартном понимании никуда не делась. Подборки и более широкие ответы по многословным запросам содержат большое количество страниц с вхождениями слов запроса в title и текст:

Свежесть результатов поиска тоже имеет значение. Пример из презентации Яндекса содержит ряд свежих результатов с искомой фразой целиком.

Хотя, учитывая тот факт, что алгоритм проводит расчеты сразу при индексации, «Королев» теоретически может влиять и на подмешивание результатов быстроботом.

Надо ли как-то оптимизировать тексты под «Королев»?

Скорее наоборот: чем больше поисковик учится определять смысл текста, тем меньше требуется вхождений ключевых слов и тем больше требуется смысла. Но принципы оптимизации не меняются.

Например, еще в 2015 году Google рассказал об алгоритме RankBrain, который помогает поиску лучше отвечать на многословные запросы, заданные на естественном языке. Он неплохо работает, что отметили пользователи в многочисленных публикациях сравнения поиска Яндекса и Google после анонса новой версии алгоритма.

Это не сопровождалось масштабной презентацией и сильно не повлияло на работу специалистов. Никто целенаправленно не занимается «оптимизацией под RankBrain», поэтому и в Яндексе это никак глобально не меняет работу специалиста. Да, появился тренд на поиск и включение в текст так называемых LSI-ключей, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

В алгоритме также заявлено, что анализируется смысл и других запросов, по которым пользователи попадают на страницу. Опять же, в перспективе это должно дать одинаковую или похожую выдачу по синонимичным запросам, так как сейчас результат анализа выдачи порой показывает, что пересечений по синонимичным запросам в выдаче нет. Будем надеяться, что алгоритм поможет устранить подобные несоответствия.

Как проверить влияние алгоритма на свой сайт?

Для сайтов, у которых нет ярко выраженной сезонности, вы можете сравнить количество низкочастотных ключевых фраз, по которым переходили на сайт до запуска алгоритма и после. Например, взять неделю в июле и неделю в августе.

Выбираем «Отчеты – Стандартные отчеты – Источники – Поисковые запросы».

Выбираем визиты из Яндекса:

И фильтром оставляем только те запросы, по которым был 1 переход. Дополнительно стоит исключить фразы, содержащие название бренда.

Далее можно сравнить количество визитов до запуска алгоритма и после.

Также можете посмотреть наличие поисковых фраз, слов из которых у вас нет в тексте. В целом, такие фразы присутствовали среди НЧ-запросов и раньше, просто сейчас их может стать заметно больше.

Источник

Поделиться с друзьями
admin
Оцените автора
( Пока оценок нет )
Как подключить и установить...
Adblock
detector