Главная » Вебмастеру » Google получил патент на поведенческие факторы

Google получил патент на поведенческие факторы

03.04.19
< 100

Поисковая система Google, в отличие от Яндекса, никогда официально не подтверждала факт использования поведенческих факторов в ранжировании выдачи. Более того во многих случаях это даже отрицалось со ссылкой на низкое качество подобных сигналов.

Например, в 2014 году сотрудник отдела качества поиска Google Андрей Липатцев публично заявлял о том, что поведенческие и социальные факторы, с точки зрения разработчиков алгоритма ранжирования, используемого Google, являются очень плохими и крайне шумными сигналами. Именно поэтому на тот момент они и не учитывались как значимые факторы.

Google получил патент на поведенческие факторы

Однако совсем недавно западные SEO-специалисты обнаружили  датированный 12 марта 2019 года, патент, который принадлежит корпорации Google и называется «Modifying search result ranking based on implicit user feedback» («Изменение ранжирования результатов поиска на основе неявной обратной связи с пользователем»).

Так что же скрывается под «неявной обратной связью с пользователем»? При внимательном изучении патента становится ясно, что речь идет именно о поведенческих факторах.

В частности, в патенте упоминаются следующие сигналы:

  • Запрос, отправленный пользователем, результаты поиска, предоставленные поисковой системой, документ, выбранный пользователем среди предоставленных результатов поиска, а также его позиция в перечне результатов поиска, предоставленных пользователю. Совершенно очевидно, что в рамках этой формулировки  речь идет о так называемых «кликовых» поведенческих факторах, которые имеют непосредственную связь с поведением пользователя на странице поисковой выдачи. Кстати говоря, поисковая система Яндекс учитывает подобные поведенческие факторы как важные сигналы ранжирования на протяжении почти 10 последних лет, начиная с алгоритма «Арзамас», который был официально запущен в апреле 2009 года.
  • Время, потраченное пользователем на изучение выбранного документа. Его также зачастую обозначают не иначе как «длина клика» Теперь понятно, что под длиной клика подразумевается время, прошедшее от момента клика по документу, предоставленному пользователю в результатах поиска до возвращения к результатам поиска и выбора в них нового документа.
  • Язык, который использует пользователь, а также страна, в которой пользователь с наибольшей долей вероятности находится в настоящее время. Упоминание этого сигнала в первую очередь говорит о дифференцированном подходе к рассмотрению поведения пользователей в зависимости от используемого ими языка и страны пребывания. На самом деле вполне логично, что пользователи, которые используют разные языки, а также пользователи, проживающие в разных странах, чаще всего демонстрируют весьма различающиеся предпочтения в поисковой выдаче по одному и тому же запросу.

В свою очередь массив данных о длине кликов в поисковой выдаче по определенному запросу, совершенных различными пользователями оценивается и анализируется на основе длины клика по следующим срезам:

  • запрос-документ;
  • запрос-документ-язык;
  • запрос-документ-язык-страна.

Что же касается классификации кликов по длине – они подразделяются на короткие, средние и длинные. При этом разделение по категориям на основе длины клика во многом зависит от конкретного поискового запроса.

Кроме того отдельное внимание уделяется категории «последнего клика». Каждая категория имеет свой собственный вес, который учитывается в процессе ранжирования. В качестве примера приводятся следующие весовые коэффициенты:

  • Клик малой длины может расцениваться как признак плохой (низкокачественной) страницы и,  исходя из этого, зачастую получает малый вес (например, 0,1).
  • Клик средней длины может интерпретироваться как признак потенциально полезной страницы и, как следствие этого, получать несколько больший вес (например, 0,5).
  • Длинный клик может расцениваться как показатель качественной страницы и благодаря этому он получает гораздо больший вес (например, 1,0).
  • Последний клик (после которого пользователь не возвращается на страницы поисковой выдачи) может расцениваться как показатель хорошей страницы и в результате этого иметь достаточно большой вес (например, 0,9).

Также важно, что при оценке «веса» кликов меньший вес получают клики тех пользователей, которые почти всегда выбирают высоко ранжируемые документы, (по сравнению с кликами пользователей, которые чаще выбирают документы, расположенные на  более низких позициях в поисковой выдаче).

Кроме всего прочего существует разделение пользователей на определенные типы. Вполне справедливо считается, что более опытным пользователям требуется меньше времени на нахождение необходимой им информации. Именно поэтому при учете кликов, совершенных определенным пользователем, может применяться специальный весовой коэффициент, который зависит от индивидуального поведения пользователя сети, например, учитывающий среднюю продолжительность сессии или частоту переходов между документами, представленными в поисковой выдаче.

Помимо этого пользователь может быть определенным образом классифицирован на основе потока поступающих от него поисковых запросов. Например, предполагается, что пользователь, который направляет большое количество запросов по определенной тематике, может иметь высокий уровень знаний в соответствующей теме.

В этом случае информация о его кликах может быть соответствующим образом проанализирована и оценена для будущих поисковых запросов, поступивших от этого же пользователя по этой же теме.

В качестве «меры релевантности» чаще всего применяется некий составной показатель, который учитывает соотношение длинных кликов к коротким или соотношение  количества длинных кликов ко всем кликам для конкретного документа, предоставляемого в ответ на конкретный поисковый запрос (доля длинных кликов).

Также интересно в качестве некой защиты от «шума» к данным об этих соотношениях может быть добавлен параметр сглаживания, обладающий следующим свойством – если суммарное количество кликов невелико, то результат будет стремиться к нулю.

В конечном итоге веб-документы, которые получают относительно небольшое количество кликов, но при этом большинство из них длинные, могут получить больший вес по сравнению с документами, располагающимися на более высоких позициях и получающими за счет этого большее количество кликов, но имеющие относительно небольшую долю длинных кликов.

Что касается самих параметров сглаживания, то они могут варьироваться в зависимости от языка, который использует человек или страны пребывания пользователей. Интересно, что в качестве одного из ярких примеров географического источника запросов из которого исходит большой объем спам-активности, требующий более жесткого применения различных параметров сглаживания, приводится Россия…

Также в обнаруженном патенте говориться о возможности учета дополнительной информации, в частности, такой как позиции, численные значения релевантности и сниппеты как выбранных пользователем веб-документов, так и показанных ему, но не выбранных им.

Если говорить об итоговых значениях меры релевантности, то Google рекомендует использовать их как повышающий коэффициент для значений релевантности, просчитанных алгоритмом ранжирования.

И, наконец, новый патент, полученный Google, акцентирует внимание на необходимости обеспечения максимально возможной защиты о накрутки поведенческих факторов.  Сложно сказать, что актуальность этой проблемы стала понятна только сейчас…

Подводя итог, стоит сказать, что получение корпорацией Google подобного патента отнюдь не означает обязательной реализации приведенных в нем описаний в общедоступной версии ведущей мировой поисковой системы.

А о том, что удержание пользователей на сайте является одной из наших главных задач, мы знаем уже достаточно давно.

Источник

Интересные публикации по этой теме: