Рoссийский пoискoвик "Яндeкс" объявил о запуске нового алгоритма поиска под названием "Палех", помогающего системе лучше понимать, о чем именно ее спрашивают пользователи. "Палех" позволяет находить страницы, соответствующие запросу не только по ключевым словам, но и по смыслу.
Реализованы новые возможности поискового алгоритма с помощью нейронных сетей. Они призваны улучшить выдачу "Яндекса" по уникальным и низкочастотным запросам. Среди таких запросов, например, детские, когда к поисковику обращаются как к живому собеседнику: [дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика]. Или запросы от людей, ищущих фильм по запомнившемуся эпизоду: [фильм про человека который выращивал картошку на другой планете] ("Марсианин") или [фильм где физики рассказывали даме про дейтерий] ("Девять дней одного года").
В "Яндексе" часто представляют график частотного распределения запросов к поисковику в виде "жар-птицы", "клюв" которой соответствует наиболее частым коротким запросам ([вконтакте], [погода]), "туловище" – запросам средней частотности, а "хвост" – многочисленным редким и уникальным запросам. Поскольку "жар-птица" является частым мотивом палехской росписи, новый алгоритм, улучшающий качество поиска в области "хвоста" "птицы", решили назвать "Палех".
В случае с редкими запросами у поисковика очень мало или вообще нет статистики о том, какие результаты лучше подходят для выдачи. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса — ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному.
Чтобы решить эту задачу, нейросети "Яндекса" обучили переводить заголовки всех проиндексированных поисковиком страниц в группы из трехсот чисел каждая, максимально точно описывающие их смысл. Такие группы назвали "семантическим вектором". Аналогичным образом в набор чисел можно перевести и текст поискового запроса. Чем ближе семантический вектор запроса к семантическому вектору страницы, тем лучше страница соответствует запросу.
Постепенно обучаясь, алгоритмы "Яндекса" будут все лучше находить подходящие под нестандартные запросы страницы, даже если на странице нет ни одного слова из фигурирующих в запросе.
Источник: блог "Яндекса"