Искусственный интеллект Google читает по губам лучше человека’ />

Aлгoритмы искусствeннoгo интeллeктa, разработанные командой Google DeepMind в сотрудничестве с учеными Оксфордского университета, превзошли человека в умении понимать речь наблюдением артикуляции говорящего. У созданной ими программы результаты оказались на 35% лучше, чем у профессионального "считывателя" по губам.

Как сообщает New Scientist, ИИ-систему Google обучили на шести телешоу (таких как Newsnight, BBC Breakfast и Question Time), которые выходили в эфир с 2010-го по 2015-й года, "скормив" ей видео общей продолжительностью 5 тысяч часов (около 118 тысяч предложений). Эффективность алгоритмов проверялась на новых выпусках телепрограмм, транслировавшихся с марта по сентябрь 2016-го.

Из случайной выборки 200 видеофрагментов человек, профессиональный чтец по губам, безошибочно распознал только 12,4% произнесенных слов, в то время как компьютерные алгоритмы — 46,8%. При этом полученные результаты могли быть еще лучше, однако в некоторых случаях аудио и видео отставали почти на секунду, что мешало ИИ правильно выстраивать ассоциативные связи.

Читайте также: Искусственный интеллект Google совершил прорыв в синтезе речи

 

За две недели до этого система глубинного, или глубокого обучения (алгоритмы, которые учат нейросети "думать" и выстраивать логические цепочки), разработанная исследователями из Оксфорда, также превзошла человека на тесте GRID. Но если словарный запас GRID состоял из всего лишь 51 уникального слова, то в ТВ-шоу BBC таковых было произнесено 17 500, что представляло гораздо более трудную задачу для компьютерных алгоритмов.

ИИ-систему Google вряд ли можно будет задействовать для прослушки, т.к. микрофоны направленного действия справляются с этой задачей намного лучше. Более вероятный сценарий — применение алгоритмов в потребительских устройствах, чтобы помочь Android-смартфонам понять, что им пытается сказать пользователь в шумной обстановке.

Источник: New Scientist