Alexander Vitkovski (alev_biz) wrote,
Alexander Vitkovski
alev_biz

Искусственный интеллект читает по губам в несколько раз лучше человека-профессионала

Инженеры создали систему искусственного интеллекта для чтения по губам, которая ошибается в несколько раз реже, чем человек-профессионал.

Искусственный интеллект читает по губам в несколько раз лучше человека-профессионала

Разработка пригодится слабослышащим людям, а также может стать основой автоматических переводчиков. Достижение описано в препринте научной статьи, опубликованном на сайте arXiv.org командой во главе с Нандо де Фрейтасом (Nando de Freitas) из Университета Британской Колумбии.



Для миллионов людей чтение по губам – единственный способ "услышать" собеседника. Однако это очень сложная практика. Ею овладевают далеко не все, и даже профессионалы часто допускают ошибки. Поэтому так важно по возможности автоматизировать этот процесс.

Команда де Фрейтаса разработала не одну, а целых три системы искусственного интеллекта, реализующих три этапа одной задачи. Первая нейронная сеть готовила материал для обучения второй. Просматривая ролики на YouTube, она отбирала те, в которых герои говорят по-английски, а их лица чётко видны. Затем компьютер выделял на видео движения рта и нарезал короткие ролики, в каждом из которых была показана артикуляция для одной фонемы.

Так 140 тысяч часов необработанного видео превратились в четыре тысячи часов готового материала для обучения, включающего произнесение более 127 тысяч английских слов. Как сообщается в материале Science, этот набор данных в семь раз превосходит крупнейший из предыдущих аналогов. Он может использоваться для обучения не только данной системы искусственного интеллекта, но и любых других, отмечают разработчики.

Вторая нейронная сеть системы училась распознавать фонемы по клипам, подготовленным первой программой. При этом она учитывала ряд тонкостей, например, тот факт, что артикуляция звука зависит от того, какая фонема ему предшествовала. Наконец, третий компонент складывал из распознанных фонем слова.

После обучения исследователи протестировали своё детище на 37-минутном видео, которое не входило в обучающую выборку. Система верно распознала 59% слов. Предыдущий рекорд составлял всего 33%, а профессионалы угадывали в тех же данных лишь 7% слов. Последняя цифра может показаться удивительно небольшой, но в реальном разговоре человек ориентируется на контекст и на невербальные сообщения ("язык тела"), что повышает эффективность "перевода". В этом исследовании профессионалы имели доступ только к тем данным, что и нейронная сеть, и, возможно, только поэтому безнадёжно ей проиграли.

Разумеется, 41% ошибок программы – это слишком много для непринуждённой беседы. Но авторы надеются в дальнейшем увеличить эффективность системы. После этого её можно будет использовать не только для помощи слабослышащим людям, но и, например, в автоматических переводчиках.

Автор: Анатолий Глянцев





Ссылка на источник

Tags: ИИ, изобретения, инструменты и методы, социальная адаптация
Subscribe

Posts from This Journal “ИИ” Tag

promo alev_biz 12:54, Четверг 1
Buy for 20 tokens
Сообщение о рождении в Китае первых генетически модифицированных детей вызывает гордость за прогресс науки и печаль о несовершенстве человеческой природы. Похоже, это наконец произошло: китайский генетик Хэ Цзянькуй сообщил об успешном редактировании человеческого генома. Две…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments