Alexander Vitkovski (alev_biz) wrote,
Alexander Vitkovski
alev_biz

Category:

Нейросеть научилась «слышать» изображения

Сейчас нейросети умеют неплохо распознавать изображения и понимать речь. Но вот определять естественные звуки – например, шум волн или пение птиц — пока не научились. Но это только пока!

Нейросеть научилась «слышать» изображения

Программисты Массачусетсткого технологического института решили исправить это недоразумение и научили нейросеть распознавать такие звуки опосредованно – через картинки и видео. Подробнее о проекте можно почитать в препринте статьи и описании на сайте MIT.



Не так просто обучить нейросеть распознавать образы и звуки — нужно сперва обработать данные вручную. Поэтому сначала готовую нейросеть учили распознавать изображения с помощью двух аннотированных баз данных. А уже потом загрузили в нее 26 терабайт видео из Flickr. Это около двух миллионов роликов! Если бы вы захотели их пересмотреть, понадобилось бы около двух лет.

Учёные использовали и вторую нейросеть – в нее они загрузили аудиодорожки из тех же видео. Ей нужно было правильно определить наименования сцен и объектов, полученных от первой сети. Вот так и получилась нейросеть, которая может распознать звук – например, определить, что пение птиц ассоциируется со сценами леса, картинками деревьев и птичьих домиков.

Так нейросеть овладела языком изображений. Теперь осталось перевести его на язык понятных наименований звуков. Программисты научили систему сопоставлять материал с набором стандартных звуковых наименований. Они использовали базу аннотированных аудио, которая состояла из 2000 звуков, разделенных на 50 категорий. С ними система ассоциировала свои данные.

Нейросеть научилась «слышать» изображения

Систему протестировали на двух стандартных базах звукозаписей. Если в базе было 10 категорий звуков, нейросеть распознавала их с точностью 92%, а если 50 категорий – с 74%. Для сравнения: если с теми же данными работают люди, точность составляет 96 и 81% соответственно.

Программисты MIT надеются, что система сможет улучшить контекстную чувствительность мобильных устройств. Например, можно соединить ее с GPS. И когда вы будете смотреть фильм в кинотеатре, например, ваш умный телефон сможет автоматически перенаправлять вызовы на автоответчик.



Текст: Любовь Пушкарская





Ссылка на источник

Tags: ИИ, изобретения, нейроновости, обучение, технологии
Subscribe

Posts from This Journal “ИИ” Tag

Buy for 30 tokens
Вчера многие СМИ проводили опрос и, что характерно, большинство людей до сих пор считают себя жертвами перестройки Михаила Сергеевича Горбачёва. А что в действительности принесла нам Перестройка? Давайте разберемся. Вот вам лично мой опыт жизни в СССР Я родился в 1980 году и уже с 2,5 лет…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments