IT в России и мире в реалиях мирового кризиса
1,421,149 8,494
 

  Slav Rus ( Слушатель )
13 май 2020 12:47:57

Российская технология распознавания речи группы компаний ЦРТ признана лучшей на международном конкурсе CHiME-6.

новая дискуссия Новость  262



7 мая 2020 года, Москва — Технология диаризации и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6). Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. Группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%. Именно на решении этой, самой сложной, задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум – звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок.  Команда группы ЦРТ заняла первое место:

На графике: результаты конкурса, в столбцах — количество допущенных ошибок.

Источник: https://chimechallenge.github.io/chime6/results.html
Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.

Кроме группы ЦРТ, в конкурсе участвовали научные команды со всего мира: и известные IT-компании — Toshiba и ряд других, и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.
продолжение
https://www.speechpr…07-05-2020
  • +0.09 / 5
  • АУ
ОТВЕТЫ (1)
 
 
  slavae ( Слушатель )
13 май 2020 13:15:32

Ну правильно, куча народу понакупила себе домашних микрофонов, передаёт звуки из своего дома на сервер, а товариш майор не резиновый - столько прослушать и распознать не в состоянии )
  • +0.07 / 3
  • АУ