Июн 10

Искусственный интеллект научился выделять речь одного человека из общего шума, издаваемого множеством говорящих людей

Категории:

автор: admin

Люди, часто посещающие различные приемы и вечеринки, знают, что требуется не очень большое количество внимания для того, чтобы было можно сконцентрироваться на речи единственного человека, говорящего в помещении, заполненном негромкой речью большого количества находящихся там людей. Всю сложнейшую работу по выделению речи интересующего нас собеседника берет на себя наш мозг, но когда дело касается технологий автоматического выделения речи одного человека из общего шума, то результаты работы таких технологий оставляют желать намного лучшего.

Прорыв в этой области удалось совершить специалистам японской компании Mitsubishi Electric. На мероприятии R&D Open House, которое состоялось в Токио 24 мая, вниманию общественности была представлена новая технология разделения и распознавания речи. Эта технология смогла успешно разделить речь двух человек, говорящих в один микрофон одно и то же предложение на разных языках. Работа системы разделения производилась практически в режиме реального времени, при этом, задержка не превышала 3 секунд. Точность разделения речи составила 90 процентов. Но когда в микрофон начали говорить одновременно уже три человека, точность разделения речи снизилась до 80 процентов.

Данные испытания работы системы разделения речи проводились в идеальных условиях, в помещении с хорошей звукоизоляцией при условии соблюдении тишины со стороны других присутствовавших там людей. Но и в данном случае новая система показала высочайшие результаты, точность работы других подобных систем в таких же условиях не превышает 50 процентов.

Столь высокая точность разделения речи была получена за счет использования технологии Deep Clustering, одной из разновидностей технологии глубинного машинного изучения, являющейся основой большинства существующих систем искусственного интеллекта. Сначала система прошла «курс» обучения, исследовав самостоятельно, как можно выделять речь одного человека из потока «смешанных» аудиоданных. Нейронная сеть, лежащая в основе созданной системы, разбивает речевые сообщения на примитивные элементы, основываясь на данных о высоте голоса говорящего человека, интонации и т.п. Затем специальный алгоритм сортировки выбирает из общего массива элементы, имеющие общие черты и заново формирует из них звуковой ряд.

«В отличие выделения речи из фоновых шумов, выделение речи одного человека из «голосового» шума говорящих одновременно людей является сложнейшей задачей, так как у звуков голоса разных людей имеется масса подобных элементов» — рассказывает Энтони Ветро (Anthony Vetro), руководитель исследовательской лаборатории компании Mitsubishi Electric в Кембридже, — «В большинстве систем задача разделения голоса решается при помощи установки двух или большего количества микрофонов, но в случае использования всего одного микрофона, с задачей разделения голоса может справиться только искусственный интеллект».

Основными достоинствами новой системы разделения речи является то, что эта система не требует никакого предварительного обучения или настройки для работы с голосом какого-либо определенного человека. Во-вторых, точность ее работы никак не зависит от языка, на котором говорит человек. «Мы будем использовать эту технологию там, где требуется повышенная точность распознавания голосовых сообщений» — рассказывает Йохеи Окато (Yohei Okato), — «А это требуется в системах голосового управления автомобилями, лифтами, бытовыми приборами и прочими электронными устройствами».

Источник: dailytechinfo.org

У данного сообщения нет этикеток

Авторские права

Последние новости в компьютерной промышлености, робототехники и мультимедии. Все материалы на данном сайте предоставляются исключительно в ознакомительных целях. Права на материалы принадлежат их владельцам. Администрация сайта ответственности за содержание материала не несет. Если Вы обнаружили на нашем сайте материалы, которые нарушают авторские права, принадлежащие Вам, Вашей компании или организации, пожалуйста, сообщите нам.

Рубрики

Искусственный интеллект научился выделять речь одного человека из общего шума, издаваемого множеством говорящих людей

лента новостей

Архивы

Авторские права

Рубрики

Искусственный интеллект научился выделять речь одного человека из общего шума, издаваемого множеством говорящих людей

Метки

лента новостей

Архивы

Авторские права