Categories: ДослідженняНовинки у слухопротезуванніСтатті про слухові апарати

Нейронні мережі покращують розпізнавання мови в слухових апаратах

Моя мама почала втрачати слух, коли я вчився в коледжі. Я повертався додому, щоб поділитися знаннями, які я отримав, і вона нахилилася, щоб почути мене. Незабаром їй стало важко вести розмову, якщо одночасно розмовляли більше однієї людини. І навіть зі слуховим апаратом вона все одно з усіх сил намагається розрізняти голоси співрозмовників. Коли я зі своєю сім’єю приїжджаємо на вечерю, вона все ще просить нас поговорити по черзі.

Про автора: ДеЛян Ванг, професор кафедри комп’ютерних наук та інженерії, співробітник Центру вивчення мозку і когнітивних наук Університету штату Огайо в Колумбусі. Керує лабораторією сприйняття і нейродинамики, яка займається розробкою алгоритмів для вирішення проблем, пов’язаних з машинним сприйняттям. Ванг отримав докторську ступінь в галузі комп’ютерних наук в Університеті Південної Каліфорнії в Лос-Анджелесі в 1991 році після захисту ступенів бакалавра та магістра в Пекінському університеті. Є головним редактором журналу [Neural Networks].

Нарешті, користувачі слухових апаратів можуть чути мову в переповненій кімнаті

Труднощі з якими зіткнулася моя мама, є класичною проблемою для виробників слухових апаратів. Слухова система людини може природним чином розпізнавати голос в переповненій кімнаті, але створення слухового апарату, що імітує цю здатність, ставить в тупик фахівців з обробки сигналів, експертів зі штучного інтелекту і аудіолігів протягом десятиліть. Британський вчений Колін Черрі вперше назвав це «проблемою вечірки» в 1953 році.

Через понад шість десятиліть, тільки 25 відсотків людей, які потребують у слуховому апараті користуються ним. Найбільше розчарування серед користувачів полягає в тому, що слуховий апарат не може розрізнити, наприклад, голос людини і звук машини, яка проїжджає, коли ці звуки виникають одночасно. Пристрій збільшує гучність всіх звуків і людини і машини, створюючи нескладний гул.

Прийшов час вирішити цю проблему. Щоб поліпшити сприйняття слухових апаратів, лабораторія в Університеті штата Огайо в Колумбусі недавно застосувала машинне навчання, засноване на глибоких нейронних мережах, для поділу звуків. У лабораторії протестували кілька версій цифрової обробки, яка не тільки підсилює звук, але також може розпізнавати і розділяти мову від фонового шуму і автоматично регулювати їх гучність окремо.

“Ми вважаємо, що цей підхід може в кінцевому підсумку відновити розуміння звуків у людини з порушеннями слуху, щоб воно відповідало або навіть перевершило розуміння людини з нормальним слухом. Нам вдалося підвищити, з 10 до 90 відсотків, здатність деяких суб’єктів розуміти вимовлені слова, затінені шумом. Оскільки слухачам не обов’язково розуміти кожне слово у фразі, щоб зрозуміти її значення, ця здатність показала різницю між розумінням речення і нерозумінням. “

Без хорошого слухового апарату сприйняття звуків в світі стане гірше. За оцінками Всесвітньої організації охорони здоров’я, 15 відсотків дорослих, або приблизно 766 мільйонів чоловік, страждає втратою слуху. Це число зростає в міру зростання населення і збільшення частки людей похилого віку. І потенційний ринок для просунутих слухових апаратів не обмежений людьми з втратою слуху. Розробники можуть використовувати ці пристрої для поліпшення розпізнавання мови смартфона. Роботодавці могли б використовувати їх, щоб допомогти робітникам на галасливих заводах, а військові могли б озброювати ними солдат, щоб вони могли чути один одного крізь галасливий хаос війни.

Все це дає великі можливості для збуту. Згідно прогнозу дослідницької фірми MarketsandMarkets в Пуне, Індія, світова індустрія слухових апаратів з річним оборотом в 6 мільярдів доларів США буде рости на 6 відсотків щороку до 2020 року. Задоволення всіх нових користувачів, передбачає пошук способу залишити проблему з розпізнаванням мови в шумі, позаду нас. Зрештою, дослідження на глибоких нейронних мережах вказує шлях вперед.

Щоб відокремити мову від шуму, програма машинного навчання розбиває гучну мову на набір елементів, званих частотно-часовими одиницями. Потім аналізує ці одиниці, щоб виділити 85 функцій, які відрізняють мову від інших звуків. Потім програма передає функції в глибоку нейронну мережу, яка класифікує одиниці як мовні або які базуються на подібних зразках. Нарешті, програма застосовує цифрову обробку, яка відкидає всі немовні одиниці, щоб залишити тільки розділену мову.

Протягом десятиліть інженери-електрики і комп’ютерники намагалися і не змогли домогтися виділення мови за допомогою обробки сигналів. Найбільш популярним підходом було використання детектора голосової активності для виявлення паузи між висловлюваннями людей під час їхнього мовлення. При такому підході система визначає звуки, захоплені в цих проміжках, як «шум». Потім алгоритм віднімає шум з вихідного запису, залишаючи ідеальну мову без перешкод.

На жаль, цей метод, відомий як спектральне віднімання, поганий тим, що видаляє занадто багато мови або занадто мало шуму. Часто в результаті виходить неприємний, так званий музичний шум, через який звук звучить так, як якщо б він був записаний під водою. Проблеми настільки серйозні, що навіть після багатьох років розробки цей метод нічого не робить для поліпшення здатності людей розпізнавати мову в галасливій обстановці.

Ми зрозуміли, що ми повинні використовувати інший підхід. Ми почали з теорії Альберта Брегмана, психолога з Університету Макгілла в Монреалі, Канада, який в 1990 році припустив, що слухова система людини перетворює звуки в окремі потоки. Кожен потік відповідає звуку, що виходить з одного джерела, наприклад, голос співрозмовника. Кожен звуковий потік унікальний по висоті, гучності і напрямку, з якого він йде.

Частково завдяки своїй дивній формі людське вухо захоплює багато звукових потоків одночасно. Потік – це всі звукові хвилі, які виходять від одного джерела, наприклад, такого як собака. Разом ці потоки складають слухову сцену (гавкіт + сирена + розмови).

В цілому, чимало потоків, наприклад, такі як голос співрозмовника, який говорить під рев хокейної гри, складають те, що Брегман називає «слуховою сценою». Якщо звуки використовують одну і ту ж смугу частот в один і той же час, і найгучніший звук в сцені пригнічує інші – це корисний принцип, відомий як слухове маскування. Наприклад, хтось може не почути цокання годинника в кутку кімнати, якщо дощ стукає по даху. Цей принцип, також використовується в форматі MP3 для стиснення файлів до однієї десятої від їх початкового розміру шляхом видалення замаскованих звуків (наприклад, цокання годинника в даному випадку), при цьому користувачі не помічають це упущення.

Аналізуючи роботу Брегмана, ми задавалися питанням, чи можливо створити фільтр для того, щоб визначити чи домінує один звуковий потік над іншими в даний момент в певній частотній смузі. Фахівці з психоакустиці, які займаються вивченням звукового сприйняття, ділять середній слуховий діапазон на дві дюжини смуг від 20 Гц до 20 000 Гц. Ми хотіли створити фільтр, який би показав, який звуковий потік, що містить мову або шум, був сильнішим в певні моменти часу в цих смугах, як перший крок до їх поділу.

Моя лабораторія була першою, яка в 2001 році розробила такий фільтр, який відзначає звукові потоки, в яких переважає мова або шум. За допомогою цього фільтра ми пізніше розробимо програму машинного навчання, яка буде відокремлювати мову від інших звуків на основі декількох характерних ознак, таких як амплітуда (гучність), гармонійна структура (конкретне розташування тонів) і початок (коли починається конкретний звук по відношенню до інших).

Ми назвали цей новий фільтр – ідеальною бінарною маскою. Він маркує шум і мову, які він знаходить в сегментах звуку, званих частотно-часовими одиницями, які позначають певний короткий інтервал в межах певної частотної смуги. Фільтр аналізує кожну частотно-часову одиницю в вибірці з зашумленної мови і позначає кожну з них як 1 або 0. Він додає 1, якщо «цільовий» звук (в даному випадку мова) голосніше шуму, і 0, якщо цільовий звук тихіше, м’якше. Результатом є набір з 1 і 0, які показують переважання шуму або мови в вибірці. Потім фільтр відкидає всі блоки, позначені 0 і реконструює мову з тих, що набрали 1. Для відновлення зрозумілої пропозиції з зашумленної мови певний відсоток частотно-тимчасових одиниць повинен бути відзначений як 1.

Ми почали тестувати бінарну маску в 2006 році в дослідницькій лабораторії ВПС США в Огайо. Приблизно в той же час, команда з Сіракузького університету в Нью-Йорку самостійно оцінили бінарну маску. У цих дослідженнях фільтр допомагав людям з порушеннями слуху, а також людям з нормальним слухом краще розуміти речення, змішані з шумом.

Ми створили мовний фільтр, який працював бездоганно в лабораторії. Але у цього фільтра є нереальна перевага. Ми представили його зі зразками мови та шуму окремо і потім випробовували його за допомогою сумішей тих же зразків. Оскільки йому було дано відповіді (тому він «ідеальний»), фільтр знав, коли мова була голосніше фонового шуму. На практиці мовний фільтр повинен сам по собі і на льоту відокремлювати голос від шуму в кімнаті.

Проте, той факт, що ідеальна бінарна маска значно покращує розуміння мови як для людей з порушеннями слуху, так і для людей з нормальним слухом, має глибокий зміст. Він показав, що методика класифікації, формат контрольованого навчання, може бути використаний для апроксимації ідеальної бінарної маски, як спосіб виділення мови від шуму. Шляхом класифікації звуків машина імітує людський слух. В результаті машина може виконувати різні вправи, запам’ятовувати результати, отримувати зворотний зв’язок і накопичувати досвід. По суті, це те ж саме, що і, то як люди з юних років вчаться розрізняти яблука від апельсин, хоча і те й інше фрукт.

У наступні роки моя лабораторія зробила першу спробу наблизитися до ідеальної бінарної масці з допомогою методу класифікації. Приблизно в той же час, коли ми розробляли наш звуковий класифікатор, група з Університету Карнегі-Меллона в Піттсбурзі, розробила власний метод, заснований на машинному навчанні, для класифікації частотно-тимчасових одиниць з іншою метою: поліпшити автоматичне розпізнавання мови. Пізніше група в Університеті Техасу в Далласі на чолі з покійним Філіпом Лойзе використовувала інший метод классификации. Він став першим, хто продемонстрував значуще поліпшення розбірливості мови для людей з нормальним слухом, покладаючись тільки на монофонічні особливості (на відміну від бінауральних, зображених двома вухами).

Але ці ранні методи класифікації не були достатньо потужними або точними, щоб допомогти користувачам слухових апаратів. Вони не могли впоратися зі складною і непередбачуваною сумішшю шумів і голосів, які відбуваються в світі. Для цього знадобиться щось набагато більш потужне.

Показавши багатообіцяючі перші результати з нашими ранніми методами класифікації, ми вирішили зробити наступний крок, поліпшити систему таким чином, щоб вона могла працювати в шумних реальних умовах. Ми вирішили спробувати зробити те, чого ніколи не робили раніше: створити програму машинного навчання, яка буде працювати в нейронній мережі і відокремлювати мову від шуму після проходження складного процесу навчання. Програма буде використовувати ідеальну бінарну маску для навчання нейронної мережі. І це спрацювало. У дослідженні за участю 24 випробовуваних ми продемонстрували, що ця програма може підвищити розуміння мови у людей з порушеннями слуху приблизно на 50 відсотків.

По суті, нейронна мережа – це програмна система, побудована з відносно простих елементів, які можуть досягати складних рівнів обробки, задіявши всі свої елементи. (Структура системи працює на прикладі того, як нейрони і їх мережі працюють в головному мозку.) Стикаючись з новими прикладами, нейронні мережі, як людський мозок, можуть «навчитися», визначати значимість зв’язків між різними елементами.

Нейронні мережі бувають різних форм і розмірів і з різним ступенем складності. Глибокі (багатошарові) нейронні мережі мають як мінімум два «прихованих» шари обробки, які не пов’язані безпосередньо з вхідним і вихідним шаром. Кожен прихований шар покращує результати, що подаються до нього попередніми шарами, грунтуючись на раніше отриманих знаннях.

Наприклад, програма, призначена для перевірки підпису клієнта, може починатися з порівняння нового підпису зі зразком, включеним в навчальну базу даних. Однак в програму закладено, що новий підпис не повинен точно відповідати оригіналу. Інший шар обробки може визначати, чи має новий підпис певні якості, які залишаються незмінними в підпису людини, наприклад, такі як кут нахилу або особливість не ставити крапку на букві i.

Щоб побудувати власну глибоку нейронну мережу, ми почали з написання алгоритмів для виділення функцій, які могли б відрізняти голоси від шуму на основі загальних змін гучності, частоти і модуляції кожного з них. Ми визначили десятки властивостей, які могли б допомогти нашій програмі розрізняти мову і шум, і ми використовували 85 з них, щоб зробити алгоритми максимально ефективними і потужними. Серед найбільш важливих властивостей, які ми визначили, були частоти звуків і їх інтенсивність (гучна або тиха).

Потім ми навчили глибоку нейронну мережу використовувати ці 85 властивостей, щоб відрізняти мову від шуму. Це навчання проходило в два етапи: по-перше, ми встановлюємо параметри програми за допомогою навчання без вчителя. Ми заклали в програму безліч прикладів різних властивостей, щоб підготувати її до видів сигналів, які згодом потрібно буде розпізнавати автоматично.

Другий етап, полягав у контролі навчання. Ми використовували зразки гучної мови і відповідні їм результати на ідеальній бінарній масці. Зокрема, набір 1 і 0, які складають ідеальну бінарну маску, був схожий на лист відповідей, який ми використовували для тестування і поліпшення здатності нашої програми відокремлювати мову від шуму. Для кожного нового зразка програма визначала набір ознак, характерних мові або шуму. Потім, після аналізу цих ознак – частот, інтенсивностей і т. д. – фільтр виконує попередню класифікацію – це була мова або це був шум? – і порівнює результат з тим, що був отриманий ідеальною бінарною маскою. Якщо результат сильно відрізнявся від тієї послідовності нулів і одиниць, яку ми отримали з використанням бінарної маски, ми відповідним чином перенастроювали параметри нейронної мережі.

Щоб внести ці коригування, ми спочатку розрахували розбіжності між результатом отриманим від нейронної мережі, і результатом, отриманим від бінарної маски. Як тільки ми вирахували помилку, ми використовували співвідношення між частинами нейронної мережі, щоб в разі повторного виконання тієї ж класифікації розбіжність зменшилася. Навчання нейронної мережі полягає у виконанні цієї процедури сотні і тисячі разів.

Одним з важливих удосконалень на цьому шляху було створення другої глибокої нейронної мережі, яка отримує результати першої, і покращує їх. У той час як ця перша мережа була зосереджена на маркуванні атрибутів в кожній окремо взятій частотно-часовій одиниці, друга мережа буде перевіряти ознаки найближчих прилеглих до першої одиниць. Щоб зрозуміти принцип цієї роботи, наведемо приклад: якщо перша мережа була схожа на людину, яка оглядає будинок на продаж всередині, друга мережа схожа на людину, яка оглядає прилеглу територію. Іншими словами, друга мережа надала першій мережі додаткову інформацію про мови і шуми, які вона обробляла, і додатково поліпшила точність класифікації. Наприклад, склад слова може тривати багато частотно-тимчасових одиниць, а фоновий шум може різко змінитися під час розмови.

В кінці контрольованого навчання класифікатор глибинних нейронних мереж виявився набагато краще, ніж більш ранні методи відділення мови від шуму. Фактично, цей алгоритм був першим з моноуральних технологій, який значно поліпшив здатність слухачів з вадами слуху розуміти сенс вимовних фраз, на тлі шуму.

Щоб перевірити це вживу, ми попросили 12 людей з порушеннями слуху та 12 людей з нормальним слухом прослухати записи мови на тлі різних шумів. Записи були парні: спочатку мова і шум разом, а потім той же запис після обробки нашою програмою, що працює на глибоких нейронних мережах. Пропозиції, які включали в себе такі фрази, як «тут стає холодно» і «вони їли лимонний пиріг», були заглушені двома типами шуму – постійним гудящим шумом і мимренням натовпу людей, які говорять одночасно. Стійкий шум був схожий на звук працюючого холодильника, в якому звукові хвилі повторюються, а форма частотного спектра не змінюється з плином часу. Ми створили гучну фонову завісу, додавши голоси чотирьох чоловіків і чотирьох жінок, щоб імітувати “коктейльну вечірку”.

Люди в обох групах продемонстрували значне поліпшення здатності розуміти мову на тлі шуму після того, як мова була оброблена нашою програмою. Люди з вадами слуху змогли зрозуміти тільки 29 відсотків слів, оповитих балаканиною, без програми, але вони зрозуміли 84 відсотки після обробки. Деякі з них почали від розуміння тільки 10 відсотків слів в початковому зразку до розуміння приблизно 90 відсотків з програмою. З постійним шумом були аналогічні результати у людей з порушеннями слуху – розпізнавання зросло з 36 до 82 відсотків.

Навіть люди з нормальним слухом змогли краще зрозуміти мову в шумі, а це значить, що наша програма може допомогти набагато більшій кількості людей, ніж ми спочатку припускали. Слухачі з нормальним слухом розуміли 37 відсотків слів, вимовлених на тлі постійного шуму без програми, і 80 відсотків з нею. Що стосується сприйняття на тлі безлічі голосів одночасно, результати покращилися з 42 відсотків до 78 відсотків.

Один з найбільш інтригуючих результатів нашого експерименту було отримано, коли ми вирішили перевірити, чи зможуть люди з вадами слуху, за допомогою нашої програми, перевершити людей з нормальним слухом? Відповідь – так. Слухачі з порушенням слуху, які використовували нашу програму, зрозуміли майже на 20 відсотків більше слів в рівномірному шумі і приблизно на 15 відсотків більше слів в багатоголосому шумі, ніж ті, у кого нормальний слух, і які покладаються виключно на свою власну слухову систему. Завдяки цим результатам наша програма, побудована з глибоких нейронних мереж, стала найбільш близькою до вирішення проблеми “коктейльної вечірки” з усіх можливих на сьогоднішній день.

Звичайно, існують обмеження можливостей програми. Наприклад, шум на записах, які використовувалися в експериментах, все ще сильно схожі на ті шуми, на яких програма вчилася. Щоб функціонувати в реальному житті, програмі необхідно швидко навчитися розпізнавати багато типів шумів.

Наприклад, звук вентиляції відрізняється від шуму компресора холодильника. Крім того, в наших дослідженнях, ми не врахували відлуння від стін і предметів у кімнаті, що посилює проблему “коктейльної вечірки”.

З тих пір, як ми опублікували ці ранні результати, ми придбали базу даних звукових ефектів – це 10000 шумів, розроблену для кінематографістів, і використовували її для подальшої підготовки програми. В цьому році ми виявили, що оновлена програма домоглася значного поліпшення розуміння мови як для слухачів з вадами слуху, так і для слухачів з нормальним слухом. Тепер, завдяки фінансуванню Національного інституту глухоти та інших проблем комунікації, ми досліджуємо програму в нових звукових середовищах і тестуємо її з великою кількістю слухачів з втратою слуху.

Зрештою, ми вважаємо, що програму потрібно навчати на потужних комп’ютерах і вбудувати безпосередньо в слуховий апарат або завантажувати на смартфони з можливістю бездротового з’єднання, наприклад, Bluetooth, для подачі обробленого сигналу в режимі реального часу в слуховий апарат. З кожним удосконаленням програми власники слухових апаратів можуть оновлювати свої пристрої. Ми подали кілька патентів на цю програму і працюємо з партнерами по її комерціалізації з провідним виробником слухових апаратів в США компанією Starkey Hearing Technologies , в Eden Prairie, Міннесота.

Сьогодні «проблема коктейльної вечірки» виглядає не такою нерозв’язною, як ще кілька років тому. Тепер ми зможемо створювати програмне забезпечення, яке, в кінцевому підсумку вирішить цю проблему завдяки більш інтенсивному навчанні в більш гучних ситуаціях. Насправді, цей процес схожий на те, як діти вчаться розпізнавати мову серед шуму навколишнього світу – постійно перебуваючи серед шуму й мови. Накопичуючи досвід і приходить розуміння. У цьому вся принадність методу. Як і у вихованні дитини – час іде нам на користь.

Джерело: https://spectrum.ieee.org