Снижение слуха и нарушение мозгового кровообращения. Факты и рекомендации

Жилинская Екатерина Викторовна

Актуальность темы исследования

По данным Всемирной организации здравоохранения (ВОЗ) к настоящему времени в мире насчитывается около 360 млн. людей с нарушениями слуха, а среди лиц старше 65 лет приблизительно треть страдает от инвалидизирующей тугоухости (ВОЗ, 2017).
Одна из основных проблем пациентов со снижением слуха, существенно ухудшающая их качество жизни, - нарушение разборчивости речи, ведущее к социальной изоляции больных. Принято считать, что подавляющее большинство случаев снижения разборчивости речи обусловлено периферическими расстройствами (на уровне улитки), однако все больше исследований доказывают высокую распространенность нарушений разборчивости речи, вызванных патологией центральных отделов слуховой системы, при этом пороги слуха пациентов по результатам тональной пороговой аудиометрии могут быть даже в пределах нормы. Особенно высока частота встречаемости центральных слуховых расстройств у лиц пожилого и старческого возраста: они имеют место у 74% лиц старше 55 лет (Golding M. et al., 2004).
На настоящий момент не разработано эффективного медикаментозного лечения дисфункций центральной нервной системы, приводящих к нарушению разборчивости речи (Chermak G.D., Musiek F.E., 2014), поэтому даже при хорошо настроенном слуховом аппарате проблемы пациентов в общении зачастую остаются нерешенными. Это вызывает необходимость поиска новых подходов к диагностике и коррекции нарушений разборчивости речи у пациентов с хронической сенсоневральной тугоухостью.
Степень разработанности темы исследования. Исследование нарушений разборчивости речи занимает существенное место в сурдологии и неврологии; отмечен прогресс в направлении создания новых методов диагностики и коррекции данных расстройств. Накапливающиеся научные и клинические данные улучшают наше понимание причин нарушений разборчивости речи, в том числе центрального генеза, механизмов их возникновении, возможностей компенсации дефицита. Число исследований и публикаций, посвященных центральным слуховым расстройствам, включающим нарушение разборчивости речи, в последние годы значительно увеличилось, что показывает растущий интерес к этой теме, критериям постановки диагноза и способам реабилитации (Musiek F.E., Chermak G.D., 2014). Однако большинство исследований и публикаций проводятся в зарубежных странах, и преобладающее количество методов диагностики и коррекции разработано для англоязычных пациентов, в России же на данный момент этой теме не уделяется достаточного внимания, существует немного доступных апробированных тестов и методик реабилитации.
Поиск более точных методик диагностики нарушений разборчивости речи, способов коррекции дефицита приведет к увеличению эффективности реабилитации.

Цель исследования – повышение эффективности топической диагностики и реабилитации при нарушениях речевой разборчивости у пациентов с хронической сенсоневральной тугоухостью (ХСНТ).

се мы не раз оказывались в ситуации, когда различные шумовые помехи настолько мешали разговору, что слова собеседника становились совершенно неразборчивыми. А если проводить в таких условиях видеосъемку, то речь, звучащая в кадре, станет абсолютно непонятной, поскольку исчезнет и визуальный контакт с собеседником.

К сожалению, оставляет желать лучшего и качество речи при передаче ее через Интернет. В этом может убедиться любой, кто воспользуется одной из существующих коммуникационных программ для передачи голоса через IP на базе, например, протоколов Н.323. При этом принципиального улучшения качества передачи речи при существующих методах маршрутизации в Интернете ждать не приходиться, ведь до сих пор считалось, что круг пользователей такой связи весьма ограничен. Казалось, что это могло заинтересовать лишь индивидуальных владельцев персональных компьютеров, жаждущих доступного по цене общения со своими друзьями на другом конце света, или корпоративных пользователей, пытающихся максимально удешевить связь между офисами в разных городах. Но если делать Интернет-телефонию общедоступной услугой, за которую можно взымать деньги, то, естественно, необходимо повышать качество связи, которое она обеспечивает.

Разборчивость речи

то же такое разборчивость речи? В принципе, разборчивость является некоторой интегральной оценкой речевого сигнала и в соответствии с международным стандартом ISO/TR 4870 определяется как «степень, с которой речь может быть понята (расшифрована) слушателями». Под этим понимается степень, с которой слушатели могут понять смысл фразы, идентифицировать слова, слоги и фонемы. В соответствии с этим различают различные виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, однако, все тесно связаны друг с другом и могут быть пересчитаны одна в другую.

Однако подобное определение субъективно и предполагает организацию некой экспертизы. Для определения разборчивости, в частности при оценке акустических свойств аудиторий, театральных, концертных залов, студий и других помещений, на практике используются различные методы и стандарты: ГОСТ 25902-83, ГОСТ 51061-97, ANSI S3.2 и др. Но все они предлагают довольно сложные, длительные и дорогостоящие процедуры, а объективные методы определения разборчивости, позволяющие получить быстрые и автоматизированные оценки, которые хорошо совпадают с субъективными экспертизами, пока еще разработаны недостаточно, хотя работа ведется уже на протяжении многих лет.

В настоящее время разработано большое количество таких методов: AI (Articulation Index) - индекс артикуляции; %ALcons (Percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (Speech Transmission Index) - индекс передачи речи; RASTI (Rapid Speech Transmission Index) - быстрый индекс передачи речи; SII (Speech Intelligibility Index) - индекс разборчивости речи и многие другие, соответствующие стандартам ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и пр.

Так, например, один из критериев, регламентированный международными нормативными документами, представляет собой безразмерный коэффициент, который может изменяться от 0 до 1. При этом его значения соотносятся с субъективной оценкой разборчивости речи в соответствии со следующей стандартизованной зависимостью:

Для расчетов разборчивости выбирается частотная полоса речевого сигнала в диапазоне от 150 до 7000 Гц (или с запасом - от 125 до 8000 Гц), поскольку внутри этой полосы располагаются практически все гласные и согласные русской речи. Как видите, речевой сигнал в этом случае достаточно широкополосный для того, чтобы различные помехи смогли внести свой негативный вклад в понижение разборчивости. При этом основная энергия согласных звуков сосредоточена вокруг 2000 Гц, из-за чего в результате маскировки шумом примерно на такой частоте значительно уменьшается вероятность восприятия (отметим также, что согласные звуки ниже по уровню и поэтому пропадают быстрее), а следовательно, падает уровень разборчивости речи. Интересно отметить, что при потере почти половины звуковой разборчивости слоговая разборчивость сохраняется на уровне 80%, то есть речь обладает достаточным запасом в плане информационной избыточности.

Как показывает анализ, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал, модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит фразы, то есть скоростью артикуляции. Эксперименты показали, что частоты модуляции обычной речи лежат в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5-7 Гц. Соответственно уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой, а потому приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи, с учетом искажений и шумов, происходит снижение разборчивости сигнала, что может быть оценено по степени уменьшения глубины его модуляции (изменения формы огибающей сигнала).

Как решают эту проблему профессионалы

адо сказать, что профессионалы стараются вообще не связываться с неразборчивой речью и предпочитают сразу записывать чистый звук - либо отдельно, либо при помощи специальных узко направленных микрофонов.

В результате длительных поисков оборудования, хоть как-то подходящего для решения проблемы повышения разборчивости уже записанной речи, автору удалось обнаружить лишь безумно дорогое устройство полосового обесшумливания фирмы Dolby Laboratories, именуемое Cat. No. 43 (просьба не путать с устройствами шумопонижения той же фирмы).

Действительно, из, казалось бы, широкополосного речевого спектра можно выделить частотные полосы, в которых имеются максимумы акустической энергии от речевой составляющей, и обрабатывать их по отдельности, добиваясь тем самым очищения полезного сигнала. Надо ли говорить, что вас ожидает кропотливая ручная работа, если, конечно, вы хотите улучшить разборчивость произносимого - без ущерба для динамического диапазона оригинальной фонограммы. Безусловно, придется поработать над средней плотностью фонограммы в каждом «новом» канале и с соотношением «полезный сигнал/помеха».

Профессионалы предпочитают сразу записывать чистый звук, иначе последующая обработка в системах типа Dolby Laboratories Cat. No. 43 обойдется им очень дорого

Но почему не решать эту проблему программно, с использованием «умных» компьютеров? Производители подобных продуктов вроде бы имеются (например, компании SIA Software, DAC или та же Dolby Laboratories), но успехи в этой области, похоже, находятся на том же уровне, что и в отношении программ автоматического распознавания речи и преобразования ее в текст. Таким образом, в настоящее время таких программ для реальной работы (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, весьма нескоро.

Однако петербуржская компания «Центр речевых технологий» (ЦРТ), которая работает в этой области с 1990 года, кажется, добилась определенных успехов. Компания ЦРТ (www.speechpro.ru) имеет в своем арсенале целый набор программных и аппаратных средств, предназначенных для шумоочистки и повышения качества звуковых, и в первую очередь речевых сигналов, - это компьютерные программы, автономные устройства, платы (DSP), встраиваемые в устройства каналов записи или передачи речевой информации. В частности, компания разработала такие программы, как SIS, SoundCleaner, а также аппаратные устройства серии «Золушка», «Тишина» и др. Данные устройства повышают разборчивость речи в условиях воздействия шумов и искажений, делают ее прослушивание более комфортным, что необходимо экипажам самолетов, авиадиспетчерам, операторам служб экстренной помощи, машинистам локомотивов и пр. При этом подобное устройство может быть встроено практически в любой аналоговый или цифровой телефонный аппарат, радиостанцию, телефонную гарнитуру и т.п.

Так, например, первым покупателем платы «Тишина» стала американская компания, которая использует ее в гонках NASCAR для обеспечения качественной связи между пилотом, командой и болельщиками.

Специалисты фирмы принимали участие в восстановлении аудиоинформации, записанной на борту затонувшей подлодки «Курск» (итогом полугодовой работы стали 23 компакт-диска со 120 часами восстановленной звуковой информации и 340 страниц дословного содержания фонограмм речи), на потерпевших катастрофу воздушных судах, а также при расследовании ряда уголовных дел, для которых требовалось установить содержание фонограмм речи.

SoundCleaner

есомненным лидером в линейке продуктов шумоочистки ЦРТ является программный пакет SoundCleaner. В 2000 году программа SoundCleaner официально зарегистрирована Российским агентством по патентам и товарным знакам.

Комплекс шумоочистки речи SoundCleaner представляет собой профессиональный набор программно-аппаратных средств, предназначенных для восстановления разборчивости речи и очистки звуковых сигналов, записанных в сложных акустических условиях или передаваемых по каналам связи.

Портативная система шумоочистки речи SoundCleaner может помочь в повышении
разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях

Это действительно уникальный программный продукт, предназначенный для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала. И именно он может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях (в том числе архивных).

Естественно, он эффективнее работает в отношении шумов и искажений звука известной природы, таких как типовые шумы и искажения каналов связи и звукозаписи, шумы помещений и улицы, работающих механизмов, транспортных средств и бытовой техники, голосовой «коктейль», медленная музыка, электромагнитные наводки систем питания, как шумы компьютерной и другой техники, эффекты реверберации и эха. В принципе, чем регулярнее и равномернее шум, тем успешнее SoundCleaner с ним справится.

Однако при двухканальном съеме информации он существенно снижает влияние шумов любого типа. Так, например, SoundCleaner имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Эти методы основываются на том, что при выделении полезного сигнала используется дополнительная информация о свойствах помехи, представленная в опорном канале.

Если возникает необходимость решать нестандартные задачи по обработке тех или иных фонограмм, то программа SoundCleaner предоставляет возможность гибкой настройки процедуры обработки сигнала, включая редактирование самой схемы обработки. Таким образом, пользователи любого уровня подготовки могут успешно решать задачи шумоподавления, пользуясь автоматическими или ручными настройками программы. Для менее опытных существует 13 готовых схем обработки наиболее типичных зашумлений и искажений сигналов (электронаводка, шум транспорта, частотные и амплитудные искажения, помехи радиосвязи и др.), которые помогут в борьбе с различными видами известных шумов и помех. При этом каждая схема поддается корректировке, а более опытные пользователи могут разработать собственные схемы, которые потом можно сохранить в качестве типовых для повторного применения.

В комплект поставки включаются звуковые файлы примеров зашумленных речевых сигналов и оптимизированных для их обработки конфигураций и схем фильтрации, так что освоение и работа с программой будут происходить просто и довольно эффективно.

Начиная с версии 5.10 SoundCleaner может работать в качестве DirectX plug-in, сохраняя при этом все возможности для автономной работы. В этом режиме программа может работать в составе таких известных звуковых редакторов, как Adobe Audition (1.0 и выше), Sound Forge (6.0 и выше) или Wave Lab 4.0. В принципе, для работы в автономном режиме в SoundCleaner есть свой звуковой редактор Wave Assistant editor, который включает набор стандартных средств для редактирования сигнала и проведения его подробного электроакустического и спектрального анализа с целью выбора оптимального режима обработки.

Структурно программа представляет собой набор автономных модулей работы со звуком (всего имеется 19 таких модулей), объединенных в основной оболочке. Каждый модуль имеет свою панель управления и обрабатывает звук по собственному алгоритму, после чего передает его на следующий модуль. Общее количество одновременно используемых модулей ограничено только вычислительными возможностями компьютера.

Архитектура программного комплекса позволяет легко наращивать количество используемых типов модулей, обеспечивая тем самым длительный жизненный цикл программы (ибо компания создает все новые и новые модули). В программе предусмотрена возможность создания из таких модулей и использования схем обработки трех различных типов: одноканальной для сигнала моно или двухканальной с независимой обработкой в левом и правом каналах (в ряде случаев чрезвычайно эффективным оказывается использование для выделения полезного сигнала двух разных каналов).

Сигнал (до и после обработки) непрерывно отображается в виде осциллограммы и мгновенного спектра. Управление шумоочисткой осуществляется в масштабе реального времени: изменять настройки каждого модуля можно в любой момент, не прерывая воспроизведения, причем без потери сигнала, что очень важно для оперативного выбора параметров буквально на слух.

Ввод и обработка звукового сигнала могут производиться как от внешнего источника (линейного выхода аудиоаппаратуры, микрофона), так и из звукового wav-файла. Программа может работать с моно- или стереосигналами форматов ИКМ 8 и 16 бит, mu(a)-Law или 24 бит float с частотой дискретизации от 8 до 48 кГц и сохранять их после обработки с исходной частотой дискретизации в формате ИКМ 16 бит.

ClearVoice Denoiser — демонстрационная программа автоматического подавления шумов

SoundCleaner работает под управлением ОС Windows 9х/Ме/NT/2000/XP на стандартном PC (начиная с Pentium II или Celeron с 64 Мбайт оперативной памяти) со стандартной Windows-совместимой полнодуплексной звуковой картой. Для получения гарантированно высокого качества входного и выходного сигналов для старших версий продукта предусмотрена поставка профессиональных устройств ввода/вывода сигнала: 16-разрядного STC-H216 или 24-разрядного STC-H246 «Камертон». У программы есть русскоязычный пользовательский интерфейс. С сайта компании можно скачать ClearVoice Denoiser - демонстрационную программу автоматического подавления шумов. Основные алгоритмы шумоочистки из программы SoundCleaner реализованы также в виде набора встраиваемых программных модулей (SDK), которые могут использоваться другими разработчиками программного обеспечения. Демо-версии SDK доступны на сайте производителя.

Компьютерный транскрайбер, к сожалению, пока еще не является программой автоматического распознавания речи и преобразования ее в текст. В настоящее время таких программ для реальной работы на русском языке не существует, и появятся они, скорее всего, не скоро. Транскрайбер - это, скорее, компьютерный цифровой магнитофон, управляемый из специализированного текстового редактора.

Данные устройства предназначены для повышения скорости и комфортности документирования звукозаписей устной речи при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, при безбумажном делопроизводстве и во многих других случаях. Их отличает простота, удобство использования и доступность для непрофессиональных операторов: скорость работы по набору текста возрастает для профессиональных операторов, печатающих вслепую, в 2-3 раза, а для непрофессионалов - в 5-10 раз! Кроме того, значительно уменьшается механический износ магнитофона и ленты, если речь идет об аналоговом источнике. При этом у компьютерных транскрайберов существует интерактивная возможность сверки набранного текста и соответствующего звукового трека. Связь текста и речи устанавливается автоматически и позволяет в набранном тексте при подведении курсора к исследуемому фрагменту текста мгновенно автоматически находить и прослушивать соответствующие звуковые фрагменты речевого сигнала.

Повышения разборчивости речи можно добиться здесь как путем замедления скорости воспроизведения без искажения тембра голоса, так и путем многократного повторения неразборчивых фрагментов в режиме кольца.

По желанию заказчика компания может продать транскрайбер с ножной педалью, посредством которой осуществляется управление функциями цифрового магнитофона, что тоже повышает производительность и комфортность работы. Возможен и вариант программы под стандартную звуковую карту типа Sound Blaster.

Заключение

Настоящее время созданием международных рекомендаций по оценке разборчивости речи занимается специальная группа Комитета стандартов AES (председатель П.Мапп). Однако специалисты этой группы занимаются преимущественно сравнительным анализом различных методов оценки этой разборчивости.

Но если так сложна проблема оценки разборчивости речи, что уже тогда говорить о методах, автоматически повышающих эту разборчивость! Ведь разборчивость речи зависит не только от факторов, которые поддаются объективным измерениям (уровень шумов и др.), но и от таких субъективных факторов, как уровень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состояние его слуха и др. Как видите, создание любой автоматизированной компьютерной системы, работающей с речью, - задача чрезвычайно сложная, но поскольку она важна для многих областей, особенно для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, то можно надеяться, что когда-нибудь надежные системы будут созданы и для точного распознавания речи.

На нашем CD-ROM вы найдете демонстрационные версии программ SoundCleaner и ClearVoice Denoiser.

УДК 534.773

И.В. ПРАСОЛ, канд. техн. наук, ХНУРЭ (г. Харьков),

А.С. НЕЧИПОРЕНКО, ХНУРЭ (г. Харьков)

СПОСОБ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ У БОЛЬНЫХ

НЕЙРОСЕНСОРНОЙ ТУГОУХОСТЬЮ

Запропоновано новий спосіб підвищення розбірливості мови у хворих на нейросенсорну тугоухість, який базується на фільтрації мовного сигналу. В результаті фільтрації відбувається відокремлення найбільш значущих областей мовного спектру, що впливають на сприйняття мови хворим. Даний спосіб дозволяє поліпшити сприйняття мови у хворих з втратою чутності у діапазоні частот вище 1 кГц.

A new method to improve phrase intelligibility of people sick neurosurgery sensory hearing loss is suggested. It is based on the filtering voice. As a result of the filtering the most significant areas of speech spectrum which affect on speech perception patients are detected. This method helps improve the perception of speech of patients with hearing loss in the range above 1 kHz.

Постановка проблемы. В настоящее время всё большее число людей страдают нарушениями слуха. Причины снижения слуха могут быть разными, это и длительное воздействие чрезмерного шума, и общее ухудшение экологии, и осложнения после перенесенных болезней, травмы, генетические нарушения. Среди патологий слуховой системы лидирует нейросенсорная тугоухость, - ослабление слуха с сохранившимся восприятием речи, обусловленное поражением звуковоспринимающего аппарата или центрального отдела слухового анализатора. Она может быть следствием поражения как нейросенсорных эпителиальных клеток спирального органа, так и подкорковых, и корковых слуховых центров . Однако чаще всего нейросенсорная тугоухость обусловлена патологией рецептора и корешка преддверно-улиткового нерва. Данное заболевание не излечимо хирургическим путем, поэтому больному назначают слухопротезирование. Слуховой аппарат должен скорректировать индивидуальные особенности слуха, характерные для данного вида патологии . Для этих целей существует ряд алгоритмов обработки звука, реализованных в аналоговых слуховых аппаратах. Это алгоритмы частотно зависимого усиления, амплитудной компрессии, фильтрации помех. Однако реализация сложных алгоритмов обработки речевых сигналов, адаптируемых к индивидуальному характеру потерь слуха у пациентов, возможна только в цифровых слуховых аппаратах . Цифровая обработка сигналов позволяет применять высокоэффективные адаптивные алгоритмы с возможностью индивидуальной настройки параметров при неизменном аппаратном ядре.

Анализ литературы. Проведен анализ методов цифровой обработки сигналов . Изучены особенности восприятия речевого сигнала, существующие методы выделения формант из его спектра , а также методы

обработки речевого сигнала, позволяющие повысить разборчивость сигнала как для пациентов с нормальным слухом, так и для слабослышащих пациентов с диагнозом нейросенсорная тугоухость . Однако существующие методы повышения разборчивости речи не учитывают такую особенность нейросенсорной патологии как потеря слышимости в диапазоне свыше 1 кГц. Формантный анализ не использовался для создания адаптивных алгоритмов повышения словесной разборчивости.

Цель данной статьи - разработать способ повышения разборчивости речи у больных нейросенсорной тугоухостью.

Разборчивость речи у больных нейросенсорной тугоухостью.

Известно, что нейросенсорная тугоухость характеризуется повышением порогов слышимости, а также ухудшением слышимости в диапазоне свыше 1 кГц, что, в свою очередь, приводит к потере восприятия у таких больных высокочастотных компонент речи. Следствием такого ограниченного восприятия является значительное ухудшение разборчивости речи. Причина этого кроется в особенности локализации звуков речевого сигнала, а именно: согласные звуки в большинстве своём находятся в области частот выше 1 кГц, а гласные - в низкочастотном диапазоне. Поскольку на разборчивость речи преимущественно влияет восприятие согласных, то оставшийся речевой спектр из-за превалирования в нём гласных звуков становится нечётким и трудным для понимания. Исходя из вышесказанного, предлагается улучшить разборчивость речевого сигнала путём увеличения чёткости за счёт удаления частей спектра.

Особенности восприятия речевого сигнала. Любой речевой сигнал состоит из простейших звуков речи, называемых фонемами . Известно, что каждой фонеме соответствует своя форма голосового тракта человека, которая варьируется в соответствии с изменением положения языка, губ, зубов, в зависимости от этого меняются и частоты голосового тракта, в том числе и резонансные. Области спектральных максимумов речевого сигнала, соответствующие резонансным частотам голосового тракта, называются формантами. Форманта характеризуется частотой, шириной и амплитудой . Распознавание фонем базируется на восприятии формант как наиболее информативных признаков речевого сигнала. Также следует отметить, что распознавание каждой фонемы происходит в основном по положению первых двух формант. Учитывая данные факторы, а также такую особенность больных нейросенсорной тугоухостью как снижение частотной селективности, предлагается удалить из речевого спектра области, граничащие с формантными полосами.

Фильтрация речевого сигнала. В ходе эксперимента обрабатывалось несколько различных сигналов разных дикторов. Речевой сигнал преобразовывался в цифровой код и обрабатывался на ЭВМ. Для

идентификации формантных пиков гласных был использован программный пакет «Cool Edit Pro» , который позволяет проводить спектральный анализ речевого сигнала. Для получения спектральной характеристики аналогового сигнала, представленного в дискретной форме было использовано быстрое преобразование Фурье (БПФ), результатом которого является представление сигнала в виде набора из n частот

F = {F1,F2,...,Fn }. (1)

Влияние шумовых источников на речевой сигнал может привести к образованию пиков моментального спектра, не являющихся частью речевого сигнала. Такие пики называются ложными .

Определим пик как максимум интенсивности энергии сигнала в определенном интервале d на оси частот и выразим функцию P(Fk, d) проверки максимума в интервале d следующим образом:

Г1, при A, > max Л, k Ф j,

I к к-d

P(Fk, d) = \ j (2)

10, при Ak < ІШХ Aj , k ф j.

^ k-d

Тогда нахождение всех пиков сведется к нахождению частот разложения F є F, для которых выполняется условие P(F, d) = 1. Данный способ нахождения пиков называют последовательным проходом.

Поскольку наибольшее влияние на распознавание речевого сигнала оказывают первые две форманты, осуществляем фильтрацию формантных областей первых двух пиков. На рис. 1 изображен моментальный спектр

сигнала (одна выделенная форманта) до фильтрации. На рис. 2 изображен

моментальный спектр после фильтрации. Фильтрация производилась по формулам:

Fa = Fk - mx2 1 , (3)

F = F + _2--------maxL (4)

A b i max 1 2 ’ ^"

где Fa, F1, Fb, F2 - границы формантных областей подлежащих удалению; Fmax - пиковая частота форманты.

F = F + F 2 F max (4)

В результате фильтрации происходит выделение наиболее значимых областей речевого спектра, а также уменьшение маскировки нижних граничных частот последующих полос, оставшихся формантными полосами.

Для создания необходимых фильтров был проведен частотный анализ гласных и согласных звуков. Спектральная огибающая содержит большое число пиков отдельных частот, однако большая их часть неинформативна и находится в области выше 1 500 Гц. Основную речевую информацию несут в

себе пики с относительно большой амплитудой в диапазоне 70 Гц - 900 Гц . На рис. 3 представлен спектр звука "Е", где отчётливо различимы формантные пики в данном диапазоне.

Рис. 2. Формантная линия после фильтрации

Рис. 3. Спектр звука "Е" до фильтрации 163

Рис. 4. Спектр звука "Е" после фильтрации

Удаление частотных полос осуществлялось с помощью фильтров, которые создавались в опции меню РБТ-фильтр, согласно расчётным данным. В результате получена спектральная характеристика сигнала, представленная на рис. 4, откуда можно сделать вывод о сужении формантных областей, а также об увеличении амплитуды сигнала в области первых двух формантных пиков.

На рис. 5 - 8 представлены спектральные характеристики звуков Ж, Б до и после фильтрации.

Рис. 5. Спектр звука "Ж" до фильтрации 164

Таким образом проводилась обработка каждого звука всей речевой последовательности. Поскольку падение кривой слышимости у больных нейросенсорной тугоухостью начинается с 1кГц, на спектр также накладывался фильтр, отсекающий частоты выше 1кГц.

Рис. 6. Спектр звука "Ж" после фильтрации

Рис. 7. Спектр звука "Б" до фильтрации

Рис. 8. Спектр звука "Б" после фильтрации

Оценка влияния предлагаемого способа обработки на восприятие

речи. Для оценки влияния предлагаемого способа обработки на восприятие речевого сигнала группе больных нейросенсорной тугоухостью из 20 человек было предложено прослушать и сравнить два сигнала: исходный и прошедший предварительную обработку. Все больные имели опыт пользования слуховыми аппаратами в течение ряда лет. Следует отметить, что больные обладали невысокой исходной разборчивостью речи (менее 51%). Для оценки разборчивости были использованы речевые таблицы многосложных слов Гринберга, учитывающие фонетические особенности, характерные для русской речи . Выходной сигнал не подвергался никаким дополнительным преобразованиям, кроме регулировки громкости для комфортного восприятия конкретным пациентом. Результаты исследования для 6 человек приведены в таблице.

Результаты исследования

Испытуемые с диагнозом нейросенсорная тугоухость Разборчивость исходного речевого сигнала (%) Разборчивость обработанного речевого сигнала (%)

Степень тугоухости Возраст испытуемого

Выводы. Анализируя полученные данные можно сделать вывод о повышении разборчивости речи у больных в пределах 5 - 18 %. Результаты исследования для остальных пациентов аналогичны, значения разборчивости находятся в пределах вышеуказанного диапазона. Следовательно, в результате фильтрации частотных полос спектра, граничащих с формантами, увеличивается чёткость речевого сигнала. Выделение наиболее информативных областей спектра способствует улучшению восприятия речевой последовательности, речь становится более внятной и понимаемой. Использование предлагаемого способа обработки речевого сигнала позволяет достоверно повысить разборчивость речевого сигнала у больных нейросенсорной тугоухостью. Таким образом, это открывает возможность создания адаптивного алгоритма повышения словесной разборчивости.

Список литературы: 1. Нейман Л.В., Богомильский М.Р. Анатомия, физиология и патология органов слуха и речи. - "Владос", 2001. - 224 с. 2. Прасол И.В., Кобылинский А.В. Методика оптимизации цифровых схем биомедицинских устройств // Прикладная радиоэлектроника. - 2007. -Т. 6. - № 1. - С. 51-55. 3. Прасол И.В., Кобылинский А.В. Алгоритмы проектирования адаптивных цифровых слуховых аппаратов / 7-я научно-техническая конференция "Медикотехнические технологии на страже здоровья". Сборник научных трудов. - М.: МГТУ им. Н.Э. Баумана, 2005. - С. 54-56. 4. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. - М.: Мир, 1978. - 848 с. 5. Гельфанд С.А. Слух: Введение в психологическую и физиологическую акустику. - М.: Медицина, 1984. 6. Петров С.М. Полосовая фильтрация речевого сигнала - восприятие речи в норме и при нейросенсорной тугоухости // Вестник оториноларингологии. - 2000. - N° 3. - С. 55-56. 7. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с. 8. ttp://www.adobe.com/special/ products/audition/syntrillium.html. 9. Сердюков В.Д. Опознавание речевых сигналов на фоне мешающих факторов. - Тбилиси: Наука, 1987. - 142 с. 10. Чистович Л.А., Венцов А.В., ГранстремМ.П. Физиология речи. Восприятие речи человеком. - Л.: Наука, 1976. - 388 с. 11. Джеймс Л. Фланаган Анализ, синтез и восприятие речи. - М.: Связь, 1968. - 396 с.

2786 0

Исследованию слуха звуками речи отводится в клинико-аудиологической практике значительное место. Тем не менее возможности данного исследования, особенно применительно к старческой тугоухости, раскрыты далеко не полностью. Это касается как установления возрастных норм для речевого слуха, так и уточнения некоторых аспектов патогенеза и топики пресбиакузических сдвигов. Уже в работах по исследованию старческой тугоухости с помощью метода живой речи было отмечено значительное нарушение восприятия последней, особенно шёпотной (И. М. Соболь, А. Г. Лисс, 1962; С. К. Агзамов, 1966; А. Г. Ганиев, 1969). В старости более выраженно нарушается разборчивость согласных звуков. Ю. С. Кривицкая, Ш., А. Максумова (1968) отмечают, что у пожилых людей разборчивость цифр и слов страдает меньше, чем разборчивость фраз.

Значительные нарушения речевого слуха при старческой тугоухости были подтверждены аудиометрическими исследованиями (А. И. Лопотко, 1971; 1975, 1979; С. И. Алексеев, И. М. Гончарова, 1972; G. Pestalozza, 1. Shore, 1955; P. Mounier-Kuhn et al., 1965; W. Hallerman, P. Piath, 1971). По данным P. М. Фельдмана и С. H. Реджера (R. М. Feldman, S. N. Reger, 1967), такие нарушения начинали проявляться в пожилом и особенно старческом возрасте. Отмечено, что снижение разборчивости речи не всегда компенсируется усилением ее интенсивности. Нарушению разборчивости речи в старческом возрасте дают разные объяснения. С одной стороны, его связывают с возрастными изменениями периферических, а с другой — центральных структур слуховой системы.

Нарушение речевого слуха периферического генеза обусловливается повышением тональных порогов (тональным дефицитом), а также проявлением неравномерного нарастания громкости для различных частот речевого диапазона. Нарушения же разборчивости, не зависящие от потери слуха на речевые частоты, определяемые синдромом фонемической регрессии, связывают с поражением центральных отделов слухового анализатора. Основным аргументом в пользу существования указанного синдрома является диссоциация тонального и речевого слуха при старческой тугоухости (А. Д. Ганиев, 1969; С. И. Алексеев, И. М. Гончарова, 1972; R. Carhart, 1951 и др.) Данные по сопоставлению порогов тонального и речевого слуха значительно варьируют у разных авторов.

Анализ этих исследований позволил высказать предположение, что причина этого лежит, с одной стороны, в неоднородности используемого фонетического материала, а с другой - разном подходе к критерию потери слуха для тонов. Это побуждало и побуждает многих исследователей неоднократно возвращаться к изучению вопроса о тонально-речевой диссоциации при пресбиакузисе (С. И. Алексеев, И. М. Гончаров, 1972; G. Pestalozza, I. Shore, 1955; Е. Konig, 1957; J. Sataloff, N. Menduke, 1957).

Генез указанного нарушения Д. Калви и А. Финзи (J Calvi, A. Finzi, 1957), а также Е. Бокка (Е. Восса, 1958) связывают с дисфункцией прежде всего центральных структур слухового анализатора, с ослаблением в старческом возрасте их интегральной деятельности, В. Д. Михайлова-Лукашева (1968) снижение речевого слуха объясняет неспособностью старых людей дифференцировать звуки и шум, а также нарушением подвижности и взаимоотношения основных нервных процессов - возбуждения и торможения.

Г. X. Гэт (G. Н. Gaeth, 1948) синдром фонемической регрессии связывает с уменьшением в старости интеллектуального уровня и способности высотного различения звуков. В дальнейшем синдром был количественно исследован Г. Песталозза и И. Шором (G. Pestalozza, I. Shore, 1955). Сравнивая характер разборчивости при пресбиакузисе с разборчивостью при нейросенсорных формах тугоухости у молодых людей со схожим тональным рельефом, авторы отметили более выраженное нарушение речевого слуха у первой группы обследуемых.

В настоящее время дискутируется вопрос, в какой мере разборчивость речи зависит от ФУНГ, нередко сопутствующего звуковоспринимающей тугоухости. Одни авторы отмечают возможность достижения максимальной разборчивости при наличии упомянутого феномена (J. A. Reyntjes, 1951). Другие считают, что при ФУНГ разборчивость значительно падает (Н. Huizing, J. A. Reyntjes, 1952; J. Hirsch et al., 1954). Мы полагаем, что нарушение разборчивости определяется не столько ФУНГ вообще, сколько неравномерным нарастанием громкости для различных частот речевого диапазона в частности (А. И. Лопотко, 1967, 1975).

Эти дискуссионные представления нашли отражение и при анализе старческой тугоухости. Д. Ваал (J. Waal, 1962) описал крутые артикуляционные кривые с достижением максимального уровня разборчивости во многих случаях пресбиакузиса при отсутствии ФУНГ. В то же время Г. Песталозза и И. Шор (G. Pestalozza, I. Shore, 1955) при аналогичных условиях отметили низкую разборчивость. В отношении генеза и топики возрастных нарушений речевого слуха высказываются и другие точки зрения. Е. Кониг (Е. Konig, 1966, 1969) предполагает, что причиной этих нарушений могут явиться инволюционные изменения на всех уровнях слухового неврального пути - от улитки до коры головного мозга.

И. Мелроз и соавт. (1. Melroze et al., 1963), а также М. Бергман (М. Bergman, 1971) считают, что синдром фонемической регрессии - не обязательный спутник старости. X. Н. Эвертсен н Б. Нильсон (Н. N. Ewertsen, В. Nielsen, 1971) не нашли существенной разницы в характере речевого слуха у лиц 20, 50 и 70 лет. И. Кирике и соавт. (I. Kirikae et al., 1964), не обнаружили также существенных возрастных различий и в характере различения речи. Еще более категоричными были В. Халлерман и П. Плат (W Hallerman; P. Plath, 1971), которые постулировали, что значительное нарушение различения речи, некомпенсируемое усилением ее интенсивности, несовместимо с синдромом физиологического пресбиакузиса.

В отношении возрастных слуховых норм для речи много еще неопределенного.

С учетом изложенного А. И. Лопотко (1971, 1979), были выполнены специальные аудиологические исследования. При этом особое внимание было уделено сопоставлению возрастных изменений слуха для тональных и речевых сигналов. Исследования осуществляли с учетом общеизвестных принципов речевой аудиометрии на приборе АР-03. В работе использовали русские фонетически сбалансированные таблицы слов, адаптированные для клинической аудиометрии (Г. И. Гринберг и соавт., 1957), наговоренные звонкой речью. При этом устанавливали пороги восприятия недифференцированной речи (HP), уровни 10-20, 50, 70-80 и 90-100% разборчивости, а также разборчивость (%) при максимальном на аудиометре усилении (110 дБ). Параллельно с речевой аудиометрией проводили тональную по общепринятой методике в диапазоне 125-8000 Гц и оценку функции громкости. Исследовано 330 отологически здоровых людей в возрасте от 18 до 93 лет. Среднегрупповые данные рассчитывали с установлением величин доверительных интервалов.

О характере фонемических расстройств фонемической регрессии (G. Н. Gaeth, 1948) судили по диапазону разборчивости (перепаду интенсивности от порога восприятия недифференцированной речи до уровня 90-100% разборчивости, если таковой достигался), по уровню максимальной разборчивости, отчасти по разборчивости речи при максимальном на аудиометре усилении, а также по сопоставлению реальной и расчетной разборчивости, которой отводили особое место. В основе ее лежало сопоставление данных тональной и речевой аудиометрии. Однако это сопоставление проводили не по методикам, распространенным в аудиометрии, а по схеме, принятой в теории связи.

Дело в том, что в настоящее время используются две группы методик, по которым речевой слух рассчитывают по тональному. Первая группа методик, обычно используемых в аудиометрии, хорошо прогнозирует общую степень тугоухости - потерю восприятия звуков речи (С. Г. Кристостурьян, 1960; Е. М. Харшак, 1964, 1966; J. Hirsh et al.T 1952). Вторая группа методик, редко используемая в аудиометрии, позволяет прогнозировать реальную разборчивость на высоких ее уровнях (Б. В. Богданов, 1955; Н. Б. Покровский, 1962).

Прогнозирование общей степени тугоухости к речи, широко практикуемое в аудиологической практике, может быть осуществлено непосредственно по тональной аудиограмме (А. И. Коломийченко, Н. С. Шейман, 1962; А. И. Лопотко, 1966; J. Harris et al., 1956 и др). Основой же аналитического расчета слоговой, словесной и фразовой разборчивости может служить только разборчивость формант, под которыми понимается область концентрации энергии в спектре звуков речи (М. А. Сапожков, 1963).

Учитывая изложенное, уровень ощущения формант (Е") определялся нами в каждой из 20 равноразборчивых полос речи, на которые разбивался речевой спектр:

Е" = Вр+К-(b0 + b),

где Вр - средний уровень ощущения речи; К - логарифмическая ширина критической полосы речи; b - затухание аудиометрического тракта в целом; b0 - порог слышимости тона от уровня 2.10 в -5 степени Па в пределах 250-8000 Гц.

Зная уровень ощущения формант, рассчитывалась суммарная разборчивость формант (А) во всем речевом диапазоне. Наконец, по разборчивости формант устанавливали разборчивость для словесной звонкой речи (W, %).

Основой для наших расчетов словесной разборчивости служили усредненные тональные аудиограммы в диапазоне 250-8000 Гц воздушной проводимости (А. И. Лопотко, 1973), установленные для 6 возрастных групп (16-19 лет, 20-29, 30-39, 40-59, 60-69, 70 лет и старше). В расчетах учитывали неравномерность частотной характеристики аудиометрического тракта.

Результаты исследований показали следующее. С возрастом отмечается пропорциональное падение слуха для звонкой речи. Вместе с тем следует отметить, что для возрастных групп 40-49 и 50-59 лет, а также 70-79 и 80 лет и старше нами не установлено достоверных различий. В связи с этим мы посчитали целесообразным объединить эти группы в две - 40-59 и 70 лет и старше.

Нарушение речевого слуха по аудиометрическим данным выражалось в ухудшении восприятия речи, графически проявлявшееся сдвигом кривых нарастания разборчивости вправо по горизонтали. В меньшей степени нарушалось различение речи (разборчивость, некомпенсирующаяся усилением интенсивности). Нарушение восприятия недифференцированной речи (HP) и порога 10%-ной разборчивости шло пропорционально нарушению слуха к тонам в диапазоне 1000-2000 Гц при условии установления порогов для обоих видов сигналов в дБ относительно данных первой возрастной группы.

Небольшие нарушения восприятия начинали проявляться в 30-40 лет. Однако достаточно заметными они были у людей старше 60 лет (рис. 1). Сдвиг кривых разборчивости у людей старше 70 лет по отношению к кривым у людей 16-19 лет составлял на уровне HP 24,6 дБ. Нарушение различения речи у людей старческого возраста, отражающее явление фонемической регрессии, проявлялось в виде незначительного увеличения диапазона разборчивости (ДР). Если у людей первой возрастной группы ДР составлял 27,9 дБ, то старше 69 лет -32,2 дБ. Следует отметить, что у людей старческого возраста ДР рассчитывали лишь для случаев, где устанавливался уровень 90-100% разборчивости.

Рис. 1. Кривые нарастания разборчивости звонкой (разговорной) речи у людей различных возрастных групп:

а - построенные по экспериментальным данным. Пунктир - уровни разборчивости, устанавливающиеся не во всех случаях; справа по оси ординат - разборчивость речи при максимальном (110 дБ) усилении аудиометра;

б - кривые, построенные по расчетным данным; в - усредненные тональные аудиограммы (внизу значения ДПС для людей старше 70 лет). На аудиограммах порядковые номера возрастных групп: 1 - 16-19; 2 - 20-29; 3 - 30-39; 4 - 40-59; 5 - 60-69; 6 - 70 лет и старше.

По оси ординат речевых аудиограмм - разборчивость слов (W) в процентах: по оси абсцисс - интенсивность речи в дБ: (1) - при отсчете от уровня восприятия недифференцированной речи у людей 16-19 лет; Р - от уровня 2х10-5 Па.

Более наглядным показателем фонемической регрессии у стариков явилось частное неустановленне высоких уровней разборчивости. У людей старших возрастных групп нередко отмечался феномен «парадоксальноного падения разборчивости» речи при максимальном для аудиометра усилении (110 дБ). Это приводило к тому, что средний уровень разборчивости при указанном усилении составлял у людей 60-69 лет 83%, а старше 70 лет - 64%.

С возрастом увеличиваются не только средние значения речевых порогов, но и их разброс.

Таким образом, приведенные данные свидетельствуют о возрастном прогрессирующем ухудшении речевого слуха, проявляющемся прежде всего в нарушении восприятия речи. Этот вид нарушений компенсировался усилением интенсивности речевого сигнала и графически проявлялся сдвигом артикуляционной кривой вправо по горизонтали. Фонемические слуховые расстройства, вопреки ожиданиям, нарастали с возрастом незначительно. Этот вид нарушений проявлялся в неустановлении высоких уровней разборчивости, в некотором увеличении ее динамического диапазона, умеренном несоответствии экспериментальной и расчетной разборчивости (см. рис. 1). В частности, измеренная разборчивость на уровне 70-80% у людей 60-69 лет устанавливалась при интенсивности на 3-5 дБ выше, чем расчетная.

Кроме того, у людей пожилого и особенно старческое возраста редко определялись высокие (85-100%) уровни разборчивости. По расчетным же данным, эти уровни, хотя и асимптотически, но устанавливались.

Лопотко А.И., Плужников М.С., Атамурадов М.А.

Старческая тугоухость (пресбиакузис)

По полученным Гессом (Hess) данным, при речевой аудиометрии у части тугоухих дискриминация, или разборчивость речи, значительно более нарушена, чем тональный слух. Это нарушение фонематического слуха названо им «фонемической регрессией». Она чаще встречается в пожилом возрасте, при неврите или старческой тугоухости. Тональная аудиограмма показывает незначительное понижение слуха, плавно возрастающее на высоких частотах, фонематический же слух несоответственно резко понижен.

Часто при этом у больных имеются симптомы сосудистых нарушений. По мнению автора, фонемическая регрессия предшествует более серьезным нарушениям умственной деятельности и обусловливается частичным нарушением кровообращения мозга. По Кархарту, фонемическая регрессия является признаком центральной глухоты.

Ранним признаком коркового поражения слуха является нарушение разборчивого восприятия речи в условиях нагрузки на психику, напряжения , а также при наличии шумовых помех или при небольших дефектах дикции говорящего. Нами установлено, что по времени появления он часто предшествует заметному понижению восприятия чистых тонов. У многих таких больных имелось понижение лишь на С4096 в пределах 10-15 дб.

В дальнейшем нарушение отмечается и в обычной обстановке . При исследовании слуха обнаруживается диссоциация между речевым и тональным слухом и gовышенная утомляемость органа слуха. Наконец, в поздней стадии вследствие распространения торможения по системе звукового анализатора на подкорковые узлы наступает ухудшение и тонального слуха.

Членораздельное, четкое слышание, восприятие и понимание речи представляют собой высшую функцию коркового конца слухового анализатора. Она осуществляется на основе выработанных у человека в процессе овладеваyия речью временных связей путем выделения сигнальных признаков речи и торможения других несущественных признаков. Добавочное, хотя бы и небольшое, искажение при передаче звуков речи радиоаппаратурой и телефоном повышает требования к анализу и синтезу, с которыми при расстройстве функциональной деятельности коры мозга трудно справиться. Именно этим объясняется раннее появление затруднений при слушании радио, при разговоре по телефону и т. д.

Ухудшение разборчивости восприятия речи выявляется в первую очередь в отношении односложных слов; при этом может еще сохраниться хорошая разборчивость двусложных слов. Так, если больной разбирает односложные слова на расстоянии не более 1 м, то двусложные примерно такого же звукового состава он слышит на расстоянии 5-6 м. Больные жалуются врачу, что они плохо слышат речь человека и часто переспрашивают, что подтверждается при исследовании разговорной и шепотной речью; между тем тональная аудиограмма может при этом быть совершенно нормальной. Такую столь резкую диссоциацию между тональным и речевым слухом мы наблюдали у нескольких больных при гипертонической болезни.

Следует подчеркнуть, что при гипертонической болезни обычно не бывает глубокого нарушения анализа и синтеза речи, как это отмечено у больных с поражением коры левой височной доли мозга. Если слова произносятся с достаточной громкостью, анализ происходит нормально. По некоторым данным, при гипертонии отмечается гиперакузия - легкая возбудимость органа слуха на высокие звуки.
В частности, это сказывается в том, что на громкие звуки больные реагируют повышением кровяного давления; при помещении больных в тихую звукоизолированную комнату давление падает.

Поделиться