Приложение. Инженерные аспекты теории фонем icon

Приложение. Инженерные аспекты теории фонем



НазваниеПриложение. Инженерные аспекты теории фонем
Дата конвертации17.07.2012
Размер221.76 Kb.
ТипДокументы

Приложение. ИНЖЕНЕРНЫЕ АСПЕКТЫ ТЕОРИИ ФОНЕМ

П.1. Общие соображения


В ответ на происходящий в последнее время процесс включения языка в сферу производственной деятельности человека в языкознании развиваются такие направления исследований, которые могли бы быть объединены названием «инженерная лингвистика» [ПИОТРОВСКИЙ; БЕКТАЕВ,КЕНЕСБАЕВ,ПИОТРОВСКИЙ]. Эти исследования можно разбить на две большие группы в зависимости от аспекта взаимодействия научной и инженерной практики. К аспекту «лингвистика для техники» относятся, например, работы по машинному переводу [АВТОМАТИЧЕСКИЙ ПЕРЕВОД] и связанные с ним попытки построить математические модели разных уровней языка [ГЛАДКИЙ,МЕЛЬЧУК 1; РЕВЗИН 1, 2; МАРКУС], а также семиотические исследования языков и терминосистем науки и производства, связанные с проблемой построения автоматических информационных систем [НАУЧНЫЙ СИМПОЗИУМ…]. К противоположному аспекту «техника для лингвистики» относятся разнообразные исследования языка с помощью инженерных методов и промышленной техники. Это различные направления квантитативной лингвистики, исследование и моделирование языка физической аппаратурой и электронными машинами.

Оба указанных аспекта взаимодействия лингвистической теории с инженерной практикой свойственны также и излагаемой концепции. Поскольку мы утверждаем, что фонемы представляют собой оптимальные единицы оперирования с языковыми знаками на фонетическом уровне, то очевидно, что методы установления состава фонем в естественном языковом механизме, рассматривавшиеся выше, являются вместе с тем методами проектирования оптимальной структуры автомата, который должен обнаружить языковое поведение и включиться в коммуникацию на языке, используемом в данном обществе. Различие между раскрытием «чёрного ящика» языкового механизма и проектированием «чёрного ящика» автомата сводится к учёту субстанциональных свойств материала, в котором реализуются эти «чёрные ящики». Эти свойства отражаются в теории главным образом мерой близости фонетических элементов, которая выводится из сходств и различий акустических параметров или нейро-мышечных работ по речевой реализации знаков. В части нейро-мышечных работ различие между человеком и автоматом очевидно. Что же касается различия в акустической мере близости, то она может быть проиллюстрирована тем, что для человека расстояние между звуками определяется только слышимыми параметрами, а автомат может быть сконструирован так, что будет способен использовать дополнительные акустические характеристики, такие как фазовые соотношения гармоник, спектральные плотности в ультра- и инфра- звуковом диапазоне [МЯСНИКОВ] и др. С другой стороны, процедура и результаты синтеза речевого автомата и анализа языкового механизма могут быть следствием разной роли человека и автомата в коммуникации.
Представляется, что автоматы займут в речевой деятельнсти специфическое место, так как их участие будет ограничено довольно узкими рамками передачи специального массива смыслов, для чего автомату будет достаточен более узкий набор языковых знаков, чем то представлено в языке в целом. Из-за различия кодируемых массивов их оптимальное представление будет различным. Инвентарь языковых единиц и, в частности, фонем будет различным для универсального языкового механизма человека и специализированного языкового механизма автомата.

Подобные же отличия должны наблюдаться и между отдельными индивидными языковыми механизмами людей, особенно при наличии физиологических отклонений индивидов от среднего стандарта. Это имеет особенное значение при изучении языка глухих, когда нарушены отношения близости между звуковыми элементами, и детского языка, для которого характерно, в частности, сильное ограничение инвентаря языковых знаков.

Что касается аспекта «техника для лингвистики», то его значение в фонетических исследованиях всегда было достаточно фундаментальным с тех пор, как были начаты экспериментально-фонетические исследования речи [см. напр. АРТЁМОВ]. Но теперь возникает новый канал взаимодействия лингвистики с техникой. Речь идёт об использовании в фонологии технических устройств не только для получения исходного фонетического материала, но и для осуществления самой процедуры его обработки. Такую возможность предоставляют электронные вычислительные машины, предназначенные для сверхбыстрой обработки заложенного в них информационного материала по заранее составленной логической программе. Вычислительные машины могут произвести такой объём логических операций над языковыми данными, сознательное выполнение которых вручную оказывается принципиально невозможным. Это позволяет исключить в определённой степени интуитивные соображения из процедуры лингвистического анализа и поднять его строгость на новый уровень.

В лексикологии (лексикографии) такое использование ЭВМ стало уже необходимым методом работы, без которого подчас немыслимо составление различных словарей, таких как частотные и др. Для фонологии указанный тип работ представляется новым. Такие работы стимулируются необходимостью решить инженерную задачу построения системы фонем для автоматов, включённых в речевое общение в пределах человеко-машинных систем. В соответствии с различием каналов производства и восприятия речи здесь следует различать проблемы выработки системы фонем речеобразования и системы фонем речевосприятия.

Исследования, ставящие перед собой задачу построения системы синтеза речи по фонемным правилам [ДЕРКАЧ и др.; LIBERMAN et al.; HOLMES et al.], с лингвистической точки зрения состоят в экспериментальном подборе правил, выражающих сущность фонем речеобразования. При этом в качестве устройства, реализующего эти правила и тем самым моделирующего языковой механизм, выступает компьютер. К этому же циклу работ принадлежат попытки построить автоматы, читающие вслух орфографические тексты [ЗЛАТОУСТОВА и др.; КУЛЯ и др.; ШАЛЯПИНА; AINSWORTH; COKER et al.].

Основная масса инженерных работ в области фонетики и фонологии ведётся с целью разработки систем автоматического восприятия речи. Как промежуточная задача в этих разработках должна быть решена проблема инвентаря единиц восприятия акустического сигнала. То или иное решение этой проблемы практически всегда предлагается на основе сложившегося лингвистического представления о фонемном составе данного языка. Но в тех случаях, когда обосновываются оригинальные методы выделения единиц, это обоснование оставляет в сторное вопросы оптимальности [см. напр. СЛУЦКЕР]. Проблема оптимальности, однако, поставлена в работах Т. К. Винцюка, Н. Г. Загоруйко и В. Н. Елкиной [ВИНЦЮК; ЗАГОРУЙКО и ЕЛКИНА; ЕЛКИНА и ЗАГОРУЙКО].

В работе Т. К. Винцюка дан строгий математический алгоритм разбиения речевого сигнала на сегменты, в пределах которых параметры минимально отклоняются от средних значений, Эта постановка вопроса основывается на предположении, что фонетической единице должен в речевом потоке соответствовать квазистационарный участок звука. Однако такое предположение не подтверждается практикой экспериментально-фонетического изучения речи. Кроме того, предложенный алгоритм на учитывает семантической нагрузки выделяемых элементов, что является необходимым при рассмотрении коммуникационных процессов. Всё это не позволяет взять алгоритм Т. К. Винцюка за основание для построения системы фонем.

Алгоритмы «Вычёркивание» и «Группировка», разработанные Н. Г. Загоруйко и В. Н. Елкиной, реализуют идеи функционального выделения фонетических элементов распознавания речи. Первый алгоритм [ЕЛКИНА и ЗАГОРУЙКО] расчленяет сигнал на существенные для распознавания заданного набора знаков сегменты, вычёркивая из речевой цепи те сегменты, которые избыточны для передачи различия сигналов. Второй алгоритм [ЗАГОРУЙКО и ЕЛКИНА] производит парадигматическое выделение элементов распознавания, группируя в один акустический образ те сегменты, различие которых достаточно мало и не существенно для передачи различия сигналов. Результатом такой классификации является система фонетических элементов, которая позволяет распознавать все заданные знаки при минмальной в среднем ошибке распознавания самих звуковых единиц. Эти алгоритмы реализованы в виде программ для вычислительной машины и могут быть использованы с целью автоматического установления инвентаря фонем речевосприятия (звукотипов, кинакем) в языковом механизме человека и соответствующих блоках речевого автомата. Недостатком метода Н. Г. Загоруйко и В. Н. Елкиной следует считать отсутствие единой программы, включающей в себя как синтагматическое выделение единиц, осуществляемое алгоритмом «Вычёкривание», так и парадигматическое выделение, осуществляемое алгоритмом «Группировка». Кроме того следует обратить внимание на большую сложность программы группировки, которая предусматривает неоднократное перераспределение звуковых сегментов по разным фонемам при постоянной проверке довольно сложного критерия оптимальности. Эта сложность может потребовать такого объёма вычислительной работы, которая не позволит осуществить построение системы фонем в практически интересных случаях.

В настоящей работе была описана общая программа синтагматического и парадигматического выделения кинакем (звукотипов) из материала акустической реализации заданной системы языковых знаков, состоящая из циклического повторения всего лишь одной операции, конкретное содержание которой определяется вычислением несложной функции расстояния между фонемными образами. В этой программ нет повторных перераспределений звуковых сегментов, и поэтому она представляется более реалистичной для практического приложения к языковому материалу. Критерий оптимизации нашей программы отличается от критерия минимума средней ошибки распознавания фонем, использованного Н. Г. Загоруйко и В. Н. Елкиной. Он состоит в максимизации наименьшего расстояния между непротивопоставленными аллофонами разных фонем. Такой критерий обеспечивает снижение ошибки распознавания самых сходных звукотипов, и преимущества того или другого критерия в настоящее время не ясны.

Предлагаемая в данной работе программа также может быть осуществлена при помощи вычислительной техники и к настоящему моменту проведены эксперименты с той частью алгоритма, который ответствен за парадигматическую классификацию звуковых сегментов и соответствует алгоритму «Группировка». Сущность этих экспериментов изложена в следующих разделах Приложения.
^

П.2. Программа автоматической классификации аллофонов.1


Процедура установления инвентаря кинакем (функциональных звукотипов), изложенная в параграфе 5.2 настоящей работы, была реализована с помощью алгоритмического языка АЛГОЛ-60 на вычислительной машине БЭСМ-6. Часть машинной программы, содержащая только операции парадигматической группировки, полностью отлажена для практического применения, и с нею был проведён ряд экспериментов, показавших работоспособность программы и имеющих также самостоятельный интерес для лингвистики.

Исходные данные для программы должны быть представлены в виде набора сигналов, закодированных как матрицы дифференциальных признаков (ДП), принимающих значения 0 или 1. Каждая стока такой матрицы показывает значения одного из ДП в фиксированные дискретные моменты времени. Каждый столбец матрицы содержит перечисление значений всех ДП в заданный временной момент. Такое представление речевых сигналов на основе акустических ДП может давать современная фонетическая аппаратура, обрабатывая акустический сигнал, поступающий непосредственно от говорящего [см. напр. ЦЕМЕЛЬ; ВАЙНШТОК и др.]. Нами была использована система артикуляторных ДП, а кодировка выбранного набора сигналов производилась вручную в соответствии с орфоэпическими нормами (в этой работе участвовала дипломница Филологического факультета МГУ В. Ф. Конрадова).

В разных экспериментах речевые сигналы кодировались 14 и 17 дифференциальными признаками. В первом случае использовались следующие характеристики артикуляции:

  1. Голос – наличие|отсутствие периодических колебаний голосовых связок

  2. Шум - наличие|отсутствие вихревого шумообразования при протекании усиленной струи воздуха через узкие проходы между сближенными органами речевого тракта

  3. Наличие|отсутствие губной преграды

  4. Наличие|отсутствие передненёбной (зубной) преграды

  5. Наличие|отсутствие средненёбной преграды

  6. Наличие|отсутствие задненёбной преграды

  7. Преграда достигает | не достигает степени сужения, характерного для закрытых гласных

  8. Преграда достигает | не достигает сужения фрикативных согласных

  9. Преграда прерывает | не прерывает воздушный поток

  10. Имеется | не имеется быстрое сужение преграды

  11. Имеется | не имеется быстрое расширение преграды

  12. Мягкость – увеличен|сужен фарингальный проход

  13. Огублённость – округлены|растянуты губы

  14. Длительность – временной интервал, занятый сегментом существенно превосходит | не превосходит среднее значение других подобных звуков.

В этой системе признаков были закодированы 500 русских звукосочетаний, произносимых как самостоятельные слова. Звукосочетания выбирались так, чтобы по возможности охватить все сочетания, содержащие не более трёх разногачественных звуковых сегментов. Например, слово «вэ» (название буквы В) и некоторые другие слоги кодируются следующими матрицами

Слово: «вэ» «ве» «е» «аш» «до» «ту»

1. Голос 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1

2. Шум 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0

3. Губы 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0

4. Зубы 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 1 0

5. Палатум 0 1 1 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0

6. Велум 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1

7. Сужение 1 1 0 1 1 0 1 1 0 0 1 1 1 1 0 1 1 1

8. Фрикация 1 0 0 1 0 0 1 0 0 0 0 1 0 1 0 1 1 0

9. Смычка 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0

10.Смыкание 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

11.Размыкание 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 1 1 0

12.Мягкость 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0

13.Огубленность 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1

14. Длительность 0 0 1 0 0 1 0 0 1 1 0 0 0 0 1 0 0 1

В этих экспериментах не рассматривались звукосочетания, содержащие носовые и сонорные звуки. В других экспериментах, когда эти согласные необходимо было рассматривать, добавлялись ещё три дифференциальных признака

Наличие|отсутствие носового прохода

Наличие|отсутствие латерального прохода

Слабость артикуляции, ведущая к количественной и качественной редукции звука.

В системе 17 дифференциальных признаков кодировались слова, составляющие язык арифметики и входящие в число наименований знаков клавиатуры вычислительных машин. В данный набор вошло 64 слова максимальной длиной в 10 звуковых сегментов, обозначающие числа (цифры от 0 до 9), арифметические действия и отношения, а также названия букв русского и латинского алфавитов. примером могут служить следующие слова:

Слово: «четыре» «больше» «семь»

1. Голос 0 0 1 1 1 0 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1

2. Шум 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0

3. Губы 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 1

4. Зубы 1 1 0 0 1 1 1 0 1 0 0 0 0 0 1 1 1 0 1 1 0 0 0

5. Палатум 1 1 1 1 0 0 0 1 1 1 0 0 0 0 1 1 0 1 1 1 1 1 1

6. Велум 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0

7. Сужение 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1

8. Фрикация 1 1 1 0 0 1 1 0 1 0 1 1 0 0 0 1 1 0 1 1 0 0 1

9. Смычка 1 0 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1

10.Смыкание 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0

11.Размыкание 0 1 1 0 0 0 1 0 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0

12.Слабость 0 0 0 0 0 0 0 0 1 1 0 0 0 01 1 1 1 0 0 0 1 1

13. Длительность 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0

14.Огубленность 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0

15.Мягкость 1 1 1 1 1 0 0 0 1 1 0 0 0 0 1 1 0 0 1 1 1 1 1

16.Латеральность 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0

17.Назальность 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1

Каждая такая матрица вводилась в ЭВМ построчно, а строка представлялась одним десятичным числом, состоящим из нулей и единиц. Распаковка такого числа на отдельные значения ДП производилась программой. Весь набор сигналов, подлежащих обработке, вводился одновременно и сопровождался служебной информацией, содержащей сведения о числе сигналов, об объединении сигналов в группы равнозначных произнесений одного слова, о формате сигналов и о характере предварительной сегментации. До работы алгоритма склеивания сегментов предварительная сегментация принималась совпадающей с членением сигналов на дискретные отсчёты дифференциальных признаков. Исходным величинам в программе присваивались имена такие как ЧИСЛОСЛОВ, ЧЭТАЛОНОВ (количество групп равнозначных произнесений), ЭТАЛОН (перечень ведущих реализаций в группах равнозначности), ШИРИНАСЛОВ (количество отсчётов в слове), ВЫСОТАСЛОВ (количество ДП), ШИРИНАКАДРА (количество отсчётов в элементарном сегменте), ВЫСОТАКАДРА (количество ДП в сегменте). После распаковки список обрабатываемых сигналов заполняет массив СЛОВАРЬ.

Первой операцией программы является инвентаризация различных сочетаний ДП в одном отсчёте и составление списка элементарных сегментов, которому присваивается имя АЛФАВИТ. Число элементов в нём обозначено идентификатором ЧИСЛОБУКВ. Теперь, обозначив каждое сочетание ДП номером его вхождения в список АЛФАВИТ, мы переходим к более компактному представлению сигналов в массиве СЛОВАРЬ-1.

Прежде чем перейти к собственно операции классификации сегментов, программа составляет список ФОНЕМ, в котором под номером каждого элемента из списка АЛФАВИТ будет указан номер фонемы, к которой относится данный сегмент. Сначала в массив ФОНЕМ заносятся собственные номера всех сегментов. После составления списка ФОНЕМ номера сегментов в массиве СЛОВАРЬ-1 заменяются фонемными номерами согласно списку ФОНЕМ. Бесполезная на первом шаге, эта операция является одним из существенных этапов в ходе получения фонемной транскрипции сигналов, которой заполняется в дальнейшем массив СЛОВАРЬ-Ф.

В первую очередь подлежат объединению наиболее близкие физически элементы из АЛФАВИТа. Поэтому программа фиксирует расстояние К между сегментами, равное числу несовпадающих ДП (расстояние по Хеммингу), и выбирает первую пару элементов, различиющихся не более чем на К. После того как будут просмотрены все пары элементов с К = 1, величина К увеличивается на 1, и так до тех пор, пока не превзойдёт максимально возможное значение.

Каждая пара элементов, удовлетворяющая критерию близости, проверяется на значимость противопоставления. Для этого образуется массив СЛОВАРЬ-2, который отличается от массива СЛОВАРЬ-1 тем, что в нём оба рассматриваемых сегмента обозначены одним номером (меньшим из двух первоначальных). Если в таком словаре никакие два слова, относимые к разным значениям, не совпадают, или они совпадают одновременно и в исходном словаре, то такие элементы не требуется различать для однозначной идентификации знасения сигналов, так как их спутывание не ведёт к спутыванию разных сигналов с разными значениями. В этом случае «пробное» отождествление сегментов фиксируется в массиве ФОНЕМ, и мы переходим в начало процедуры, к этапу построения нового массива СЛОВАРЬ-1, в качестве которого берётся полученный ранее СМЛОВАРЬ-2.

Описанный цикл повторяется до тех пор, пока в массиве АЛФАВИТ ещё есть элементы, которые могут быть отождествлены без потери смыслоразличительности сигналов. По завершении работы программа выдаёт список фонем с перечнем номеров входящих в фонемы сегментов и распечатывает массив СЛОВАРЬ-1, который теперь содержит фонемную транскрипцию исходных сигналов. На всех этапах работы, включая ввод исходных данных, промежуточные результаты выдаются на распечатку для контроля хода работы.

{Далее в диссертации приводится полный текст программы на языке Алгол-60 с разъяснениями сущности операций. Эту часть мы опускаем из-за неактуальности программирования на Алголе в настоящее время. Всего программа занимала 2274 ячейки в машинных кодах, что свидетельствует об умеренной её сложности.}

Работа машины по программе начинается с контрольной выдачи введённых исходных данных (см. рис. 13). Здесь показана только первая строка массива СЛОВАРЬ, содержащего 61 матрицу бинарных дифференциальных признаков, кодирующих слова языка арифметики. В приведённой строке содержатся матрицы слов «один, два, три, четыре» в системе 17 ДП. Значение ДП = 1 показано символом Ж, а значение ДП = 0 показано точкой.

На рис. 14 приведена первая строка распечатки массива АЛФАВИТ, который в данном случае содержит всего 162 различных столбца из этих матриц. Первый элемент списка, заполненный нулями, отражает отсутствие звукового сигнала. Остальные представляют следующие звуковые сегменты (в порядке перечисления):

2 - безударный гласный А

3 - смычка мягкого согласного Д’

4 - выдержка согласного Д’

5 - взрыв Д’

6 - ударный гласный И

7 - смычка носового согласного Н

8 - выдержка согласного Н

9 - выдержка твёрдого согласного Д.

Рис. 13. Образец распечатки исходных данных


Фонемная группировка сегментов

^ ЧИСЛОСЛОВ = 61

ВЫСОТАСЛОВ = 17

ШИРИНАСЛОВ = 10

ВЫСОТАКАДРА = 17

ШИРИНАКАДРА = 1

СЛОВАРЬ:

1...ЖЖЖЖЖЖЖ 2.....ЖЖЖЖЖ 3........ЖЖ 4..ЖЖ..ЖЖЖЖ

......Ж... .......... .......Ж.. .Ж...Ж....

.......... .......ЖЖ. .......... ..........

....ЖЖЖ.ЖЖ .....ЖЖ... ......ЖЖЖ. ЖЖ.ЖЖЖ.ЖЖ.

....Ж..Ж.. .......... .........Ж ЖЖЖ...Ж..Ж

.......... .......... .......... ..........

....ЖЖЖЖЖЖ .....ЖЖЖЖ. ......ЖЖЖЖ ЖЖЖЖЖЖЖЖЖ.

....ЖЖЖ.ЖЖ .....ЖЖЖ.. ......ЖЖЖ. ЖЖ.ЖЖЖ.ЖЖ.

.....Ж...Ж .....Ж.... ......Ж... Ж...Ж.....

....Ж...Ж. .......... ........Ж. ...Ж...ЖЖ.

......Ж... ......Ж.Ж. .......ЖЖ. .ЖЖ..Ж..ЖЖ

........ЖЖ .......... .......... ЖЖЖЖ...ЖЖЖ

.......Ж.. .........Ж .........Ж ......Ж...

.......... .......... .......... ..........

...ЖЖЖЖЖЖЖ .......... ........ЖЖ ЖЖЖ....ЖЖЖ

.......... .......... .......... ..........

........ЖЖ .......... .......... ..........


Рис. 13. Образец распечатки набора сегментов


^ ЧИСЛО СЕГМЕНТОВ = 162


АЛФАВИТ СЕГМЕНТОВ:


1 . 2 Ж 3 Ж 4 Ж 5 Ж 6 Ж 7 Ж 8 Ж 9 Ж

. . . . Ж . . . .

. . . . . . . . .

. . Ж Ж Ж . Ж Ж Ж

. . Ж . . Ж . . .

. . . . . . . . .

. . Ж Ж Ж Ж Ж Ж Ж

. . Ж Ж Ж . Ж Ж Ж

. . . Ж . . . Ж Ж

. . Ж . . . Ж . .

. . . . Ж . . . .

. . . . . . Ж Ж .

. . . . . Ж . . .

. . . . . . . . .

. . Ж Ж Ж Ж Ж Ж .

. . . . . . . . .

. . . . . . Ж Ж .


После записи исходных сигналов номерами входящих в них сегментов в массиве СЛОВАРЬ-1 он выдаётся на печать в следующем виде (здесь каждая строка является транскрипцией произнесения цифры, соответствующей номеру слова в списке):

1: 1 1 1 2 3 4 5 6 7 8

2: 1 1 1 1 1 9 10 11 12 13

3: 1 1 1 1 1 1 14 15 16 6

4: 17 18 19 20 14 15 21 22 23 24

5: 1 1 1 25 26 27 28 29 30 31

6: 1 1 1 32 33 34 35 36 30 31

7: 1 1 1 1 1 37 27 38 39 40

8: 1 1 41 42 43 35 44 19 45 40

9: 4 5 27 38 46 47 48 29 30 31

10: 4 5 27 38 49 44 50 29 30 31

……..

В процессе работы программы при каждом объединении сегментов заполняется и выдаётся на печать строка таблицы результатов. В ней указываются номера сегментов, объединяемых как аллофоны одной фонемы и фонемные идентификаторы, которые соответствовали этим сегментам до объединения (т. е. минимальный номер из всех сегментов, отнесённых к данному моменту к данной фонеме). Ниже показана начальная часть этой таблицы в одном их экспериментов. В ней параметр «зазор объединения К = 1» указывает, что объединяются пары сегментов, расстояние  между которыми равно 1.

Зазор объединения = 1

Номера сегментов Номера фонем

1 2 1 2

4 9 4 9

2 13 1 13

9 14 4 14

7 22 7 22

20 22 20 7

16 23 16 23

22 23 7 16

19 24 19 24

19 27 19 27

13 28 1 28

3 29 3 29

22 29 7 3

17 30 17 30

18 31 18 31

6 38 6 38

11 41 11 41

31 44 18 44

36 44 36 18

37 44 37 18

39 45 39 45

45 46 39 46

19 48 19 48

35 49 35 49

19 50 19 50

42 53 42 53

29 54 3 54

………

{В фигурных скобках – текст, добавленный при подготовке к публикации:

Первая строка таблицы обозначает, что объединён сегмент № 1 (молчание) с сегментом № 2 (безударный гласный Ъ) в эксперименте, исходные данные которого показаны на рис. 13 и 14. Объединённая фонема получила обозначение «1» (минимальный из номеров объединяемых сегментов). Во второй строке объединены сегменты 4 (выдержка мягкого Д’) и 9 (выдержка твёрдого Д). В третьей строке объединяется безударный Ъ (сегмент 2) с ударным А (сегмент 13), и объединённая фонема получает обозначение «1», поскольку сегмент 2 в первой строке был уже объединён с сегментом 1. В четвёртой строке к фонеме Д, объединяющей мягкую и твёрдую выдержку звонкого переднеязычного согласного, присоединяется сегмент 14 – взрыв глухого согласного Т. В пятой строке объединены сегменты вокальной переднеязычной смычки с участием и без участия носового резонатора (результирующая фонема – «7»), а в шестой к ней присоединён сегмент 20 – безударный переднеязычный гласный Ь.

После шестого объединения мы получаем следующие группы аллофонов:

«1» = 1 (пауза), 2 (Ъ), 13 (А) – «нейтральное» положение речевых органов

«4» = 4 (Д’), 9 (Д), 14 (Т) – переднеязычная смычка

«7» = 7 (Ин – глайд от И к Н), 22 (Ир – глайд от И к Р), 20 (Ь) – передний гласный.

Окончательные результаты программы обсуждаются в следующем параграфе. }
^

П.3. Лингвистический анализ автоматической классификации аллофонов


Автоматическая обработка описанного выше материала по программе группировки сегментов приводит к весьма интересным результатам, имеющим лингвистическую значимость. В наиболее простых вариантах исходных данных, содержащих около 30 «арифметических» слов, получалась фонемная система всего лишь из трёх фонем. При этом сегменты распределялись по фонемам следующим образом. Одна из фонем содержит в себе только гласгнык аллофоны – «гласная» фонема. Другая фонема содержит только губные и огублённые сегменты, вокальные и консонантные – «губная» фонема. Третья же фонема содержит все остальные сегменты, главным образом неогублённые согласные – «консонантная» фонема. При ещё более ограниченном наборе сигналов (10 – 15 слов) оказывается достаточной система из двух фонем. В одну из них собираются сегменты ударных гласных, а в другую – все остальные сегменты: безударные гласные, согласные и переходные глайды.

Несмотря на то, что исходный материал существенно отличается от используемого в лингвистике (в частности речевые сигналы заданы не в виде последовательностей сегментов фонемной длины, а через более мелкие отрезки звука, содержащие отдельные фазы артикуляции), результаты анализа прекрасно согласуются с лингвистическими теориями. Так, система из трёх фонем практически идентична наиболее универсальной системе противопоставлений в языке, описанной Р. Якобсоном [JAKOBSON], где противопоставляются с одной стороны «открытая» гласная фонема, а с другой стороны две «закрытых» фонемы – губная и язычная. Эта Якобсоновская система противопоставлений реализуется в детском языке на начальном этапе овладения речью, для которого характерна сильная ограниченность используемого словаря. В нашем эксперименте показательно то, что эта фундаментальная система «проявилась» в тех же условиях – при обработке ограниченного набора речевых сигналов. Такой результат позволяет предположить, что языковой механизм автоматов, использующих язык в меньшем объёме, чем средний взрослый человек, должен в некоторых аспектах повторять особенности языкового механизма детей. Кроме того, появляется соблазн объяснить особенности детской речи (по крайней мере некоторые) не просто недостаточным развитием языковой способности, а определённой адаптацией языкового механизма к специфическим условиям функционирования.

Двухфонемная система в нашем эксперименте также имеет аналогию в детской речи. Известно, что ритмический рисунок слов и фраз усваивается ребёнком ещё задолго до того, как он начнёт говорить или понимать речь. Этой стадии соответствует минимальный запас понимаемых сигналов (несколько слов, таких как «мама», «папа», «игрушка» и др.). И наша программа при минимальном словаре нашла наиболее оптимальным выделить ударные гласные и тем самым зафиксировать ритм используемых слов.

При увеличении словаря усложняется результирующая система фонем и приближается к обычной фонематике русского языка. После обработки 60 – 64 слов система фонем содержит шесть классов аллофонов. Пять из этих классов обычно содержат сегменты одного из гласных звуков русского языка и кроме того ряд переходных сегментов, а иногда и участки какого-нибудь согласного звука. Шестой класс аллофонов объединяет только согласные и переходные сегменты. Здесь мы опять наблюдаем особенность характерную для детской речи – различение гласных фонем при очень плохой дифференцированности согласных.

Более обширный словарь к сожалению не мог быть обработан в исследовавшемся варианте программы. Поэтому в дальнейшем мы ограничили свою задачу обработкой только тех сигналов, которые содержат лишь по три элементарных сегмента и не включают носовых и латеральных звуков. Это позволило обработать словарь, содержащий около 200 произнесений в системе 14 дифференциальных признаков. Материалом служили «квазислова» в русском литературном произношении2. Эта совокупность исходных сигналов привела к построению системы фонем, отличающейся от общепринятой главным образом лишь отсутствием дифференциации по отдельным ДП. Особенно показательно неразличение твёрдых и мягких, а также свистящих и шипящих согласных. Причиной этого может быть более дробная сегментация сигналов, но само явление сопоставимо с фактом довольно позднего овладения детьми противопоставления по твёрдости|мягкости и неразличения ими таких звуков как С и Ш.

Для того чтобы предоставить машине возможность полного анализа звуковой структуры русского языка возможности используемой техники оказались недостаточными. Описываемый вариант программы позволял вводить в память ЭВМ БЭСМ-:, не снабжённой дополнительными блоками оперативной памяти, примерно 10000 бит исходных данных, что составляет 60 – 64 слова их десяти 17-разрядных сегментов или около 250 трёхсегментных слов в системе 14 ДП. Несложные преобразования программы могли бы увеличить эффективную ёмкость памяти, но при этом мы сталкиваемся с ограничением по времени. Обработка полного словаря в данном варианте программы продолжалась порядка 10 часов, что является предельным разумным временем решения одной задачи. Временнόе ограничение однако можно преодолеть путём перехода к программированию на более эффективном языке и использованию более быстродействующих машин. Осуществлённый нами перевод программы на язык ФОРТРАН (в этой работе участвовал И. С. Мирер) привёл к сокращению времени обработки нашего исходного материала до нескольких десятков минут. Поэтому становится реальной перспектива автоматической фонемизации на материале, представляющем язык в достаточно полном объёме.
^

П.4. Программа автоматической фонемной сегментации


Часть общей программы автоматического установления словаря кинакем (звукотипов), ответственная за оптимальное членение речевых сигналов на сегменты, соответствующие фонемному разбиению, исследована в меньшей степени, чем блок парадигматической группировки аллофонов. Однако предварительные данные показывают лингвистическую состоятельность программы и её применимость к практическим вопросам.

Исходными данными для этой части программы служит структура, полученная предварительными блоками предыдущей части, либо выходная информация алгоритма классификации аллофонов. Блоки сегментации и классификации построены таким образом, что порядок их выполнения можно произвольно менять, включая в частности один блок внутрь другого.

{Здесь опущено подробное пооператорное описание программы на языке АЛГОЛ-60, которая потеряла актуальность в настоящее время}

Программа сегментации была подвергнута экспериментальной эксплуатации на материале 128 слогов русской литературной речи типа «А» и «БА», где А – любой гласный, а Б – неносовой и нелатеральный согласный, твёрдый или мягкий, одинарный или геминированный. предварительно произнесения были просегментированы на три элемента: согласный, переходной сегмент и гласный. Первый и второй сегменты могли отсутствовать в слогах типа «А». Эти элементы были закодированы системой 14 дифференциальных признаков, описанной выше.

Время обработки указанного материала блоком сегментации не превышало 30 мин., что значительно меньше времени, необходимого для работы блока классификации. При наличии в составе исходных произнесений 105 различных элементов (столбцов значений ДП) программа сегментации приводит к системе из 85 различных склеенных сегментов. Один сегмент был составлен из 5 элементов (он употреблялся всего лишь в двух сигналах и всегда выходил за границы произнесения). 21 сегмент содержал по три элемента, охватывая целиком всё произнесение. 37 сегментов включали по два элемента, как правило, соединяя согласный и переходный элементы артикуляции. 26 сегментов были представлены одиночными исходными элементами. При этом 19 исходных элементов (18% первоначального списка и 30% всех употреблений элементов в тексте), были исключены из описания произнесений как неинформативные придатки окружающих сигнал пауз. В результате, если в исходном массиве каждый слог записывался тремя элементами, то на выходе мы получали почти всегда запись двумя сегментами, в большинстве случаев соответствующих согласному и гласному, что находится в согласии с обычным лингвистическим описанием простейших открытых слогов. Однако некоторые переходные элементы выделились в самостоятельные единицы описания, что наблюдалось в 10% случаев. А некоторые слоги типа «БА» были описаны как одна неделимая фонетическая единица. Анализ этих расхождений с лингвистическим описанием показал, что они в большинстве случаев обусловлены недостаточностью массива анализируемых произнесений, а также случайными помехами – ошибками в кодировке сигналов.

Сведения о результатах работы блока сегментации выдаются в следующем виде. После распечатки исходных данных указывается параметр взаимного расположения элементов рассматриваемой пары (синтагмы) ДЛИНА КОРРЕЛЯЦИИ К и перечисляются все бъединяемые синтагмы с указанием числа элементов новообразованного сегмента, его описания в массиве ПРИЗНАК и (в одном из вариантов программы) параметр контрастности элементов в сегменте:

^ ДЛИНА КОРРЕЛЯЦИИ К = 1

………

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 3

ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 10203 995520

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 2

^ ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 102 10057

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 2

ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 102 10102

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 2

^ ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 102 10209

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 2

ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 102 10302

ЧИСЛО НЕНУЛЕВЫХ ЭЛЕМЕНТОВ В СИНТАГМЕ N1 = 2

^ ПОЛУЧЕН СЕГМЕНТ С ПРИЗНАКАМИ 102 10424

ДЛИНА КОРРЕЛЯЦИИ К = 2

………

В этом тексте каждому акту объединения связанной синтагмы в один алфавитный элемент (сегмент) соответствуют две последовательные строки. В первой указывается длина синтагмы. Цифры во второй строке – значения из массива ПРИЗНАК. Первая цифра – признак размещения – задаёт взаимное расположение частей синтагмы. Так, в приведённом примере это число равно 10203 или 102. Это значит, что данные сегменты составлены из расположенных рядом трёх (в первом случае) или двух элементов, из которых именно первый (левый) является определя.ющим. Последнее следует из того, что информация о нём (номер позиции 1) находится в старшем разряде числа. Вторая цифра – признак состава – индивидуализирует сегменты синтагмы, перечисляя алфавитные номера сегментов в том порядке, в котором признак размещения задаёт их позиции.

После окончания работы блока печатается список всех элементов с сопоставленными им значениями признаков. Те элементы, которые исключены из состава результирующего алфавита сегментов, отмечаются нулевыми значениями в массиве ФОНЕМ.

1 В отладке программы и проведении экспериментов принимал участие ст. инженер Радиотехнического института АН СССР В. В. Жуков.

2 Квазислово – звукосочетание, способное функционировать как слово данного языка, если его наделить каким-либо значением.







Похожие:

Приложение. Инженерные аспекты теории фонем iconСтруктура фонологического блока в целом
Теперь оказывается, что мы не в праве единицы, обладающие такими свойствами, называть фонемами речевосприятия. Вопросы фонемной терминологии...
Приложение. Инженерные аспекты теории фонем iconИнженерные изыскания для строительства зданий и сооружений I и II уровней ответственности в соответствии с государственным стандартом инженерные изыскания для строительства зданий и сооружений II уровня ответственности
Инженерные изыскания для строительства зданий и сооружений II уровня ответственности
Приложение. Инженерные аспекты теории фонем iconВопросы к экзамену по Теории экономического развития (кроме зачеркнутого)
«Теории экономического развития» в качестве самостоятельной дисциплины (выделение «Теории экономического развития», или «Экономики...
Приложение. Инженерные аспекты теории фонем iconФилософские аспекты взаимной дополнительности гравитермодинамических параметров
На примере идеальной жидкости рассмотрена взаимосвязь между дополняющими друг друга гравитермодинамическими и термодинамическими...
Приложение. Инженерные аспекты теории фонем iconЗенков М. Ю., доцент кафедры государственного и муниципального управления Сибагс
...
Приложение. Инженерные аспекты теории фонем iconИнженерные системы; требования по обеспечению пожарной безопасности
Инженерные системы; требования по обеспечению пожарной безопасности и безопасности жизнедеятельности
Приложение. Инженерные аспекты теории фонем iconМетодологические аспекты проблемы старения. Происхождение старения в эволюции в. Е. Чернилевский
Несмотря на многие теории дать определение сущности жизни, этот вопрос в биологии остается открытым. Это связано, в основном, с применением...
Приложение. Инженерные аспекты теории фонем iconПроблема ландшафта в струнной теории
На основании анализа уравнений общей теории относительности показано, что предсказания теории струн о существовании бесконечного...
Приложение. Инженерные аспекты теории фонем iconКогнитивный аспекты
Языковое бытие человека и этноса: психолингвистический и когнитивный аспекты. Вып. /Под ред. В. А. Пищальниковой. — М.: Мгэи, 2005....
Приложение. Инженерные аспекты теории фонем icon"Исследование доказательств в суде первой инстанции"
Программа содержит актуальные теоретические и практические аспекты доказывания в стадии судебного разбирательства, учитыва­ет новейшие...
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов