Бодякин в. И., Чистяков а. А icon

Бодякин в. И., Чистяков а. А



НазваниеБодякин в. И., Чистяков а. А
Дата конвертации10.08.2012
Размер99.6 Kb.
ТипДокументы


БОДЯКИН В.И., ЧИСТЯКОВ А.А.

Институт проблем управления им. В.А.Трапезникова РАН, Москва

E-mail body@ipu.ru http://www.informograd.narod.ru


НЕЙРОСЕМАНТИЧЕСКАЯ ФОРМА

ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ


Аннотация

Рассматривается метод взаимно однозначного преобразования текстового потока данных в иерархически сетевую структуру, предназначенную для проектируемых систем искусственного интеллекта. Вводится понятие нейросемантической формы представления информации и обсуждаются её основные характеристики и свойства. Приводятся экспериментальные данные информационных систем на базе нейросемантической формы представления информации.


Введение. Проблема представления информации и знаний одна из актуальнейших в направлении разработки систем искусственного интеллекта (ИИ). Форма представления информации этот тот фундамент, на котором строится все здание системы, и которым определяются основные теоретические и конструктивные особенности разрабатываемой системы. Соответственно, удачно выбранная форма представления информации делают систему не только простой и эффективной, но и легко развиваемой, и наоборот, неудачно выбранная форма представления информации – это, в конечном счете, всегда неработающая информационная система. Т.е. выбор формы представления информации для информационной системы это первый определяющий шаг на пути проектирования системы ИИ.

^ Текстовая форма. Наиболее распространенной и эффективной формой представления информации для коммуникации информационных систем является текстовая форма (ТФ) представления информации. ТФ универсальна. В нее можно без потерь и с любой, наперед заданной степенью точности (соответствия), преобразовывать произвольные физические процессы, представляемые в различных информационных формах: графической, акустической, текстовой и т.д., [1,2,3], см. рис. 1.


Рис. 1

Где: а) – исходный физический процесс, б) – дискретизация этого процесса по амплитуде сигнала и времени, в) – символьный вид и г) – текстовая форма.


В дальнейшем, под потоком данных из предметной области (ПО) будем понимать ТФ, как текстовую последовательность символов произвольного алфавита (А), в которой размер алфавита много меньше длины текста (L), т.е., L >> |A|. Естественно, что в реальных потоках данных неизбежно повторение не только отдельных символов, но и их устойчивых сочетаний, характерных для конкретного источника потока данных, особенно это свойственно для естественно языковых текстовых потоков.


^ Простейший алгоритм нейросемантического преобразования ТФ. Кратко рассмотрим один из алгоритмов формирования нейросемантической структуры (НСС) на произвольном текстовом потоке [2,3].

^ Первый шаг. Для i-го словаря выбираем максимально возможную длину "слова" в k знаков (например, 2  k  8).

Второй шаг. Если Si словарь не пуст, то выбираем из него первое "слово" и закрашиваем им ТФ. И так делаем со всеми "словами" из Si словаря, пытаясь закрасить всю ТФ.

Если ^ Si словарь пуст, то переходим третьему шагу.

Третий шаг. Слева-направо выбираем в ТФ первые, еще "не закрашенные", не более k знаков (l  k) и формируем из них "слово" и заносим его в Si словарь.

Далее этим "словом" проходим по всем "незакрашенным" участкам ТФ и "закрашиваем" в нем все участки, тождественные этому "слову". При этом, в Si словаре отмечаем характеристики "слова": его длину – l и число закрашиваний им ТФ – w.

И так делаем до тех пор, пока не будет "закрашена" вся ТФ.

^ Четвертый шаг. Вместо "закрашенных" последовательностей ставим индексы соответствующих им "слов" из словаря. В результате, исходная ТФ преобразуется в новую ТФ - последовательность индексов Si словаря и сам Si словарь.

^ Пятый шаг. Вычисляем суммарный "битовый вес" Рn, полученной последовательности индексов и Si словаря.

Сравниваем вычисленное значение Рn с его предыдущим Рn-1. Если Рn Рn-1 , то переходим на восьмой шаг (условие 1а и 1б).

Шестой шаг. Вводим параметр (функционал) упорядочивания "слов" в словаре F, допустим как: F = l k * w + (l+w) и сортируем "слова" словаря в порядке убывания величин их F.

Седьмой шаг. Делим Si словарь на две группы "слов" (в соотношении, примерно, 1:3). Освобождаем словарь от группы слов с меньшим F и переходим на второй шаг алгоритма.

^ Восьмой шаг. Рассматриваем индексную последовательность как новую ТФ для формирования следующего иерархического Si+1 словаря. При этом, длина индексной последовательности сокращается, примерно, в k раз, т.е. L n+1  Ln / k.

Если длина этой последовательности L n+1 > 1, то переходим на первый шаг алгоритма.

^ Девятый шаг. Stop. НСС построена.

В результате исходная текстовая форма преобразуется в иерархическую структуру словарей , т.е: ТФ  S1, S2, … Sn.

Если источником ТФ является естественный физический процесс или его естественно языковые описание (речь) в любой степени абстрагирования, то экспериментально мы получаем:


(S 1 + S 2 + S 3 + + S n ) (бит) / ТФ (в битах) 0, при LТФ   (1а)


Теоретически это отношение легко доказать для тестовых примеров. Оказывается, что в этом случае "словами" в иерархических словарях структуры становятся символьные последовательности ТФ, которые тождественны ТФ реальным процессам в предметной области. Т.е. данной процедурой построения из непрерывного потока ТФ автоматически выделяются семантические единицы любой естественной предметной области (ПО).

^ Нейросемантическая структура. Структура словарей S1, S2, …Sn, в которой выполняется (1а или 1б), будем называть нейросемантической структурой (НСС).

RНСС / TФ 0, при t   (1б)

Формально НСС можно представить как ориентированный многодольный иерархически-сетевой граф, вершины (узлы) и дуги которого нагружены информационным содержанием элементов, состоящих из текстовых подпоследовательностей. Содержание каждой вершины-элемента структуры состоит из упорядоченной иерархии содержаний элементов, связанных с ним снизу. Каждый элемент такой структуры уникален по содержанию.

Для процесса идентификации слов в словарях удобно ввести в рассмотрение нейроподобные N-элементы, в которых каждый вход отмечен временем его активации и все они упорядочены по возрастанию времени (см. рис. 2).



U(t)= Fi (U(X,t)), Fi (t) = FИС(U(t-1))


Рис. 2.


Объединив N-элементы в многодольный иерархический граф, удалось получить структуру аналогичную естественно-языковым. Первый слой (доля графа) N-элементов – терминальный, фактически отображает алфавит А ТФ, второй слой – "псевдослоги" и строится на пространственно-временных ссылках на предыдущий (терминальный) слой - информационное содержание N элемента, слой "псевдослов" – ссылается на "псевдослоги" и т.д., до самого верхнего N элемента, отображающего в себе через связи всю ПО. Таким образом, каждое "слово" словарей НСС физически отображается нейроподобным N элементом, т.е. в НСС выполняется взаимнооднозначное соответствие:


N элемент НСС   иерархическое "слово-процесс" ПО. (2)


Автоструктуризация. НСС – это пример 1-го формального преобразования количественной (естественной) текстовой формы представления информации в качественную форму, в которой из континуальной (практически непрерывной, неструктурированной) текстовой формы, образуется иерархическое множество образов данной ПО в виде ориентированного многодольного графа, гомоморфно отображающего иерархические причинно-следственные связи образов (объектов-процессов), т.е. семантическую структуру ПО. Понятно, что ее автоматическое формирование открывает широкие горизонты для инженерии автоматизации обработки крупномасштабных информационных процессов.

В работах [3,4,5] описаны алгоритмы автоструктуризации, которые из непрерывного информационного потока эффективно выделяют отрезки текста, соответствующие семантическим единицам исследуемой ПО.

Следует также отметить, что все технические характеристики памяти на базе НСС (время доступа, коэффициент компрессии-сжатия, надежность-пла­стичность хранения информации и др.) имеют тенденцию к улучшению, как в среднем, так и в абсолютных значениях по мере роста объема вводимой информации из ПО (см. рис. 3).




Рис. 3.


^ Алгоритм обратного преобразования НСС в ТФ осуществляется уже за меньшее число операций и идет "сверху-вниз".

На первом шаге Sn преобразуется в "слово" индексов и заносится в стек n. Первый индекс In стека, раскрывает "слово" в словаре Sn-1 , которое заносится в стек n-1. Из него выбирается первый индекс In-1 и т.д. до первого терминального словаря S1, индексы которого являются исходными символами ТФ в алфавите А.

В результате, первого прохождения по НСС "сверху-вниз" в ТФ формируется последовательность соответствующая "слову" словаря ^ S1. После выдачи терминальных символов в ТФ, стек I2 увеличивается на единицу и в ТФ выдается второе "слово" и так до тех пор, пока не освободиться весь стек I2.

После этого стек I3 увеличивается на единицу, формируется новый стек в ^ I2. Первый индекс, которого есть следующее "слово" в ТФ. И т.д., пока не освободится In стек.

Критерий достаточности ТФ для автоструктуризации. Качество автоструктуризации ТФ в НСС отображается отношением числа корректных пар (N элемент  ЭСЕ) на общее число N элементов НСС. При достаточности текстового материала всегда достигаются величины "НСС-качество" близкие к 1. При этом, критерием достаточности текстового материла является как а) возможность человека правильно структурировать данный текстовой материал в непривычной, но взаимнооднозначной для него нотации, например, при константном сдвиге символов в алфавите; так и б) характер динамики уменьшения ресурсоемкости НСС в алгоритме нейросемантического преобразования ТФ.

Скорость автоструктуризации можно существенно улуч­шить, выделив и введя уже известные экспертам "семантические затравки". Такой процесс автоструктуризации принято на­зывать обучением "с учителем". Полезность обучения "с учителем" хорошо известна и широко используется для обучения биологических информационных систем.

ТФ и НСС. Сравнивая различные формы представления информации для систем искусственного интеллекта, в частности ТФ и НСС, можно отметить как их преимущества, так и их недостатки.

Из преимуществ ТФ можно отметить: интерфейсную универсальность и из ее недостатков: избыточность, громоздкость, "медлительность" … .

К преимуществам НСС можно отнести:

- ассоциативное сведение однотипных событий-процессов, произошедших в разные времена и в различных контекстных ситуациях в единое "ментальное целое", т.е. преодоление в "ментальном мире" НСС всех пространственных и временных расстояний [4];

- автоматическое выделение семантических единиц ПО;

- улучшение всех существенных технических характеристик памяти: время доступа, коэффициент компрессии-сжатия, надежность-пла­стичность хранения информации и др., по мере роста объема вводимой информации;

- большую функцио­нальную близость к естественному прототипу - централь­ной нервной системе, чем современные модели нейронных се­тей [1], за которыми исторически закрепилось направление нейрокомпьютинга.

Особенности вышеперечисленных характеристик НСС являются основанием для построения на её базе крупномасштабной ассоциативной па­мяти (ИС), работающей со слабоструктурированными текстовыми пото­ками.

^ Сжатие (компрессия). Хотя выполнение условий 1а и 1б необходимо для проявления свойства автоструктуризации НСС, они также отображают и возможность использования НСС в качестве архиватора для ТФ.

Не рассматривая детально в данном материале направление современной архивации [5,6,7], которое достаточно хорошо представлено в Интернете, например на сайтах http://data-compression.com, http://www.arctest.narod.ru мы сравним процесс компрессии в НСС с популярными архиваторами.

Так как естественно языковая ТФ имеет иерархическую структуру (слоги естественного языка состоят из символов, слова - из слогов, фразы - из слов, предложения - из фраз и т.д.), то для моделирования больших объемов текстов естественного языка (объемом в Гига- и Терабайты) на обычных РС были предложены специальные т.н. псевдофрактальные (псевдоестественные) текстовые файлы. Которые строились следующим образом. Произвольный фрагмент текста естественного языка разделялся на k частей и этими частями в произвольном порядке приращивался к исходному тексту. Затем эта же процедура повторялась с новым текстом и так до получения требуемой его длины L. В качестве начального текста для эксперимента был взят фрагмент последовательности генетического кода, алфавит из четырех символов.

Диаграмма 1



Результаты эксперимента приведены на диаграмме 1, где по оси X отображены значения объемов файлов в логарифмическом масштабе по основанию 2. Сравнение НСС проводилось популярными архиваторами, RAR и ZIP, как дающее достаточно высокое сжатие.

В данном эксперименте была продемонстрирована потенциальная эффективность сжатия на основе НСС, для сверхбольших объемов данных. Поэтому, ряд существенных для практики показателей архиваторов, таких как: быстродействие сжатия и восстановления, ограничения на память, удобство применения и пр., в данном случае специально не учитывались.

Выводы. НСС, как форма представления информации, имеет достаточно преимуществ (автоструктуризация, ассоциативность, компрессия, надежность, малое время доступа и пр.) перед другими формами представления информации, такими как: текстовая, табличная, древовидная, иерархическая, сетевая, реляционная и др., чтобы проводить и расширять дальнейшие ее исследования, как перспективной формы представления информации для проектируемых интеллектуальных систем.


^ Список литературы

  1. Бодякин В.И., Куда идешь, человек? (Основы эволюциологии. Информационный подход). - М. СИНТЕГ, 1998, 332с.

  2. Бодякин В.И. Нейролингвистическая форма представления информации на нейроноподобных элементах, - тезисы семинара-совещания «Алгоритмы обработки информации в нейроноподобных системах», г. Н-Новгород, 14-16 сентября 1993г.

  3. Бодякин В.И. Информационные иерархически-сетевые структуры для представления знаний в информационных системах. //Проблемно-ориентированные программы. Модели, интерфейс, обучение: Сб. трудов. – М.: Институт проблем управления, 1990.

  4. Бодякин В.И., Чистяков А.А. Ассоциативные информационные структуры и модели памяти, - Материалы V Международной конференции “ От истории природы к истории общества и будущему человечества” 13.05 – 17.05 2002 года, секция “ Математические модели “. - Москва, 2004. – 49 с.

  5. Кузнецов Н.А. Информационное взаимодействие в технических и живых системах. Информационные процессы. 2001, том 1, №1, с. 1-9.

  6. Фомин А.А. Основы сжатия информации. Санкт-Петербургский гос. технический университет, 1998.

  7. Балашов К.Ю. Сжатие информации: анализ методов и подходов. - Препринт / Ин-т техн. Кибернетики НАН Беларуси; № 6, Минск, 2000.






Похожие:

Бодякин в. И., Чистяков а. А iconЧистяков вячеслав Маркович
Чистяков вячеслав Маркович, капитан на судах Мурмансельди. В 1960-е годы возглавлял экипажи срт- 228 «Колыма», других траулеров....
Бодякин в. И., Чистяков а. А iconДокументы
1. /Чистяков-1985.pdf
Бодякин в. И., Чистяков а. А iconДрабкин А. Л., Коренберг Е. Б. Д 72 Антенны
Б. Г. Белкин, С. А. Бирюков, В. Г. Борисов, В. М. Бондаренко, С. Я. Геништа, А. В. Гороховский, С. А. Ельяшкевич, И. П., Жеребцов,...
Бодякин в. И., Чистяков а. А iconБодякин В. И. Институт проблем управления ран
Институт проблем управления ран им. В. А. Трапезникова, Москва e-mail: body@ipu ru
Бодякин в. И., Чистяков а. А iconБодякин В. И. Институт проблем управления ран
Институт проблем управления ран им. В. А. Трапезникова, Москва e-mail: body@ipu ru
Бодякин в. И., Чистяков а. А iconСвященник Георгий Чистяков
Если снять оклад и смыть краску и лак, которыми ее поновляли в течение веков, она откроется в первоначальном виде. Попытаемся сделать...
Бодякин в. И., Чистяков а. А iconВ. И., Чистяков А. А. Нейросемантическая форма представления информации
Обсуждаются метод и свойства взаимно однозначного структурного преобразования текстового потока данных в нейросемантическую форму...
Бодякин в. И., Чистяков а. А iconДокументы
1. /[математика] Сборник старинных задач по элементарной математике В Д Чистяков.djvu
Бодякин в. И., Чистяков а. А iconДокументы
1. /[математика] Сборник старинных задач по элементарной математике В Д Чистяков.djvu
Бодякин в. И., Чистяков а. А iconПопко владимир Васильевич, капитан на судах Мурманского тралового флота. Возглавлял экипаж бмрт «Свердловск»
Попко владимир Васильевич, капитан на судах Мурманского тралового флота. Возглавлял экипаж бмрт «Свердловск», добивался успеха на...
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов