И. В. Азар о ва, С. С. Гордеев icon

И. В. Азар о ва, С. С. Гордеев



НазваниеИ. В. Азар о ва, С. С. Гордеев
Дата конвертации28.11.2012
Размер341 Kb.
ТипДокументы




И.В. Азарова, С.С. Гордеев


ПОСТРОЕНИЕ ПРЕДМЕТНОЙ ОНТОЛОГИИ НА БАЗЕ ТЕМАТИЧЕСКОГО КОРПУСА ТЕКСТОВ


В данной работе предлагается метод автоматического выделения прототипов терминов из тематического корпуса текстов, разделенного на подобласти. Была выбрана довольно обширная предметная области «экология», в рамках которой были созданы 3 подкорпуса: «экология Черного моря», «экология озера Байкал», «общие вопросы экологии». Вариации предметной области позволяют обнаружить лексические единицы, общие для разделов корпуса.


1. Введение


Для извлечения информации из текстов необходимо иметь концептуальную модель предметной области, которая базируется на экспертном знании. Однако, имея в виду огромное количество предметных областей и их пересе- чений, будет полезно иметь автоматический способ постро- ения модели предметной области на базе некоторого корпуса текстов, специально отобранных для конкретной задачи.

Набор средств для выполнения поставленной проблемы довольно стандартный1 , однако специфика языка и особен- ности предметной области требуют внесения определенных корректив. В данной работе предлагается метод автоматичес-


кого выделения прототипов терминов из тематического корпуса текстов. При автоматическом выделении терминов следует решить следующие задачи: – выделить опорные слова, которые являются ядром прототипов терминологи- ческих словосочетаний; – выделить подходящие слово- сочетания из текстов корпуса; – организовать выделенные терминологические словосочетания в структуры, предполо- жительные онтологии.


^ 2. Выделение опорных терминоэлементов


Довольно очевидно, что термины являются частотными словами и словосочетаниями в рамках некоторой предметной области. Поэтому простейший подход к выделению терминоэлементов состоит в поиске наиболее частотных слов. Однако эта процедура, хотя и дает некоторые результаты, в общем не вполне эффективна в силу не- скольких причин. Во-первых, высокочастотными являются также строевые элементы текста (их можно частично «от- сеять», задав списки «стоп-слов»), но общенаучные и обще- технические слова довольно сложно зафиксировать заранее.

Во-вторых, частотность терминов довольно неравно- мерна. Частотными являются только термины, которые относятся к основной теме текста (это топикализаторы).
А те

термины, которые появляются в части «новой» (сообщаемой)


1 Ninth Conference of the European Chapter of the Association for Computational Linguistics. 8-12 June 1999 University of Bergen, Bergen, Norway.


информации, по большей части низкочастотны, даже окка- зиональны. Кроме того, частотность терминов-топикали- заторов также понижается за счет того, что эти словосо- четания при повторном появлении появляются в «текстовой» форме – с усечением и заменой определительной части, например (вместо загрязнение Байкала появляются фразы загрязнение озера, загрязнения БЦБЗ, просто загрязнение).

Для выделения значимой «частотной» области мы использовали два подхода, которые будут описаны ниже. Для выделения частотных элементов необходимо приве- дение к «исходной» форме (лемме), поэтому была исполь- зована морфологическая разметка подкорпусов текста. Разметка могла быть неоднозначной: для одной частеречной леммы перечислялись варианты грамматического анализа. При частеречной омонимии (типа правило) вначале приводилась интерпретация существительного, затем глагола на основании средней частотности ЧР.

Далее создавался частотный список лемм, которые приводились в качестве первого варианта морфологической интерпретации, причем подкорпусы обрабатывались по от- дельности. При просмотре списков было очевидно, что в верхней части списков стоят строевые, общенаучные слова и основные топикализаторы подкорпусов (например Байкал).

Деление на зоны производилось автоматически. Иссле- довались два варианта. От начала частотного списка сумми- ровались частоты лемм, при достижении порогового значения (в первом варианте 15% от общего количества сло-


воупотреблений в подкорпусе, во втором – 33%) выделялась высокочастотная зоны. Затем процедура суммирования отно- сительных частот возобновлялась и при достижении порогового значения (85% – в первом случае, 66% – во втором случае) выделялась следующая зона – среднечастот- ная. Оставшаяся часть являлась низкочастотной. После просмотра лексем в выделенных зонах был выбран второй набор пороговых значений (33%-66%).

Полученные леммы в частотных зонах подкорпусов сравнивались между собой, выделялись совпадающие, при этом наиболее перспективными считались леммы из средне- частотной зоны.


^ 3. Выделение терминов-словосочетаний


На следующем этапе производился отбор словосо- четаний, в состав которых входили выделенные ранее сред- нечастотные терминоэлементы. При этом учитывался факт, что термины, как правило, являются словосочетаниями, кроме того, они обычно неразрывны, т.е. термин является яд- ром словосочетания (ср. для этих сточных вод, массового спектрометрического анализа)

Структура словосочетаний задается типовыми син- таксическими шаблонами, например, «прилагательное + су- ществительное», «существительное + существительное»,

«существительное + предложно-падежная форма существи-

тельного» и т.п. Помимо именных групп задавались глаголь-


ные конструкции («глагол + существительное», «гла-

гол + предложно-падежная форма существительного» и т.д.).

Выделенные из текстов словосочетания сверялись с зонами частотности лексических единиц, в первую очередь, среднечастотной. В зависимости от того, в какой зоне находился наиболее частотный компонент словосочетания, прототипы словосочетаний разбивались на три группы, при этом предполагалось, что среднечастотные прототипы наиболее информативны.


^ 4. Построение слабоиерархической онтологии


Далее выделенные терминоэлементы и терминологи- ческие словосочетания объединялись в слабоиерархичную онтологию. Основанием для объединения типа родовидового было вхождение терминоэлемента из среднечастотной зоны в словосочетание в качестве главного компонента, например: воздействие => антропологическое воздействие; изо- топ => тяжелый изотоп; дельта => нижняя дельта. Тер- миноэлементы, которые входят в выделенные словосоче- тания в качестве зависимых, позволяют объединять словосо- четания в ассоциативные группы, например: почва <= эрозия почвы / плодородие почвы / дефляция почвы.

Предлагаемая методика автоматического выделения тер- миноподобных словосочетаний из текстов и организации выделенных единиц в слабоиерархические структуры может быть базой для дальнейшей «ручной» обработки выделенных прототипов терминов.



Похожие:

И. В. Азар о ва, С. С. Гордеев iconДокументы
1. /Бриджмэн У., Азар Ж. Один в бескрайнем небе.doc
И. В. Азар о ва, С. С. Гордеев iconПротокол допроса п. И. Гордеевой (кремлевское дело) 1 марта 1935 г
Гордеева п. И., 1907 г рождения, из Рабочих, член влксм с 1929 года, до ареста ст библиотекарь правительственной библиотеки. Работает...
И. В. Азар о ва, С. С. Гордеев iconМ. Н. Гордеев, В. Г. Евтушенко
С их помощью излечивают такие рас­пространенные болезни, как алкоголизм, табакокурение, избыточ­ный вес, заикание, энурез. О том,...
И. В. Азар о ва, С. С. Гордеев iconК. Гордеев “Новые правые” в Европе Истоки мировоззрения
Новые правые” являются одним из ведущих интеллектуальных течений социально-политической мысли современной Европы, сложным, объемным,...
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов