4 Система автоматизированного ведения классификационных языков винити icon

4 Система автоматизированного ведения классификационных языков винити



Название4 Система автоматизированного ведения классификационных языков винити
страница1/3
Дата конвертации10.08.2012
Размер0.57 Mb.
ТипДокументы
  1   2   3



4 Система автоматизированного ведения классификационных языков ВИНИТИ


Работы по созданию системы классификационных схем, используемых в ВИНИТИ, основываются на модели данных, которая первоначально была построена для службы ведения Рубрикатора и Регистра информационных продуктов ВИНИТИ: в течение 2000 - 2001 гг. был построен программно-технологический комплекс, который обеспечил выполнение основных функций по ведению Рубрикатора и Регистра ИП ВИНИТИ и использованию их в процессе производства РЖ и БД; в 2002 году осуществлено развитие функциональности системы и совершенствование модели данных.

В 2003 году проведены работы, направленные на организацию связей между древовидными структурами, помещаемыми в общую базу данных классификационных схем. Это потребовало включения в реляционную модель новых SQL-объектов, ответственных за поддержание целостности и непротиворечивости таких связей, а также – соответствующего развития программного обеспечения ведения классификационных схем.

Практические результаты работ 2003 года состоят в том, что база данных классификационных схем пополнена новыми объектами. Это, в первую очередь, Рубрикатор ГРНТИ, затем – номенклатура специальностей ВАК, классификатор приоритетных направлений фундаментальных исследований РАН, перечень критических технологий России.

Настоящий отчет содержит описание реляционной модели системы классификационных схем, используемых в ВИНИТИ. Все классификационные схемы сведены в общую базу данных RUB, которая поддерживается СУБД MS-SQL-Server на сервере баз данных EAGLE. Каждая классификационная схема в базе данных представлена как отдельное дерево. Общие SQL-средства, которые предназначены для хранения структурированных данных, образующих в совокупности граф типа "дерево" (или древовидную структуру), описаны в [3]. Поэтому здесь рассматриваются средства организации и поддержки взаимосвязей различных классификационных схем в общей базе данных, которые были разработаны в 2003 году, а также дается характеристика общего состояния базы данных классификационных схем ВИНИТИ.

4.1 Развитие реляционной модели данных

Модель данных получила развитие по трем направлениям:

  • реализация связей вершин в дереве;

  • реализация взаимосвязи различных деревьев;

  • дескрипторное описание вершин.


4.1.1 Таблица связей вершин в дереве

Имя таблицы: <имя-дерева>_treeLink

Таблица связей вершин позволяет определять такие взаимоотношения между вершинами дерева, которые не укладываются в общую схему «главная-подчиненная». Это ссылки, переходы, эквивалентности и пр. – см. словарь видов связей вершин (asksrv.HubLink).

Одна вершина может иметь связи различного вида с различными вершинами своего дерева.


cod

varchar(125)

код вершины

not null

FK -> <имя-дерева>_tree(cod)

cnt

int

порядковый номер связи для данной вершины

not null

l_name

varchar(10)

вид связи

not null,

FK -> asksrv.HubLink(l_name)

r_cod

varchar(125)

код вершины, на которую указывает связь

not null

FK -> <имя-дерева>_tree(cod)

upd_date

smalldatetime







upd_user

varchar(10)








^ 4.1.2 Взаимосвязь различных деревьев

Различные классификационные схемы взаимосвязаны. Например, рубрики Государственного рубрикатора НТИ имеют связь с кодамм номенклатуры ВАК и с кодами УДК.

Формально это выражается в том, что вершина какого-либо дерева может иметь отсылки к одной или нескольким вершинам одного или нескольких других деревьев, поддерживаемых в общей базе данных классификационных систем. Реализация таких отношений осуществляется через аппарат таблиц взаимосвязей деревьев.

На каждую пару «дерево-1» -> «дерево-2» в базе данных заводится таблица взаимосвязи деревьев, которая имеет фиксированную структуру и содержит односторонние отсылки от вершин дерева-1 к вершинам дерева-2 – с указанием формул связи. Целостность и непротиворечивость отсылок обеспечивается механизмом внешних ключей, определенных для каждой таблицы взаимосвязей деревьев. Операторы, которые могут использоваться в формулах связи, регламентируются таблицей-словарем формул.

Связи устанавливаются для отдельных вершин данного дерева (<имя-дерева>_tree) путем указания на формальном языке отсылок к вершинам другого дерева (<имя-дерева-2>_tree) – через таблицу взаимосвязи деревьев.

Имя таблицы взаимосвязей – произвольное (в базе данных классификационных схем ВИНИТИ в идентификаторах таких таблиц используется суффикс _Rel); структура - фискированная:

cod

varchar(125)

код вершины, к которой относится формула кодов в исходном дереве

not null,

FK -> <имя-дерева>_tree(cod)

op_num

int

порядковый номер оператора

not null

op_cod_s

varchar(3)

оператор – разделитель (от предыдущего оператора)

FK -> asksrv.Rel_Op(op_cod)*

op_cod_p

varchar(3)

оператор – префикс для cod_ref или f_cod1

FK -> asksrv.Rel_Op(op_cod)*

cod_ref

varchar(125)

код вершины для ссылки «См. …» - на вершину в исходном дереве, из которой надо скопировать формулу взаимосвязей

FK -> <имя-дерева>_tree(cod)

f_cod1

varchar(125)

КОД1 - в связанном дереве

FK -> <имя-дерева-2>_tree(cod)

op_cod_f

varchar(3)

оператор – для пары КОД1, КОД2

FK -> asksrv.Rel_Op(op_cod)*

f_cod2

varchar(125)

КОД2 - в связанном дереве

FK -> <имя-дерева-2>_tree(cod)

upd_date

smalldatetime

.............

default (getdate())

upd_user

varchar(10)

.............

default (suser_name())

*) вспомогательная таблица-словарь - описание см. ниже


Связь «дерево-1» - «дерево-2» имеет односторонний характер. Вопросы организации симметричных связей не изучались.

Для установления связи от «дерева-1» к «дереву-2» в описании «дерева-1» необходимо указать, с каким деревом осуществляется связь («дерево-2») и через какую таблицу взаимосвязи (имя таблицы). Указание этих параметров осуществляется в корневой записи исходной таблицы – см. ниже.

В общем случае исходное дерево может иметь связи с несколькими другими деревьями.

Задание списка вершин «дерева-2», с которыми устанавливает связь вершина «дерева-1», производится посредством формулы связи.

asksrv.Rel_Op - таблица операторов в формулах связей вершин различных деревьев

op_cod

varchar(3)

код оператора

not null

op_name

varchar(100)

название оператора

not null

comment

varchar(125)

комментарий




upd_date

smalldatetime







upd_user

varchar(10)







Перечень поддерживаемых операторов в формулах связей:

op_cod

op_name

оператор

SQL-запрос для выборки списка кодов ВАК

!

один РБШ

РБШ!

... where cod='РБШ'













См.

ссылка на другую вершину (взять формулу оттуда …)

РБШ

взять формулу связи из заданного РБШ текущего дерева

;

разделитель типа 1







,

разделитель типа 2







<пусто>

один КОД

КОД1

... where cod='КОД1'

+




+КОД1

... where cod='КОД1'

/

диапазон

КОД1/КОД2

+КОД1/КОД2

... where cod>='КОД1' and cod<='КОД2'


^ 4.1.3 Дескрипторное описание вершины дерева

Дополнительно к обязательным элементам (в основной таблице) описание каждой вершины дерева может сопровождаться набором дескрипторов. Например, рубрики Рубрикатора ВИНИТИ могут иметь наборы ключевых слов и словосочетаний, глубже раскрывающих тематику; эти слова и словосочетания выбираются из некоего общего списка, составленного именно для использования в указанном качестве.

База данных классификационных схем может включать несколько списков дескрипторов, имеющих разный характер и используемых для описания вершин различных деревьев, - словарей дескрипторов.

Именование таблиц словарей дескрипторов – произвольное; структура - фискированная:

kwnum

int

код дескриптора в словаре

not null

kw

varchar(255)

дескриптор

not null


Наборы дескрипторов для вершин дерева хранятся в таблице взаимосвязи данного дерева с соответствующим словарем дескрипторов. Именование этих таблиц взаимосвязей - произвольное; структура - фискированная:

rbc

varchar(30)

код вершины в дереве

not null

FK -> <имя-дерева>_tree(cod)

kwnum

int

код дескриптора в словаре дескрипторов

not null

FK -> <имя словаря дескрипторов>(kwnum)

cnt

int

количество таких пар

(вершина - дескриптор)

not null


Для использования аппарата дескрипторных описаний вершин необходимо указать, какой словарь дескрипторов используется для данного дерева и какая таблица взаимосвязи со словарем служит для образования пар <вершина - дескриптор>. Указание этих параметров осуществляется в корневой записи основной таблицы дерева – см. ниже.


^ 4.1.4 Особенности корневой вершины дерева

Корневая вершина (имеет cod_up = cod = '0') является фиктивной. Структурно она служит для обеспечения непротиворечивости внутренних ссылок на родителя в пределах дерева. Поэтому все основные поля этой вершины могут быть использованы особым образом – для задания параметров, имеющих общее значение для дерева в целом.

В частности, в полях корневой вершины определяется вид дерева, название дерева, список таблиц, связанных с деревом (словари, связи с другими деревьями, дескрипторное описание вершин и пр.).

cod

'0'

cod_up

'0'

........

...............

hubtype

вид дерева

........

...............

txt_rus

название дерева

comment

список других таблиц, связанных с деревом

........

...............

^ Список других таблиц, связанных с деревом (в поле comment) задается на языке операторов:

Оператор

^ Для каких деревьев используется

Пояснение

Примеры значений (названия таблиц)

значения по умолчанию

HubType

все деревья

таблица-словарь значений вида деревьев и вершин

asksrv.HubType

HubStatus

все деревья

таблица-словарь значений статуса вершины

asksrv.HubStatus

HubLink

все деревья

таблица-словарь значений вида связи вершины с другими вершинами данного дерева

asksrv.HubLink

KwList

все деревья

общий список дескрипторов, используемых для вершин дерева (словарь дескрипторов)

analit.KWLIST

Cod_Kw

все деревья

таблица взаимосвязи со словарем дескрипторов

(пары <код вершины>-<дескриптор>)

analit.RV_KW

RelTree-1

все деревья

дерево, с которым установлена взаимосвязь вершин текущего дерева, - через таблицу-отношение, заданную в операторе Rel-1

rubown.VAK_tree

Rel-1

все деревья

таблица, устанавливающая взаимоотношения с вершинами дерева, заданного в операторе RelTree-1

rubown.RGNTI_VAK

RelTree-2

все деревья

дерево, с которым…, - через … Rel-2

rubown.FND_tree

Rel-2

все деревья

таблица, устанавливающая … RelTree-2

rubown.RGNTI_FND

RelTree-3

Rel-3

.

все деревья

…..




Rel_Op

все деревья

таблица-словарь операторов взаимоотношений вершин разных деревьев

asksrv.Rel_Op

Rub_Chp

R-деревья

таблица-словарь значений кода области знания

asksrv.Rub_Chp

RIP_Rubr

P-деревья

связанное с P-деревом дерево рубрикатора, по которому строятся формулы наполнения разделов и производится их развертка

rubown.etl_R_tree

………….

RIP_F_Op

P-деревья

таблица-словарь операторов формул наполнения раздела

asksrv.RIP_F_Op

IP_Techn

P-деревья

таблица-словарь технологических процессов производства ИП

asksrv.IP_Techn

IP_T_States

P-деревья

таблица-словарь технологических состояний номеров выпусков ИП в процессе их производства

asksrv.IP_T_States


4.2 Классификационные схемы, загруженные в технологическую базу данных

Ниже дается характеристика конкретных классификационных схем, поддерживаемых в настоящее время в общей базе данных RUB, которая работает под управлением MS SQL-Server:

  • Рубрикатор ВИНИТИ

  • Регистр информационных продуктов ВИНИТИ

  • Государственный Рубрикатор НТИ России (ГРНТИ)

  • Номенклатура специальностей научных работников (ВАК)

  • Приоритетные направления фундаментальных исследований РАН

  • Критические технологии Российской Федерации

В будущем планируется добавить схемы УДК, классификатора стандартов, классификатора патентных документов.


4.2.1 Рубрикатор ВИНИТИ

4.2.1.1 Идентификация

База данных содержит несколько R-деревьев, соответствующих различным поколениям Рубрикатора ВИНИТИ. Приняты следующие соглашения об идентификации деревьев (и, соответственно, таблиц) в базе данных:

дерево текущего Рубрикатора ВИНИТИ:

rubown.RV_tree

зафиксированные годовые копии Рубрикатора ВИНИТИ:

rubown.RV1999_tree, rubown.RV2000_tree и т. д.


4.2.1.2 Начальная загрузка данных

В 1999 г. проведена загрузка отдельных рубрикаторов областей знания (например: "Механика", "Физика", "Химия и химическая технология", "География", "Биология", - всего около 30), которые хранились в виде текстовых файлов и печатных изданий.

Работа по сведению рубрикаторов областей знания в единое дерево включала поиск и исправление ошибочных рубрикационных шифров, добавление новых рубрик для обеспечения целостности древовидной структуры.

Названия рубрик приведены к алфавиту ВИНИТИ.

Осуществлена подгрузка английских названий рубрик.

См. протоколы в P:\VIN_R_P\IN\RUBR.


4.2.1.3 Особенности описания рубрик Рубрикатора ВИНИТИ

4.2.1.3.1 Деление по областям знания

Во всех поколениях Рубрикатора ВИНИТИ рубрики имеют многозначные признаки принадлежности к областям знания - по таблице-словарю кодов области знания asksrv.Rub_Chp.


4.2.1.3.2 Коды УДК

Описания практически всех рубрик содержат формулы УДК. При начальной загрузке эти данные помещены в поле udc - без какого-либо анализа.

Предстоит работа по формализации этих сведений. Такая работа может быть выполнена только после создания схемы УДК в базе данных классификационных схем.


4.2.1.3.3 Дескрипторное описание рубрик

В некоторых поколениях Рубрикатора ВИНИТИ рубрики имеют дескрипторные описания - наборы ключевых слов и словосочетаний, фактически использованных при координатном индексировании документов, отраженных в Реферативном журнале за соответствующий период времени.

analit.KWLIST – таблица-словарь ключевых слов и словосочетаний

Таблица наполняется поэтапно на основе обработки выпусков РЖ в 2001 – 2002 гг.

Скрипт для первичного заполнения словаря - по 2001 г. (выполнено 14.04.2003):

insert into analit.KWLIST
select * from SOLAR.tbd.analit.KWLIST

(212012 row(s) affected)

Скрипт для пополнения словаря - по 2002 г. (выполнено 02.06.2003):

insert into analit.KWLIST
select * from EAGLE.tbd.analit.KWLIST where kwnum>=336882

(53716 row(s) affected)

Таким образом, после обработки материалов 2001 - 2002 гг. данная таблица содержит 265728 дескрипторов.

analit.RV<год>_KW – таблицы связи рубрик со словарем ключевых слов и словосочетаний

Наполнение этих таблиц производится на основе обработки выпусков РЖ в 2001 – 2002 гг. Таких таблиц сейчас три:

  • analit.RV2001_KW – для зафиксированной версии Рубрикатора 2001 года

  • analit.RV2002_KW – для зафиксированной версии Рубрикатора 2002 года

  • analit.RV_KW – для текущего Рубрикатора (cnt содержит сумму по 2001 и 2002 гг.)

Скрипт для зафиксированной годоввой версии Рубликатора ВИНИТИ 2002 года:

insert into analit.RV2002_KW
select rbc,kwnum,cnt_2002 from EAGLE.tbd.analit.RBC_KW
where rbc<’350' and cnt_2002>0

insert into analit.RV2002_KW
select rbc,kwnum,cnt_2002 from EAGLE.tbd.analit.RBC_KW
where rbc>=’350' and cnt_2002>0

(448274 row(s) affected)

(395123 row(s) affected)

Скрипт для текущего Рубрикатора ВИНИТИ:

insert into analit.RV_KW
select rbc,kwnum,cnt_2001+cnt_2002 from EAGLE.tbd.analit.RBC_KW
where cnt_2001 is not null and cnt_2002 is not null

insert into analit.RV_KW
select rbc,kwnum,cnt_2001 from EAGLE.tbd.analit.RBC_KW
where cnt_2002 is null

insert into analit.RV_KW
select rbc,kwnum,cnt_2002 from EAGLE.tbd.analit.RBC_KW
where cnt_2001 is null

(277916 row(s) affected)

(549290 row(s) affected)

(565481 row(s) affected)


4.2.1.3.4 Используемость рубрик

Элементы "вес рубрики" и "толщина пути к рубрике" формируются после фиксации годовой версии Рубрикатора - на основе анализа выпущенных за соответствующий год РЖ.


4.2.1.4 Отражение в корневой вершине особенностей построения Рубрикатора ВИНИТИ

Области знания:

Rub_Chp=asksrv.Rub_Chp

Дескрипторное описание рубрик:

KwList=analit.KWLIST

Cod_Kw=analit.RV2002_KW

Рубрикатор ВИНИТИ не ссылается на другие деревья - операторы RelTree-1, Rel-1, Rel_Op отсутствуют.

4.2.1.5 Состояние Рубрикатора ВИНИТИ в базе данных

Название

Главная таблица

^ Количество вершин

Особенности

Связь с другими деревьями

Рубрикатор ВИНИТИ 2000 г.

RV2000_tree

48475

в т.ч. логически удаленных

0

поле udc содержит формулы кодов УДК

нет

Рубрикатор ВИНИТИ 2001 г

RV2001_tree

48657

в т.ч. логически удаленных

1776

есть дескрипторное описание рубрик:

KwList=analit.KWLIST

Cod_Kw=analit.RV2001_KW

поле udc содержит формулы кодов УДК

нет

Рубрикатор ВИНИТИ 2002 г

RV2002_tree

48675

в т.ч. логически удаленных

2300

есть дескрипторное описание рубрик:

KwList=analit.KWLIST

Cod_Kw=analit.RV2002_KW

поле udc содержит формулы кодов УДК

нет

Рубрикатор ВИНИТИ 2003 г

RV2003_tree

49389

в т.ч. логически удаленных

2519

поле udc содержит формулы кодов УДК

нет

Рубрикатор ВИНИТИ 2004 г (Текущий)

RV_tree

49507

в т.ч. логически удаленных

2504

есть дескрипторное описание рубрик (сумма данных за 2001 и 2002 гг.):

KwList=analit.KWLIST

Cod_Kw=analit.RV_KW

поле udc содержит формулы кодов УДК

нет


4.2.2 Регистр информационных продуктов ВИНИТИ

4.2.2.1 Идентификация

База данных содержит несколько P-деревьев, соответствующих различным поколениям Регистра ИП ВИНИТИ. Приняты следующие соглашения об идентификации деревьев (и, соответственно, таблиц) в базе данных:

дерево текущего Регистра ИП ВИНИТИ:

rubown.IPV_tree

зафиксированные годовые копии Регистра ИП ВИНИТИ:

rubown.IPV1999_tree, rubown.IPV2000_tree и т. д.


4.2.2.2 Начальная загрузка данных

В 2000 г. Регистр ИП сведены данные из нескольких источников, которые ранее существовали относительно независимо друг от друга. Имеются в виду: каталог продуктов и услуг ВИНИТИ, рубрикации тетрадей Реферативного журнала (РЖ), списки редакторов тетрадей РЖ и отдельных разделов тетрадей, рубрикации баз данных, календарный график прохождения номеров РЖ по технологическим стадиям производства, файлы сносок к названиям разделов тетрадей (из ПИК).

Работа по сведению рубрикаций в единое дерево включала поиск и исправление ошибочных издательских шифров, добавление новых рубрик для обеспечения целостности древовидной структуры.

Названия разделов приведены к алфавиту ВИНИТИ.

Осуществлена подгрузка сносок к названиям разделов тетрадей (по файлам ПИКа).

См. протоколы в P:\VIN_R_P\IN\IP.


4.2.2.3 Отражение в корневой вершине особенностей построения Регистра ИП ВИНИТИ

Регистр ИП жестко связан с Рубрикатором ВИНИТИ (при этом соблюдается соответствие поколений; пример приводится для текущего Регистра ИП и текущего Рубрикатора):

RIP_Rubr=rubown.RV_tree

RIP_F_Op=asksrv.RIP_F_Op

В Регистре ИП могут быть зафиксированы технологические цепочки производства продуктов; в этом случае необходимо указание таблиц-словарей:

IP_Techn=asksrv.IP_Techn

IP_T_States=asksrv.IP_T_States

Дескрипторное описание вершин не используется: операторы ^ KwList, Cod_Kw отсутствуют.

Регистр ИП не ссылается на другие деревья - операторы RelTree-1, Rel-1, Rel_Op отсутствуют.
  1   2   3




Похожие:

4 Система автоматизированного ведения классификационных языков винити icon«Совершенствование классификационных систем винити (в части Рубрикатора отраслей знания, рубрикаций информационных продуктов винити и удк)»

4 Система автоматизированного ведения классификационных языков винити iconПрограмма школы-семинара по удк в винити
Сервисные возможности программного обеспечения для представления классификационных баз данных
4 Система автоматизированного ведения классификационных языков винити iconПрограмма арм (автоматизированного рабочего места) врача патологоанатома предназначена для ведения базы данных патологоанатомических исследований, статистической обработки полученных результатов.
Программа не требует инсталляции и создана для работы в среде с предустановленной операционной системой Windows 9x-xp, с разрешением...
4 Система автоматизированного ведения классификационных языков винити iconДокументы
1. /Info.txt
2. /Система автоматизированного...

4 Система автоматизированного ведения классификационных языков винити iconАнализ работы мо учителей иностранных языков за 2011-2012 учебный год
Работа мо учителей иностранных языков началась с изучения нормативных документов преподавания иностранных языков в 2011-2012 учебном...
4 Система автоматизированного ведения классификационных языков винити iconКабинет русского и иностранного языков для начальных классов
Выходной день (магнитный плакат с комплектом карточек для изучения ин языков – англ/нем)
4 Система автоматизированного ведения классификационных языков винити iconПрезентация магистерской диссертации Тема: Лингвокультурная общность русского и белорусского языков (концепт «еда»). Магистрант кафедры прикладной лингвистики
В условиях глобализации современного общества крайне важно выявлять механизмы лингвокультурной общности языков
4 Система автоматизированного ведения классификационных языков винити iconФедеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Владимирский государственный педагогический университет Факультет иностранных языков
Приглашаем принять участие в научно-практической конференции, которая состоится по случаю 45-летия факультета иностранных языков...
4 Система автоматизированного ведения классификационных языков винити iconВ. В. Зельченко от съезда к съезду: Опыт Первого всероссийского съезда преподавателей древних языков (1911 г.) в современной ситуации
Российской ассоциации школьных преподавателей древних языков: мгу, умо по классической филологии, январь 2008 г
4 Система автоматизированного ведения классификационных языков винити iconПриказ № «О проведении муниципальной сетевой on-line олимпиады по лингвострановедению по иностранным языкам для учащихся 7-8 классов»
В соответствии с планом работы рмо учителей иностранных языков с целью стимулирования интереса учащихся к использованию икт технологий...
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов