Лингвистический анализ гистограмм экономических факторов icon

Лингвистический анализ гистограмм экономических факторов



НазваниеЛингвистический анализ гистограмм экономических факторов
Дата конвертации28.08.2012
Размер154.91 Kb.
ТипДокументы

Недосекин А.О., Фролов С.Н. Лингвистический анализ гистограмм экономических факторов

Лингвистический анализ гистограмм экономических факторов



Недосекин А.О., ст. консультант Siemens Business Services, к.т.н.

Фролов С.Н., экономист Регионального Агентства содействия инвестициям Нижегородской области


При решении задач экономического анализа очень часто встает вопрос о качественной интерпретации тех или иных уровней параметров. Например, финансовому директору компании докладывают: «у нас оборачиваемость активов 0.6». Сразу напрашивается вопрос, много это или мало. Естественно: лингвистическая оценка действует на человека как внятный сигнал и наилучшим образом побуждает его принимать решения.


Но, чтобы провести достоверную лингвистическую оценку уровня параметров, надо сделать, по крайней мере, две вещи:


  1. ^ Выбрать лингвистическую шкалу для оценки. «Много/мало» - это простейшая бинарная шкала (сразу вспоминается сцена с аптекарем из «Неуловимых мстителей», испытывающим бомбы); «Много – средне – мало» - это тринарная шкала. Очень часто применяется пенташкала (пятиуровневый классификатор) «Очень низкий (ОН) – Низкий (Н) – Средний (Ср) – Высокий (В) – Очень высокий (ОВ)». Шкалы более 7 состояний не популярны в народе, и это правильно: рассеивается внимание, и все начинает походить на бесконечнозначную логику.

  2. ^ Собрать всю необходимую информацию для лингвистической оценки. Сюда относятся количественные данные, собранные по группе однотипных объектов наблюдения, а также дополнительные закономерности, присущие объектам исследования, которые могут оказать влияние на оценку.


Например, для качественной оценки уровня ликвидности предприятия, необходимо собрать статистическую информацию по аналогичным предприятиям за данный сравнительно небольшой период наблюдения (чтобы соблюсти условие статистической однородности). Одновременно необходимо руководствоваться закономерностями, присущими объектам финансового анализа. Например, интуитивно ясно, что когда чистый оборотный капитал компании отрицательный, то это плохо (актуальный пример - «ЮКОС», консолидированная отчетность за 1 кв. 2003 года: краткосрочные обязательства – 108 млрд. руб., оборотные активы – 54 млрд. руб. Данные [1]). Также существуют всевозможные нормативы. Например, считается «нормальным», когда коэффициент автономии предприятия больше 0.5, коэффициент обеспеченности оборотных активов собственными средствами – больше 0.1, а коэффициент маневренности – больше 0.5. Применительно к кредитным учреждениям ряд нормативов (ликвидности, достаточности капитала и т.д.
) установлен Центробанком РФ и имеет силу закона.


Но, как не существует общих рецептов достижения благосостояния, так и не может существовать жестких однотипных финансовых рамок для всех предприятий, характеризующихся различным положением на рынке, состоянием бизнеса и т.д. То, что считается нормальным в общем смысле, может оказаться совершенно ненормальным в конкретном частном случае. Например, предприятие постперестроечного образца, прошедшее принудительную приватизацию, имеет на своем балансе огромное количество неликвидных активов (морально устаревшее оборудование, требующие капремонта задания и т.д.). Однако оно добросовестно переоценивает эти активы и в результате формально выглядит вполне пристойно (нормальная финансовая автономия, например, с уровнем 0.5). Однако при детальном исследовании выясняется, что для покрытия задолженностей в случае банкротства соотношение ликвидационной цены предприятия и оценки его собственных средств по балансу составляет не более чем 1:10. Поэтому первоначальная «нормальность» в этом случае совершенно редуцируется, уступая место обоснованной тревоге.


Также целый пучок проблем связан с исходными данными для лингвистического анализа. Во-первых, трудно выполнить условие статистической однородности. Применительно к развитым странам однородность выборки достигается довольно легко. Так, 9000 корпораций США, чьи акции котируются на бирже, подразделены на 14 секторов и 31 индустриальную группу в составе этих секторов [2]. И в этом случае можно добиться однородности хотя бы на уровне секторов. В России ситуация принципиально иная. Есть некоторое количество корпораций (несколько десятков), чьи акции регулярно торгуются на российских биржах. Все остальные компании, в силу своей недоразвитости или из-за отсутствия желания привлекать средства на рынке (делясь контролем при этом), составляют подводную часть айсберга. И это как бы две разные экономики, перемешивание которых в анализе проблематично.


Во-вторых, подлежит дополнительному исследованию вопрос, можно ли объединять при анализе данные, относящиеся к различным временным горизонтальным срезам наблюдения. Соблазн учитывать разновременные данные совместно возникает там, где количественных данных за один период времени для полноценного анализа не хватает. И, несмотря на то, что формально статистическая однородность уже не соблюдена, все равно (для случаев, когда не произошло чего-либо экстраординарного со страной, по которой проводится исследование) эти данные могут оказаться представительными для качественных выводов на их основе. Например, посткризисные годы (2001 – 2003) могут считаться однородными (примерно одинаковый уровень инфляции и темпов роста ВВП). Соответственно, объем статистики, рассматриваемой совместно, возрастает втрое.


В свое время, чтобы снять вышеуказанные проблемы, Недосекиным в [3] было введено понятие квазистатистики. Квазистатистика – эта выборка наблюдений из их генеральной совокупности, которая считается недостаточной для идентификации вероятностного закона распределения с точно определенными параметрами, но признается достаточной для того, чтобы с той или иной субъективной степенью достоверности обосновать закон наблюдений в вероятностной или любой иной форме, причем параметры этого закона будут заданы по специальным правилам, чтобы удовлетворить требуемой достоверности идентификации закона наблюдений.


Все сводится к тому, что, если имеет место квазистатистика факторов, вероятностного распределения в классическом смысле на ее основе нам построить не удастся. Однако сделать качественные выводы – и, в частности, произвести лингвистический анализ входных данных, - мы сможем.


Пусть мы договорились о том, что есть ряд однотипных интервалов анализа (например, кварталов или их финальных дат в пределах последних 2 – 3 лет). Для каждого интервала анализа построим гистограмму исследуемого фактора по выбранному перечню объектов наблюдения (например, по 100 крупнейшим предприятиям России). Сопоставим эти гистограммы. И, если окажется, что различие между гистограммами может быть признано несущественным (нет существенного смещения максимумов гистограмм друг относительно друга, гистограммы покрывают примерно один и тот же носитель), то целесообразно объединять данные по двум этим кварталам и строить сводную гистограмму. Контент объединенных данных в этом случае следует признать квазистатистикой для целей лингвистического анализа уровней фактора.


Аналогично квазистатистика выстраивается, когда имеет место схожесть гистограмм по двум отраслям экономики. Например (рис. 1), построение гистограмм фактора «цена-доход» по двум секторам экономики США (Basic Materials и Consumer Cyclical, июль 2003 года) позволяет говорить о схожести по двум критериям: совпадение максимумов гистограмм и покрытие примерно одного интервала носителя (от 2.5 до 50).







Рис. 1. Сопоставление гистограмм по двум секторам экономики США.


А если взять данные по всей экономике США за 03 июля 2003 года (рис. 2), то видно, что эти данные обладают схожестью с данными рис. 1. И, следовательно, просматривается закономерность, позволяющая более-менее уверенно производить лингвистический анализ по этому фактору.





Рис. 2. Гистограмма P/E по всей экономике США (июль 2003 года)


Февральские данные по данному фактору (все сектора США) выглядят так (рис. 3):





Рис. 3. Гистограмма P/E по всей экономике США (февраль 2003 года)


Сопоставление рис. 3 и рис. 2 показывает, что различия здесь несущественны, и лингвистический анализ возможен на объединенном контенте этих данных.


Формально гистограмма – это математический объект следующего вида:


Г = {X, N, , Z}, (1)


где Х = [xmin, xmax] – интервал анализа носителя, N – число ячеек гистограммы (для рис. 1 – 3 N = 20),  = (xmax - xmin)/N – шаг гистограммы, Z – вектор числа попаданий квазистатистики в соответствующую ячейку гистограммы размерностью N.


Гистограмма, приведенная к виду плотности – это гистограмма, в которой вектор Z заменен вектором


fi =, i = 1..N. (2)

Именно по виду этих гистограмм идентифицируется вероятностный закон распределения (если он есть).


Нормированная гистограмма – такая, в которой вектор Z заменен вектором


zi = , i = 1..N. (3)


Сопоставление нормированных гистограмм возможно, если для них совпадает носитель и число ячеек. Тогда можно выстроить меру схожести нормированных гистограмм, например, как меру Хэмминга. Тогда предельно схожие гистограммы имеют меру схожести 0, а предельно расходящиеся нормированные гистограммы – единицу (т.е. носитель критерия – стандартный 01-носитель).


Критерий схожести может получить лингвистическую интерпретацию в виде пенташкалы «ОН – Н – Ср – В – ОВ». Построить такую пенташкалу можно, если на систематической основе давать экспертному сообществу на сопоставление две нормированные гистограммы с предложением дать лингвистическую оценку схожести этих гистограмм. Но в данном исследовании мы не ставим перед собой задачу углубляться в этот предмет. Мы считаем, что на входе модели лингвистического анализа находится квазистатистика, и все предварительные работы экспертов по ее согласованию уже состоялись.


Итак, мы хотим сопоставить гистограмме вида, например, рис. 2, пенташкалу, каждому словесному элементу которой отвечает нечеткое число. Причем целесообразно, чтобы построенный классификатор был разновидностью так называемой «серой» шкалы Поспелова [4], представляющей собой полярную (оппозиционную) шкалу, в которой переход от свойства А+ к свойству А- (например, от свойства «большой дом» к свойству «дом среднего размера» лингвистической переменной «Размер дома») происходит плавно, постепенно. Подобные шкалы удовлетворяют условиям [5]: а) взаимной компенсации между свойствами А+ и А- (чем в большей степени проявляется А+, тем в меньшей степени проявляется А-, и наоборот); б) наличия нейтральной точки А0, интерпретируемой как точка наибольшего противоречия, в которой оба свойства присутствуют в равной степени (например, когда дом кажется одновременно и большим, и средним по размерам).


В случае стандартной пенташкалы, определенной на 01-носителе, абсциссы нейтральных точек на 01-носителе имеют координаты (0.2, 0.4, 0.6, 0.8) [6], а сам такой пятиуровневый классификатор, построенный на трапециевидных нечетких числах, имеет вид рис. 4.

Р
ис. 4. Стандартная пенташкала на 01-носителе



И ясно, что пенташкала на трапециевидных числах является серой шкалой в смысле Поспелова, и лингвистический анализ на ее основе будет непротиворечивым.


Покажем, как строить пенташкалу в простейшем случае. Пусть имеется унимодальная гистограмма фактора, с «подозрением» на то, что за этой гистограммой стоит нормальное распределение. Тогда, по общим правилам статистики, определим среднее значение  гистограммы и среднеквадратическое отклонение от среднего (СКО) . Построим набор из пяти узловых точек пятиуровнего классификатора по правилу:


1 =  - t1,

2 =  - t2,

3 =  ,

4 =  + t2,

5 =  + t1, (4)


где ti – коэффициенты, в классической статистике являющиеся коэффициентами Стьюдента. Для каждой узловой точки классификатора справедливо, что в ней уровень фактора распознается, однозначно, со стопроцентной экспертной уверенностью. Например, точка 1 отвечает очень низкому уровню фактора (ОН), 2 – состоянию Н и т.д.


Далее поделим каждый отрезок [i, i+1] на три зоны: зону абсолютной уверенности, зону пониженной уверенности и зону абсолютной неуверенности. Длины этих трех зон составляют пропорцию 1:u:1, где параметр u0 выражает глубину неуверенности. Так, при u=0 пониженной уверенности нет, и разграничение зон является жестким (интервальным). В противоположном случае, при u=, абсолютной уверенности-неуверенности нет (как, например, для случая контроллера температуры Мамдани [7], рис. 5). Для случая стандартной пенташкалы на 01-носителе u=2. Так что выбор u – это дело разработчиков классификатора.


Нанесем дополнительные точки (границы зон уверенности-неуверенности) на ось носителя фактора. Тогда можно в зоне уверенности принять соответствующую функцию принадлежности за 1, в зоне абсолютной неуверенности – за 0, а зону неуверенности описать наклонным ребром соответствующего трапециевидного нечеткого числа. Таким образом, первое приближение пенташкалы построено.





Рис. 5. Лингвистическая переменная «Уровень комнатной температуры» [7]


Пример. По гистограмме вида рис. 5 для носителя Х=[0, 10] определяем:  = 4.5, СКО = 2. Также задаемся u=1, т.е. все зоны уверенности - пониженной уверенности - неуверенности имеют равную длину.



Рис.6. Гистограмма нормально распределенной статистики.


Значение 0.5 носителя гистограммы представляется экспертам очень низким, а значение 8.5 – очень высоким. Отсюда и из (4) сразу следует t1 = (4.5 – 0.5)/2 = (8.5 – 4.5)/2 = 2. Значение 2 носителя представляется экспертам низким, поэтому t2 = (4.5 – 2)/2 = 1.25. Соответственно, непротиворечивая классификация дает 4 =  + t2 = 4.5+1.25*2 = 7.


Таким образом, интервалы зон абсолютной уверенности следующие:


ОН: [0, 0.5+(2-0.5)/3] = [0, 1];

Н: [2-(2-0.5)/3, 2+(4.5-2)/3] = [1.5, 2.83];

Ср: [4.5-(4.5-2)/3, 4.5+(7-4.5)/3] = [3.67, 5.33];

В: [7-(7-4.5)/3, 7+(8.5-7)/3] = [6.17, 7.5];

ОВ: [8.5-(8.5-7)/3, 10] = [8,10]; (5)


Соответствующая выделенным узловым точкам и интервалам абсолютной уверенности пенташкала представлена на рис. 7.




Рис. 7. Пенташкала для гистограммы рис. 5


В дальнейшем эксперт может, уточняя полученный классификатор на основании дополнительных соображений, управлять местоположением узловых точек классификатора и получать новые функции принадлежности.


В более сложном случае, когда симметрии нет, необходимо ассоциировать узловые точки пенташкалы с гистограммой на основе экспертного опроса. Все остальное (определение интервалов абсолютной уверенности/неуверенности) производится по вышеизложенной схеме. Продемонстрируем это на реальном примере гистограммы рис. 2.


Пусть эксперты единодушно договорились о том, чтобы считать:


1 = 5 – очень низкое значение фактора P/E;

3 = 15 - среднее значение фактора P/E;

5 = 30 - очень высокое значение фактора P/E;

u =1. (6)


Но эксперты затрудняются с получением узловых точек 2 и 4. Можно было бы примитивно задать 2 = (1+3)/2 = 10, 4 = (3+5)/2 = 22.5, но такое задание пренебрегает формой гистограммы, а ее хотелось бы учесть в анализе. Такой учет возможен, если искать узловые точки по правилам взвешенного среднего. Тогда:


2 = ; (7.1)


4 = ; (7.2)


Значения вектора уровней гистограммы представлены в табл. 1:


Табл. 1. Вектор уровней гистограммы Z

i

Zi

i

Zi

1

120

11

92

2

200

12

85

3

345

13

60

4

460

14

60

5

620

15

55

6

510

16

40

7

380

17

35

8

240

18

32

9

190

19

30

10

140

20

32


Соответственно, расчет по (7) с учетом данных табл. 1 дает 2 = 11.1, 4 = 19.5, т.е. промежуточные узловые точки ложатся ближе к средней точке, нежели это предусматривается простым осредненным случаем.


Дальнейший анализ и построение пенташкалы уже не представляет труда. Интервалы зон абсолютной уверенности следующие:


ОН: [0, 5+(11.1-5)/3] = [0, 7];

Н: [11.5-(11.1-5)/3, 11.5+(15-11.5)/3] = [9, 12.7];

Ср: [15-(15-11.5)/3, 15+(19.5-15)/3] = [13.8, 17.5];

В: [19.5-(19.5-15)/3, 19.5+(30-19.5)/3] = [18, 23];

ОВ: [30-(30-19.5)/3, 50] = [26.5,50]; (8)


Если полученная пенташкала не вызывает возражений у экспертов, то задача решена. В противном случае, требуется динамически изменять зону (интервал) абсолютной уверенности и параметр u в каждом случае, добиваясь полной согласованности в экспертных оценках. Если согласия не наблюдается, то можно перейти от пенташкалы на трапециевидных числах к тому же на колоколообразных или треугольных числах, с вершинами в узловых точках пенташкалы, как в случае контроллера Мамдани. (u=). Применяя этот прием, мы остаемся в пределах старых качественных оценок (относительно которых у экспертов нет споров). Переход к новому типу чисел оставляет шкалу серой в смысле Поспелова, т.е. непротиворечивой.


^ Подведем итоги.


Представляется, что мы эскизно, крупными мазками, очертили путь лингвистической классификации исходных данных, которые рассматриваются в модели как квазистатистика. Задача, поставленная и решенная здесь, является центральной в теории data mining, т.е. в ходе получения знаний на основе данных, извлечения знаний из данных.


^ Общая схема лингвистической классификации такова:


  1. Мы исследуем исходный контент данных и верифицируем его как квазистатистику, т.е. специально доказываем, что за этими данными кроется некий не проявленный до конца закон, – например, серая шкала в смысле Поспелова.

  2. Наносим некоторое количество узловых точек (три или сразу пять). Если нет никаких мыслей относительно положения узловых точек (нет эксперта под рукой) - работает стандартное правило: узловая точка ОН – левый конец интервала носителя, узловая точка ОВ – правый конец интервала носителя, средняя точка (Ср) – отвечает максимуму гистограммы (в унимодальном случае) или медиане гистограммы (в полимодальном случае). В принципе, можно везде пользоваться медианой вместо среднего (для нормального распределения эти величины совпадают).

  3. Есть исключение из общего правила предыдущего пункта, когда у гистограммы максимум прижат к левой или правой точке интервала носителя (например, как на рис. 7). Такая ситуация говорит о том, что существует определенная тенденция, при которой максимум гистограммы не соответствует среднему уровню параметра. Подобные случаи возникают, например, в депрессивных отраслях, когда большинство предприятий находятся на грани банкротства, а их ключевые параметры ухудшены относительно рациональной нормы. Случай же рис. 8 выражает, в частности, то неотменимое общее правило, что низкокапитализированных компаний численно больше, нежели высококапитализированных. В этом случае капитализация 1 млрд. долл. – очень низкая в своем классе, а значение, отвечающее узловой точке Ср, располагается где-то посередине выделенного интервала (на уровне 3 млрд. долл.).




Рис. 8. Гистограмма со смещенным максимумом


  1. Если мы выбрали только три узловые точки из пяти, то оставшиеся две мы наносим по правилам взвешенного среднего, аналогично (7) Таким образом, мы учитываем при выборе точек Н и В профиль гистограммы (вектор уровней Z).

  2. Интервал между двумя рядом стоящими узловыми точками мы делим на три зоны, промежуточная из которых – это зона неуверенности эксперта в классификации, интерпретируемая наклонным ребром трапециевидного нечеткого числа. Таким образом, первичная лингвистическая интерпретация гистограммы завершена.

  3. Можно пытаться уточнять полученную классификацию, сближая узловые точки классификации друг с другом и сужая тем самым зону неопределенности. Можно заместить узловую точку интервалом абсолютной уверенности и пытаться его расширять в обе стороны от узловой точки, которая этому интервалу принадлежит по построению. Но во всех случаях мы должны обеспечивать согласие экспертного сообщества о результатах уточненной классификации.

  4. Если гистограмма невыразительна (имеет невыраженный максимум и множество локальных минимумов), то наиболее рациональным является переход от исходного интервала носителя к 01-интервалу (путем линейного преобразования масштаба), выстраивание на 01-носителе стандартной симметричной пятиуровневой классификации и последующий перенос этой классификации на исходный носитель (обратное масштабирование путем линейного преобразования). Что такое невыраженный максимум – это такая же категория, как и «счастье», которое каждый склонен понимать по-своему.

  5. Так или иначе, лингвистическая классификация доступна только опытным экспертам, хорошо понимающим природу объекта исследования и действующие в отношении этого объекта закономерности. Приемы, описанные в предыдущих пунктах изложения, являются вспомогательными. Они облегчают жизнь экспертам, но не являются правилом на все случаи жизни. И здесь, как и в случае оценки инвестиционной привлекательности ценных бумаг, процесс лингвистической интерпретации количественных данных сродни искусству или, в крайнем случае, - мастерству.



^

Список цитируемых источников





  1. Информационный портал Скрин.Ру. – На сайте: http://www.skrin.ru/Default.asp?Lang=0&Part=2&URL=Search%2Easp%3FLang%3D0%26Part%3D1%26RTSCode%3DYUKO .

  2. MGFS Industry Groups. – On site: http://mgfs.com/ .

  3. Недосекин А.О. Нечетко-множественный анализ рисков фондовых инвестиций. СПб, Типография «Сезам», 2002. – Также на сайте: http://sedok.narod.ru/sc_group.html.

  4. Поспелов Д.С. «Серые» и/или «черно-белые» [шкалы]// Прикладная эргономика. Специальный выпуск «Рефлексивные процессы». – 1994. - №1.

  5. Тарасов В.С. Послесловие к круглым столам // Новости искусственного интеллекта, №2-3, 2001.

  6. Недосекин А.О. Комплексная оценка риска банкротства корпорации на основе нечетких описаний. – На сайте: http://sedok.narod.ru/sc_group.html.

  7. Mamdani E., Assilian S. An Experiment in linguistic synthesis of fuzzy logic controller // Int. J. Man-Machine Studies, 7, 1975.






Похожие:

Лингвистический анализ гистограмм экономических факторов iconСанкт-петербургский
«Анализ и интерпретация художественного текста: литературоведческий и лингвистический аспекты»
Лингвистический анализ гистограмм экономических факторов iconЕвпатория, Крым Сходство формы гистограмм При анализе эффекта Шноля исследователи используют качественное понятие – «сходство формы гистограмм»
При анализе эффекта Шноля исследователи используют качественное понятие – «сходство формы гистограмм» (далее – сфг). Количественной...
Лингвистический анализ гистограмм экономических факторов iconОтчёт о работе (октябрь 2006 март 2011 годов) Комитета по транспорту и экспедированию тпп ростовской области
Ростовской области, формирования современной транспортной и экспедиторской инфраструктуры, анализа экономических факторов влияющих...
Лингвистический анализ гистограмм экономических факторов iconМ. М. Бахтин Проблема текста в лингвистике, филологии и других гуманитарных науках. Опыт философского анализа
Ативного характера: это не лингвистический, не филологический, не литературоведческий или какой-либо иной специальный анализ (исследование)....
Лингвистический анализ гистограмм экономических факторов icon1. Воздействие воздушной ударной волны ядерного взрыва
Рэа к воздействию поражающих факторов ядерного взрыва, вторичных поражающих факторов, к поражающим факторам, возникающим при авариях,...
Лингвистический анализ гистограмм экономических факторов icon«Согласовано»
Один из основных факторов, определяющих состояние здоровья ребенка, его физическое и умственное развитие организация качественного...
Лингвистический анализ гистограмм экономических факторов iconРынок факторов производства тема 11. Образование производного спроса
В-третьих, для фирмы уровень цен на ресурс определяет размер их затрат и выбор объема производства конечных товаров. Поэтому задача...
Лингвистический анализ гистограмм экономических факторов iconЭкзаменационные вопросы по иэу содержание предмета и метода дисциплины "История экономических учений". Этапы развития экономической мысли. Систематизация знаний
Предпосылки возникновения экономической мысли. Особенности экономических воззрений в традиционных обществах
Лингвистический анализ гистограмм экономических факторов iconАнализ факторов риска российского экспорта природного газа
Задача стратега состоит в том, чтобы обеспечить успех операции, сведя эти потери к минимуму. То есть, в данном случае, Россия должна...
Лингвистический анализ гистограмм экономических факторов iconТема Издержки и выпуск
Однако в рыночных условиях, когда производство носит товарный характер, затраты факторов производства получают стоимостное выражение....
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов