СМИ-рефератор

Л.М. Пронский


О смысловом анализаторе текста

Назначение программы

Все мы регулярно читаем (смотрим, слушаем) новости. Большинство — из простого праздного) любопытства, однако, многие из нас — и в силу профессионального интереса.

Однако, вся ли информация, сообщаемая СМИ, полезна профессионалам? Какую, пользу может извлечь, например, брокер из сообщения о том, что котировки тех или иных акций упали? Или журналист — из сообщения о том, что такой-то визит состоялся? Или политик — из информации о том, что избиратели проголосовали так-то и так-то? И т.д. Как правило, во всех этих случаях ничего поделать уже нельзя. Поезд ушел.

Гораздо большей практической ценностью обладают сообщения о том, что происходит в настоящее время, то есть, — информация о текущих и еще незавершенных событиях. Потребителю такой информации еще оставляется некоторое время на подготовку к возможному исходу этих событий. Но, и в этом случае, как правило, бывает уже слишком поздно. Поезд уходит.

Поэтому, наивысшей ценностью из всего, сообщаемого СМИ, с практической точки зрения, обладает только информация о будущем — о том, чего еще нет, но что случится. Котировки упадут, визит отменят, избиратели проголосуют так-то и т.д. Зная, что поезд уйдет, мы еще можем успеть вскочить в него (или, наоборот, — спрыгнуть).

Разумеется, будущее, в отличие от настоящего и прошлого, не может постигаться нами с полной достоверностью. Оно всегда предвидится или предполагается с некоторой долей возможности, вероятности. То или иное событие должно произойти, может произойти, оно предполагается, ожидается, планируется, подготавливается, назревает и т.д. и т.п. Тем не менее, лучше иметь и такую информацию, чем вообще никакой. Как говорят англичане, предупрежденный вооружен.

Основную массу информации, ежедневно и ежечасно поставляемой СМИ в виде репортажей, сообщений, интервью, выступлений, речей, заявлений, обзоров, аналитических материалов и т.д. составляют сообщения о том, что случилось, сделано (в прошлом), что происходит, делается (в настоящем). И сравнительно малую часть этих материалов составляют высказывания о будущем, о том, чего следует ожидать.

Программа СМИ-Рефератор создана для того, чтобы “прочесывать” эти массивы текстов и автоматически “вылавливать” из них информацию о будущем. СМИ-Рефератор прочитывает текст и автоматически делит все его высказывания на информацию о прошлом (случившемся), информацию о настоящем (текущем) и информацию о будущем.

Ниже приведен образец автоматического смыслового анализа и разметки текста случайно выбранной заметки из “Финансовых известий”, проведенных СМИ-Рефератором (информация о прошлом помечена жирным шрифтом, о настоящем — курсивом, и о будущем — подчеркиванием).

Рост безработицы в РФ связан с увеличением эффективности производства, считает ВБ 20.08.2003 16:47, "Финансовые известия"

Рост безработицы в РФ во многом обусловлен не проблемами, связанными с экономическим спадом, а скорее повышением эффективности производства в результате реструктуризации экономики. Об этом говорится в докладе Всемирного Банка, посвященном экономике России. Как отмечается в документе, доля безработных к концу 2002 года выросла до 8.6%, в I квартале 2003 года - до 9.1%. При этом доля населения с уровнем доходов ниже прожиточного минимума сократилась с 31.5% в I квартале 2002 года до 26.1% в I квартале 2003 года. После чего она продолжала снижаться, достигнув в первой половине 2003 года 24.6%. Для рассматриваемого периода прожиточный минимум составлял 2 тыс. 047 руб., или $66.4 в месяц. В этой связи в докладе отмечается, что, несмотря на отрицательные тенденции в области занятости, отчетные данные о бедности свидетельствуют о дальнейшем улучшении ситуации в социальной сфере. В то же время в недавно опубликованном ежегодном докладе МЭРТ РФ прогнозируется уменьшение общего числа безработных по сравнению с 2003 годом с 6 млн. человек до 5.8 млн. человек в 2004 году, в 2005 и в 2006 годах. Общая численность безработных составит 5.7 и 5.5 млн. человек соответственно. Уровень общей безработицы снизится до 7.6% от экономически активного населения в 2006 году по сравнению с 8.3% в 2003 году. Также в докладе сказано, что доходы россиян в 2006 году увеличатся на 32-37% по сравнению с 2002 годом при среднегодовом темпе роста 7.3-.3%. При этом в сфере оплаты труда в 2004-2006 годах продолжится опережающий рост номинальной и реальной заработной платы, характерный для последних трех лет. Об этом сообщает РосБизнесКонсалтинг.

Резюме: Информация о прошлом — 35,0 % Информация о настоящем — 17,5% Информация о будущем — 35,5%

СМИ-Рефератор выбирает затем из анализируемых текстов только “красную” их часть и оформляет эти выжимки в виде рефератов (дайджестов). Ниже приводится образец такого дайджеста предыдущего текста.

Рост безработицы в РФ связан с увеличением эффективности производства, считает ВБ 20.08.2003 16:47, "Финансовые известия"

В то же время в недавно опубликованном ежегодном докладе МЭРТ РФ прогнозируется уменьшение общего числа безработных по сравнению с 2003 годом с 6 млн. человек до 5.8 млн. человек в 2004 году, в 2005 и в 2006 годах. Общая численность безработных составит 5.7 и 5.5 млн. человек соответственно. Уровень общей безработицы снизится до 7.6% от экономически активного населения в 2006 году по сравнению с 8.3% в 2003 году. Также в докладе сказано, что доходы россиян в 2006 году увеличатся на 32-37% по сравнению с 2002 годом при среднегодовом темпе роста 7.3-8.3%. При этом в сфере оплаты труда в 2004-2006 годах продолжится опережающий рост номинальной и реальной заработной платы, характерный для последних трех лет.

РЕЗЮМЕ: Отобрано 35,5%.

Составление реферативных сводок-дайджестов

Особенно значительная экономия времени достигается при автоматической обработке больших массивов текстов. СМИ-Рефератор может автоматически обработать все текстовые файлы, собранные в указанную ему папку и выдать сводный реферат-дайджест (сводку дайджестов) по всем этим текстам.

После просмотра и “доводки” этого материала пресс-секретарем, секретарем-референтом и т.д., сводку-дайджест можно подавать руководителю или другим лицам, занятым стратегическим планированием, в качестве ежедневной “информации к размышлению”.

Сегодня уже созданы программы, способные автоматически сканировать Интернет-среду и вычерпывать из нее текущую информацию по заданным предметам (темам). В тандеме с такой программой (например, с VISpy — автор Шалак В.И.) СМИ-Рефератор может составить своего рода Офис-Рефератор, способный ежедневно (и даже ежечасно) в автоматическом режиме собирать, реферировать и представлять руководителю или аналитику сводки-дайджесты всей информации о будущем из заданной области, публикуемой в Интернет-СМИ, для упреждающего анализа и планирования.

СМИ-Рефератор как аналитический инструмент

СМИ-Рефератор может быть полезен не только практикам, но и тем, кто занимается анализом, оценкой, отбором и составлением текстовой информации. Методы анализа, используемые СМИ-Рефератором представляют для таких специалистов и самостоятельный интерес. Прежде всего, это касается аналитиков, спичрайтеров, пресс-секретарей, работников информагентств и СМИ, рекламистов и др.

СМИ-Рефератор не делает за аналитика его работу, не формулирует никаких выводов и т.д. Он лишь помогает аналитику тем, что делает наглядными некоторые смысловые особенности документов, которые без этого не столь легко заметить. Поясним это утверждение с помощью следующих примеров. После обработки СМИ-Рефератором текста последнего Послания Президента РФ Федеральному Собранию проявились следующие его особенности.

Зеленым цветом (высказывания о прошлом) оказались помечены все те высказывания президента, в которых он отчитывается о своих достижениях за истекший срок его правления, рассказывает о том, что ему удалось сделать. Эта информация занимает в его тексте самую большую долю — 37,9% всего объема.

Синим цветом (высказывания о настоящем) оказались помечены все те высказывания президента, в которых он говорит о том, что ему еще не удалось сделать, а также о проблемах, которые, с его точки зрения, стоят перед ним на данный момент и требуют его усилий. Эта информация занимает в его Послании меньше всего места — 26,8%.

Красным цветом (высказывания о будущем) в послании президента оказались помечены все те высказывания, в которых президент сообщает нам о том, что будет. Причем, с одной стороны, это высказывания о том, что, по мнению президента, наступит по независящим от него причинам, а, с другой, — это высказывания о том, что намеревается сделать сам президент вместе с правительством и Думой.

Эта, “красная” часть президентского послания составляет 34,4% всего текста. Однако, начальный ее отрезок, в котором президент говорит о своем видении будущего России в самых общих выражениях (“Россия должна быть и будет страной с развитым гражданским обществом и устойчивой демократией. В ней в полной мере будут обеспечены права человека, гражданские и политические свободы. Россия должна быть и будет страной с конкурентоспособной рыночной экономикой ... ” и т.д.) — это риторика, которая может быть удалена без всякого ущерба для ценности того, что останется. Но программа, к сожалению, не может отличать конкретные планы от риторики, поэтому в особо важных случаях окончательное редактирование выжимки (дайджеста) целесообразно доделывать “вручную”.

После такой операции от президентского послания останется примерно 20 - 25% всего текста. Для сравнения: после аналогичной обработки СМИ-Рефератором, например, знаменитой речи Сталина на заседании Политбюро ЦК ВКП(б) 19 августа 1939 года остается 86,5% (!) текста.

Эта статистика позволяет аналитикам проводить, например, сравнительный анализ различных документов, принадлежащих разным или одному и тому же автору.

В частности, показанное выше различие между речами Путина и Сталина, несмотря на всю его простоту, отражает очень глубокое и существенное качество этих руководителей. Вообще, функция и талант руководителя — в анализе будущего и подготовке к нему. Руководить должен тот, кто способен лучше других предвидеть, а не тот, кто умеет отчитываться о своих достижениях или рассказывать нам о текущих проблемах. Речь Сталина целиком посвящена анализу возможных последствий для СССР в случае выбора им тех или иных союзников в момент наивысшего обострения обстановки в Европе в 1939 году. Сталин показывает, что СССР надо вступить в союз с Германией, а не с Англией и Францией. И он объясняет, почему надо сделать именно такой, а не иной выбор. Это речь настоящего руководителя, стратега. Речь же Путина, кто бы ее ни сочинял, — это на три четверти — заурядная риторика, “вода”, не имеющая почти никакой ценности. Именно этот факт и проявляется наглядно после обработки этих речей СМИ-Рефератором.

Можно сравнивать и разные речи одного и того же автора. Так, например, если мы обработаем СМИ-Рефератором самое первое Послание Федеральному собранию нынешнего президента В.В. Путина (Послание 2000 года), то обнаружатся следующие его особенности.

Самая низкая доля в нем была отведена информации о прошлом — 25,5% (против самой большой доли этой информации в 37,9% в последнем Послании). Видимо, отчитываться в первом послании самому В.В. Путину было еще не о чем, а говорить о “достижениях” предшественника он не стал.

Наоборот, самую весомую долю, — 38,1% (против самой малой в 26,8% в последнем Послании), — занимала информация о настоящем — о проблемах и задачах, которые стояли перед президентом в 2000 году. Из этого факта можно сделать вывод, например, о некоторой нынешней “успокоенности” нашего президента, по сравнению с его настроенностью в 2000 году. Текущими проблемами он озабочен сегодня гораздо меньше, чем тогда. Хотя, как показывает более внимательный анализ этой части Послания 2000 года, в ней содержатся высказывания не столько о настоящем, сколько “о вечном”, то есть — общие сентенции о том как обстоят дела в политике вообще, а не конкретно в России в данный момент.

Информация о будущем — о планах и проектах — в первом послании занимала примерно ту же долю, что и в последнем (35,7% против 34,4%). Это можно интерпретировать, например, и так, что “реформаторский запал” президента за три года еще не иссяк.

СМИ-Рефератор не располагает возможностями автоматического контент-анализа текстов. Для этого следует использовать, например, систему ВААЛ (автор — Шалак В.И.). Однако, предварительная разметка текста, осуществляемая СМИ-Рефератором, позволяет проводить контент-анализ гораздо более тонко и, что самое важное, — гораздо более корректно. Известно, например, что на основе автоматического контент-анализа политических документов часто делаются выводы о приоритетах того или иного политика, правительственного органа и т.д. Однако, если не учитывать в какой смысловой части документа — “зеленой”, “синей” или “красной” — подсчитываются частоты употребления ключевых слов, то и результаты его могут быть частично или даже полностью некорректными.

Вероятно, могут быть найдены и другие полезные способы использования СМИ-Рефератора в аналитических целях.

В настоящее время авторами-разработчиками ведется работа над усложнением и деталировкой средств и методов анализа, используемых программой.

Комментарии разработчиков системы ВААЛ

Данная статья интересна с точки зрения того, что в ней обращается внимание на дополнительную информацию, которую несут в речи временные модальности. В этом вопросе мы согласны с авторами на 99%. Однако, в статье есть некоторые пассажи, с которыми мы не согласны. Не совсем понятно, о каком смысловом анализе текста идет речь, если СМИ-рефератор всего лишь производит разметку предложений по временам. Где здесь смысловой анализ? Как можно догадаться, смысловой анализ авторы возлагают все-таки на человека.

В третьем с конца абзаце они пишут:

СМИ-Рефератор не располагает возможностями автоматического контент-анализа текстов. Для этого следует использовать, например, систему ВААЛ (автор — Шалак В.И.). Однако, предварительная разметка текста, осуществляемая СМИ-Рефератором, позволяет проводить контент-анализ гораздо более тонко и, что самое важное, — гораздо более корректно.

"Однако", используемое для противопоставления системы ВААЛ и СМИ-рефератора, говорит лишь о том, что авторы не имеют совершенно никакого представления о тех возможностях автоматического контент-анализа текста, которыми располагает ВААЛ. Они не догадываются или просто умалчивают о том, что все функции СМИ-рефератора давно уже реализованы в ВААЛе.

Начнем с того, что в системе ВААЛ имеется функция под названием Маркирование предложений. С ее помощью Вы можете автоматически выделить цветом и другими модификаторами шрифтов предложения, имеющие определенные характеристики. В системе ВААЛ имеются встроенные категории Время до, Время после, Время определенное, Время неопределенное, созданные на основе служебных слов языка. Если Вас эти категории чем-то не удовлетворяют, то Вы можете сами создать новые категории и подключить их к системе. Например, если понадобится создать категорию глаголов прошедшего времени, Вы просто загружаете в Microsoft Word достаточно большой текст, одним кликом мыши создаете с помощью ВААЛа словарь этого текста, сортируете его по окончаниям слов и выбираете из него все глаголы прошедшего времени. Категория создана. На все это уйдет не более 5-10 минут. В будущем категорию можно так же легко пополнять новыми словами. Затем Вы выбираете эту категорию, и система сама маркирует все предложения, в которых используются глаголы прошедшего времени. Так же легко создаются категории глаголов настоящего и будущего времени. Цветная зелено-сине-красная, как у авторов статьи, разметка текста готова. СМИ-рефератор этим и ограничивается. Ни о каком более тонком и более корректном контент-анализе в нем речи уже нет. А вот система ВААЛ как раз и позволяет автоматически провести такой анализ. Мы конечно же не возражаем против ручной вычитки размеченного текста, но почему бы ее не дополнить еще и результатами автоматического анализа?

Для этого можно провести контекстный контент-анализ текста. Вы просто выбираете из меню ВААЛа команду Контент-анализ текста, затем в появившемся окне указываете в качестве контекста анализа не весь текст, а лишь предложения, содержащие глаголы прошедшего времени. Далее следует нажатие кнопки ОК, и через несколько секунд появляется окно с результатами анализа. В случае упоминаемого авторами статьи последнего послания Президента некоторые из оценок приведены на следующих картинках. Подчеркнем, что это лишь некоторые из оценок и лишь некоторые из возможностей, доступные в системе ВААЛ для более тонкого и более корректного контент-анализа временной структуры текста.

Мы не собираемся давать интерпретацию этих оценок, так как наша цель другая - показать, что авторы статьи сильно недооценивают возможности существующих систем автоматического контент-анализа текстов. Тем не менее они смогли ухватить главное - успех автоматического контент-анализа в значительной мере зависит от набора используемых категорий. Каждая из удачно найденных и составленных категорий может представлять действительное ноу-хау и быть коммерчески ценным продуктом. Обоснование важности категорий Прошлого, Настоящего и Будущего, данное авторами статьи, относится в первую очередь к анализу СМИ. Есть и другие важные аспекты их использования при анализе более широкого класса текстов. При удобном случае мы об этом еще расскажем.


Пронский Леонид Михайлович

plm@rambler.ru

Vaal.ru