sonyps4.ru

Технология эффективного анализа текстовых данных: Добыча знаний. Сферы применения Data Mining


Основные задачи Text Mining Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных. Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов.


Основные элементы Text Mining В соответствии с уже сформированной методологии к основным элементам Text Mining относятся: классификация (classification), кластеризация (clustering), построение семантических сетей, извлечение фактов, понятий (feature extraction), суммаризация (summarization), ответ на запросы (question answering), тематическое индексирование (thematic indexing), поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создание таксономии (oftaxonomies) и тезаурусов (thesauri).


© ElVisti 4 Классификация При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории. Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам.


© ElVisti 5 Кластеризация Кластеризация базируется на признаках документов, которые использует лингвистические и математические методы без использования определенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. Кластеризация применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.


© ElVisti 6 Другие элементы Построение семантических сетей Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации. Извлечение фактов Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации. Прогнозирование Состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных. Нахождение исключений Поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Визуализация. Визуализация используется как средство представления контента текстовых массивов, а также для реализации навигационных механизмов.


© ElVisti 7 Автоматическое реферирование Автоматическое реферирование (Automatic Text Summarization) - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования - квазиреферирование и краткое изложение содержания. Квазиреферирование основано на экстрагировании фрагментов документов - выделении наиболее информативных фраз и формировании из них квазирефератов. Краткое изложение исходного материала основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. Семантические методы формирования рефератов-изложений допускают два основных подхода: метод синтаксического разбора предложений, и методы, базирующиеся на понимании естественного языка, методах искусственного интеллекта.


Отслеживание новостного потока. Постановка задачи Пользовательские потребности: В одном месте получить все основные новости дня получить некоторую карту новостей Узнать, что говорят разные источники об одной и той же новости, не затрачивая на это специальных усилий Проследить развитие «новости» (события) во времени


Новостное сообщение – опубликованное сообщение, обладающее следующими признаками: дата, время опубликования (может отличаться от даты/времени произошедшего события) и источник (название СМИ). Новостное сообщение – опубликованное сообщение, обладающее следующими признаками: дата, время опубликования (может отличаться от даты/времени произошедшего события) и источник (название СМИ). Новостной сюжет – совокупность сведений (новостных сообщений) о некоторых сущностях и явлениях (о людях, вещах, отношениях, действиях, процессах, свойствах, и т.д.), а также о связанных сущностях и явлениях. Делается допущение, что группа схожих по содержанию и близких по времени новостных сообщений соответствует новостному сюжету. Таким образом, выделение новостных сюжетов сводится к разбиению сообщений на группы. Новостной сюжет – совокупность сведений (новостных сообщений) о некоторых сущностях и явлениях (о людях, вещах, отношениях, действиях, процессах, свойствах, и т.д.), а также о связанных сущностях и явлениях. Делается допущение, что группа схожих по содержанию и близких по времени новостных сообщений соответствует новостному сюжету. Таким образом, выделение новостных сюжетов сводится к разбиению сообщений на группы. Выпуск новостей – ранжированный по некоторому признаку список новостных сюжетов. Выпуск новостей – ранжированный по некоторому признаку список новостных сюжетов. Отслеживание новостного потока. Постановка задачи


Новое направление исследования в области IR: Новое направление исследования в области IR: Отслеживание новостного потока. Постановка задачи TDT topic detection and tracking ??? Чем отличается новая задача от стандартных задач IR? ???Применимы ли стандартные методы IR к новой задаче? TDT - технологии, служащие не только для нахождения похожих новостей, но и для мониторинга отдельных событий, и для получения информационной картины мира в определенное время.


Отслеживание новостного потока. Постановка задачи Список основных задач Сегментация статей (Story Segmentation) - задача разделения непрерывного потока на новости, связанные одним и тем же событием. Отслеживание новостной дорожки (Topic Tracking) - нахождение всех новостей, которые похожи на множество эталонных новостей. Определение дорожки (Topic Detection) - кластеризация всех новостей, порожденных конкретным событием. Определение первой новости в дорожке (First Story Detection) - для нахождения самого первого сообщения в новом событии. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.




TDT. Параметры. Пример 1. Министерство финансов внесло в правительство законопроект, предусматривающий поправки в закон об ОСАГО, куда теперь введено новое положение о выплате страховщиками неустойки в случае задержки страховых выплат. Участники рынка в целом приветствуют инициативы Минфина, поскольку считают, что выплат за просрочку будет немного. За 2006 год в ФССН поступило 3099 жалоб, из них жалобы на действия (бездействия) страховых организаций по вопросам нарушений при осуществлении ОСАГО 1679, или более 50% обращений. В 784 жалобах, связанных с ОСАГО, указывается «несоблюдение установленных сроков рассмотрения обращений и осуществления выплат». Вера Балакирева также пояснила, почему размер неустойки привязан к страховой сумме, а не к размеру выплаты: «Достаточно много случаев, когда страховщик, получив документы, вообще не пытается урегули­ровать страховой случай. Тогда он не рассчитывает сумму выплаты или отвечает немотивированным отказом. И привязать неустойку к выплате невозможно».


TDT. Параметры. Пример 1. Министерство финансов внесло в правительство законопроект, предусматривающий поправки в закон об ОСАГО, куда теперь введено новое положение о выплате страховщиками неустойки в случае задержки страховых выплат. Участники рынка в целом приветствуют инициативы Минфина, поскольку считают, что выплат за просрочку будет немного. За 2006 год в ФССН поступило 3099 жалоб, из них жалобы на действия (бездействия) страховых организаций по вопросам нарушений при осуществлении ОСАГО 1679, или более 50% обращений. В 784 жалобах, связанных с ОСАГО, указывается «несоблюдение установленных сроков рассмотрения обращений и осуществления выплат». Вера Балакирева также пояснила, почему размер неустойки привязан к страховой сумме, а не к размеру выплаты: «Достаточно много случаев, когда страховщик, получив документы, вообще не пытается урегулировать страховой случай. Тогда он не рассчитывает сумму выплаты или отвечает немотивированным отказом. И привязать неустойку к выплате невозможно».


TDT. Параметры. Пример 1. Проблемы Новостные сообщения тексты малого объема Новостные сообщения тексты малого объема Учитывать «нелингвистические признаки» Учитывать «нелингвистические признаки» Учитывать максимально большое количество слов в качестве параметров Учитывать максимально большое количество слов в качестве параметров Учитывать только лексемы с определенными семантическими или морфологическими свойствами Учитывать только лексемы с определенными семантическими или морфологическими свойствами Частотность «терминов» и «нетерминов» одинаковая Частотность «терминов» и «нетерминов» одинаковая «Неустойчивость» частотных характеристик тематических элементов «Неустойчивость» частотных характеристик тематических элементов


TDT. Параметры. Пример 1. Проблемы Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Много общеупотребительных слов, определяющих тему сообщения Признаки N-граммы из слов с высокими tf.idf Признаки N-граммы из слов с высокими tf.idf


TDT. Параметры. Пример 1. Проблемы Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Много общеупотребительных слов, определяющих тему сообщения Признаки N-граммы с высокими tf.idf Признаки N-граммы с высокими tf.idf


TDT. Параметры. Пример 1. Проблемы Много многословных устойчивых словосочетаний, состоящих из общеупотребительных слов Много многословных устойчивых словосочетаний, состоящих из общеупотребительных слов Нужен способ выделения их именно как устойчивых слвосочетаний Нужен способ выделения их именно как устойчивых слвосочетаний Вначале выделить N-грамм как устойчивое словосочетание, потом уже считать веса по устойчивому словосочетанию (t- статистика, взаимная информация и т.п.) Вначале выделить N-грамм как устойчивое словосочетание, потом уже считать веса по устойчивому словосочетанию (t- статистика, взаимная информация и т.п.) например, использовать специальные статистики для выделения устойчивых словосочетаний (MWU), использовать частеречные фильтры (shallow parsing, chunking)


TDT. Параметры. Пример 1. Проблемы Новостные сообщения компактные Новостные сообщения компактные Авторы сообщений стараются не повторяться про одно и то же событие разными словами, один и тот же объект называть по разному, т.е. Нет полных повторений, но есть семантические повторения низкие tf.idf у участников событий Авторы сообщений стараются не повторяться про одно и то же событие разными словами, один и тот же объект называть по разному, т.е. Нет полных повторений, но есть семантические повторения низкие tf.idf у участников событий ср. Министерство финансов, минфин, министерство и т.п., дворняга, собака, пес, Шарик ср. Министерство финансов, минфин, министерство и т.п., дворняга, собака, пес, Шарик Постулат о текcтовой связности Постулат о текcтовой связности Разные способы моделирования текстовой связности Разные способы моделирования текстовой связности


TDT. Параметры. Усовершенстования Постулат о текстовой связности Постулат о текстовой связности Математические методы моделирования Математические методы моделирования Лингвистические и «когнитивные» методы моделирования Лингвистические и «когнитивные» методы моделирования Меры ассоциативной связи между словами в предложении Кандидаты в признаки все биграмы в предложении Изменение технологии кластеризации (кластеризация по предложениям, по абзацам и т.п.) Математические «способы борьбы» Математические «способы борьбы»


TDT. Параметры усовершенствования Постулат о текстовой связности Постулат о текстовой связности Лингвистические и «когнитивные» методы моделирования: Лингвистические и «когнитивные» методы моделирования: вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) отдельные веса для имен собственных (named entities)


TDT. Параметры. Пример 1. Проблемы Новостные сообщения подвижные: условия группировки в сюжет меняются со временем Если вначале мы имеем новый текст, посвященный новой новости, то что будет с tf.idf нужных слов? Часть совпадет с ключевыми словами про новости об аналогичных событиях Часть совпадет с ключевыми словами про новости об аналогичных событиях Часть, наиболее значимых, будут иметь низкий tf.idf Часть, наиболее значимых, будут иметь низкий tf.idf Необходим пересчет весовых коэффициентов (как часто?) Возможно предварительное обучение на тестовом корпусе Раздельный подсчет весов для разных категорий лексических единиц (веса для именованных объектов отдельно)


TDT. Параметры. Усовершенстования признакового пространства. Резюме (1) tf.idf считается на тренинговом корпусе, при поступлении нового сообщения пересчитывается, вся коллекция, включая новое сообщение заново подвергается кластеризации (greedy agglomerative clustering algorithm) каждый термин получает дополнительный вес в зависимости от его близости к лексическим единицам, детектирующим время возниконовения события документ характеризуется комбинацией 2-х векторов: стандартый tf.idf вектор + вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy)


TDT. Параметры. Усовершенстования признакового пространства. Резюме (2) учитываются традиционные параметры (позиция в тексте и т.п.) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) (Ronald K. Braun and Ryan Kaneshiro Exploiting topic pragmatics for New Event Detection in tdt-2003) отдельные веса для имен собственных (named entities) классификация документов по категориям, после чего удаление стоп-слов внутри каждой категории отдельно и выбор признаковой базы внутри каждой категории


TDT. Меры близости устанавливается порог: выше порога – «нет» - сообщение относится к старому сюжету, ниже порога – «да» - первое сообщение в сюжете устанавливается порог: выше порога – использование сразу нескольких методов кластеризации – результирующая мера близости как некоторая функция от результатов разных методов


TDT. Меры близости Векторная модель Другие меры близости: Во-первых, мера не учитывает разницу в размере сравниваемых документов, а во-вторых, при ее вычислении не используется информация о частоте употребления термов, составляющих документы. sim(D i, D j) = Prob(w D i | w D j). Мера Джаккарда


TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Формирование кластеров: Последний поступивший на вход системы документ (документ с номером 1 при обратной нумерации) порождает первый кластер и сравнивается со всеми предыдущими. Если мера близости для какого-нибудь документа оказывается ближе заданной пороговой, то текущий документ приписывается первому кластеру. Сравнение продолжается, пока не исчерпывается список актуальных документов потока. После такой обработки документа 1, происходит обработка следующего документа, не вошедшего в первый кластер, с которым последовательно сравниваются все актуальные документы потока и т.д.


TDT. Методы математического моделирования Определение новостной дорожки. Методы кластеризации. Ранжирование по весу В результате формируется некоторое неизвестное заранее количество кластеров, которые ранжируются по своим весам, задаваемым суммой нормированных метрик близости для всех элементов кластера. Отбор важных кластеров Несмотря на то, что минимальный кластер может включать всего 1 документ, на окончательное рассмотрение принимается лишь определенное количество кластеров с наибольшими весами, т.е. группы наиболее цитируемых и актуальных сообщений. Пересчет цетроидов Для выбранных кластеров заново пересчитываются центроиды – документы, в наибольшей степени отражающие тематику кластера. Таким образом, формируются сюжетные цепочки, реализующие запросы типа «о чем пишут больше всего в последнее время?»


TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Построение сюжетных цепочек автоматически выявляются наиболее значимые темы, освещаемые в информационных потоках. Группировка весомых сообщений по выделенным сюжетам Все весомые сообщения группируются по принадлежности к автоматически определяемым сюжетам. Названия сюжетов В качестве названий сюжетных цепочек используются заголовки сообщений, наиболее точно отражающих их суть. Ранжирование сюжетов определяется количеством сообщений в сюжетной цепочке, что отражает общий интерес к данной теме, рейтингом источника и временем публикации сообщений.


Чем больше лексических совпадений, тем ближе тексты Чем больше лексических совпадений, тем ближе тексты Наиболее близкие тексты дубликаты кластеры, состоящие из дубликатов или очень близких текстов Наиболее близкие тексты дубликаты кластеры, состоящие из дубликатов или очень близких текстов Сначала удалить дубликаты, а затем кластеризовать Сначала удалить дубликаты, а затем кластеризовать TDT. Методы математического моделирования. Определение новостной дорожки. Проблемы Проблема семантически идентичных текстов Проблема семантически идентичных текстов (1)СООБЩИТЬ, СЕГОДНЯ, КОНФЕРЕНЦИЯ, ГЛАВА, АЛЕКСЕЙ, МИЛЛЕР, ПРЕМЬЕР- МИНИСТР, БЕЛОРУССИЯ, СЕРГЕЙ,З АВЕРШЕНИЕ, ПЕРЕГОВОРЫ, МОСКВА (2)РАНЕЕ, ПРЕДЛАГАТЬ, МИНСК, ПОКУПАТЬ, ГАЗ, ЦЕНА, ДОЛЛАР, ДОЛЛАР,БЫТЬ, ОПЛАТИТЬ, ДЕНЕЖНЫЙ, СРЕДСТВО, ЧАСТЬ, АКТИВ, БЕЛТРАНСГАЗ (3)АЛЕКСЕЙ, МИЛЛЕР, РАССКАЗАТЬ, ДОГОВОР, ПОСТАВКА, ТРАНЗИТ, РОССИЙСКИЙ, ГАЗ, ПОДПИСАТЬ, ПОСЛЕДНИЙ, МИНУТА, МИНУВШИЙ, ГОД, ЕСТЬ, (4) ОБЕЩАТЬ, БОЙ, КРЕМЛЕВСКИЙ, КУРАНТЫ СООБЩИТЬ, ТЕЧЕНИЕ, ЛЕТА, РАВНЫЙ, ДОЛЯ, ВЫПЛАЧИВАТЬ, ПОЛОВИНА, СТОИМОСТЬ, БЕЛТРАНСГАЗ, ОЦЕНИТЬ, ДОЛЛАР


Новости, посвященные одним и тем же типам событий (наводнения, заведение уголовного дела, теракт и т.п.), попадут в один и тот же кластер Новости, посвященные одним и тем же типам событий (наводнения, заведение уголовного дела, теракт и т.п.), попадут в один и тот же кластер Классификация по типам новостей (по событиям), потом уже выделение признаков Классификация по типам новостей (по событиям), потом уже выделение признаков Цепочки именованных объектов Цепочки именованных объектов TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Проблемы Альтернативный подход: параметры кластеризации основные координаты события Альтернативный подход: параметры кластеризации основные координаты события Фокус новости Фокус новости


TDT. Методы математического моделирования. Определение новостной дорожки. Фокус новости Фокус новости Ф окус события представляет собой совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие). Фокус события может отвечать на следующие вопросы (Сценарий (фрейм) для стандартной новости): Кто? Где? Когда?


Базовые технологии: Задачи TDT. «Переносимость» методов IR Параметры информационный портрет математические «корреляты» параметров (например, веса, оценки вероятности и т.п.) Параметры информационный портрет математические «корреляты» параметров (например, веса, оценки вероятности и т.п.) Методы разбиения объектов на классы Методы разбиения объектов на классы Меры близости - различия Меры близости - различия Задачи TDT База: методы IR Вопросы: Что считать признаками (размерностями пространства / параметрами интегральной характеристики)? Как оценивать вес признака (проекцию точки на соответствующую ось) Как оценивать интегральную характеристику (меру близости в пространстве) Как уменьшить количество признаков Как уменьшить шум (уменьшить число признаков, ослабить / усилить эффект корреляции признаков)


Развитие задач обработки текстов Технологическая цепочка обработки текстов в современных системах: На входе: поток текстов 1) 1. «Семантические» характеристики текста в целом Сгруппировать тексты по «событию» (кластеризация) Соотнести событие с некоторой областью знаний (рубрикация) Приписать тексту резюме (реферирование - summarization) Сопоставить тексту топики (семантические теги - топики)


Развитие задач обработки текстов 1) 2. Содержательный анализ текста Выделить в тексте «главных героев» (распознавание именованных сущностей – NER – named entities recognition Сопоставить сущности некоторое онтологическое описание - пресс- портрет, досье и т.п. (дополнительная задача разрешение неоднозначности - named entities disambiguation) Локализовать текст (геолокация) Определить в тексте тематические доминанты (семантические теги) Выделить главные события (Fact extraction)


Развитие задач обработки текстов На входе: пользователь + текст Задачи: (а) сформировать у пользователя некоторое отношение к объектам из текста (б) поставить пользователю дополнительный контент в соответствии с его интересами (в т.ч. детектировать интересы пользователя – персонализация) Opinion mining (sentiment analysis) Локализовать текст (геолокация) Поиск в социальных сетях сообщений на соответствующую тему Social tagging Рекомендации, контекстная реклама


Семантические карты подборки документов Кластеризация позволяет разделять подборку документов на статистические смысловые группы, однако зачастую аналитику нужен более тонкий инструмент для обнаружения редких, но важных связей между темами подборки. В этом случае объектом анализа является семантическая карта взаимосвязей тем документов, а не сами документы. Карта представляет собой ориентированный граф, размеры узлов и толщина линий связи на котором соответствуют относительному весу тем и связей в подборке. Связи могут быть либо типизированными (определен семантический тип связи), либо логическими (установлен факт их наличия). Направление стрелки связи показывает причинно-следственную связь между темами на более частную тему указывает стрелка. Толщина стрелки между темами отражает ее важность. В вершинах и связях находятся гиперссылки, ведущие к связанному набору документов. Выбрав узел на карте аналитик погружается в темы, непосредственно связанные с темой узла, как бы увеличивая масштаб карты и центрируя карту на теме. При этом состав тем карты изменится, появятся темы, наиболее тесно связанные с выбранной. Этот метод анализа часто используется также для совместного анализа нескольких карт, поиска похожих ситуаций или семантических шаблонов в различных картах и другие задачи. семантической карты.


© ElVisti 42 SemioMap (Semio Corp.) SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым- семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap первая система Text Mining, работающая в архитектуре клиент-сервер.


© ElVisti 43 SemioMap (Semio Corp.) Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы: Индексирование: сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс; Кластеризация понятий: сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту"); Графическое отображение и навигация: визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

Разработаны на основе статистического и лингвистического анализов, а также методов искусственного интеллекта, технологии Text Mining предназначены для проведения анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя системы класса Text Mining, пользователи приобретают новых знаний.

Технологии Text Mining - набор методов, предназначенных для получения информации из текстов на основе современных ИКТ, что дает возможность выявить закономерности, которые могут приводить к получению полезной информации и новых знаний пользователями.

Это инструмент, который дает возможность анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений.

Следует отметить, что технологии анализа текста исторически предшествовало создание технологии анализа получения данных, методология и подходы которой широко используются также в методах Text Mining, например, методы классификации или кластеризации. В Text Mining появились новые возможности: автоматическое реферирование текстов и выявление феноменов, то есть понятий и фактов. Возможности современных систем Text Mining могут применяться в системах управления знаний для выявления шаблонов в тексте, для распределения информации по профилям, создание обзоров документов. Text Mining обеспечивает новый уровень семантического поиска документов.

Важный компонент технологии Text Mining связан с извлечением из текста его характерных свойств, которые затем используют как ключевые слова, аннотации. Другая важная задача заключается в отнесении документа к определенным категориям с заданной схемы систематизации. Основная цель Text Mining - на-

дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса получения нужной информации.

Основные элементы Text Mining:

1) получение феноменов - Feature (Entity) Extraction - извлечение слов или групп слов, которые с точки зрения пользователя важны для описания содержания документа. Это могут быть сведения о персоны, организации, географические места, сроки или другие словосочетания - Feature (Entity) Association Extraction - более сложные наборы слов с технологической точки зрения;

2) автоматическое реферирование, аннотирование (Summarization)

Построение краткого содержания документа с его полным текстом;

3) классификация (Classification), в которой используются статистические корреляции для построения правил размещения документов в предусмотренные категории;

4) кластеризация (Clustering), что основывается на признаках документов, использует лингвистические и математические методы без применения предусмотренных категорий;

5) ответы на вопросы (question answering);

6) тематическое индексирование;

7) поиск по ключевым словам;

8) построение семантичної.мережі или анализ связей (Relationship, Event and Fact Extraction), определяющие появление дескрипторов (ключевых фраз) в документе для обеспечения поиска и навигации. Это самый сложный вариант получения информации, что включает извлечения сути, распознавание фактов и событий, а также извлечения информации из этих фактов. Получение фактов

Это получение определенных фактов из текста с целью улучшения классификации, поиска и кластеризации.

Для методов классификации в настоящее время применяют интеллектуальные механизмы оптимизации процесса классификации. Классификация применяется, например, для решения таких задач, как группировка документов в сетях предприятий, на Web-сайтах, сортировка сообщений электронной почты.

Кластеризация широко применяется при реферуванні больших информационных массивов или определении взаимосвязанных групп документов, а также для упрощения процесса просмотра при поиске необходимой информации, для нахождения уникальных документов из коллекции, для выявления дубликатов или очень близких по содержанию документов.

Различают два основных типа кластеризации: иерархическая и бинарную. Иерархическая кластеризация заключается в построении дерева кластеров, в каждом из которых размещается небольшая группа документов. Бинарная кластеризация обеспечивает группировки и просмотра документальных кластеров по принципу сходства. В один кластер размещаются похожи по своим свойствам документы. В процессе кластеризации строится базис ссылкам от документа к документу, что основывается на весах и совместном использовании ключевых слов.

Одно из важных применений Text Mining позволяет предусматривать по значениям одних признаков объектов значения других. Нахождение исключений (поиск объектов, которые своими характеристиками выделяются из общей картины) - также важное направление исследований Text Mining.

Задача поиска связанных признаков (понятий) отдельных документов подобна кластеризации, но выполняется по определенной совокупностью характерных признаков.

Современные системы класса Text Mining могут осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах.

Начиная с 60-х годов, с появлением средств автоматизации и текстов в электронном виде, получил развития контент-анализ информации с большими объемами. Под Data Mining, с точки зрения контент-анализа, понимают механизм выявления в потоке данных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования.

Контент-анализ - это качественно-количественная, систематическая обработка, оценка и интерпретация формы и содержания текста.

в настоящее время используется несколько подходов к представлению Информации в базах данных для обеспечения дальнейшего поиска этой информации. Наиболее распространенные подходы - булева и векторно-пространственная модели поиска.

Булева модель базируется на теории множеств, и, следовательно, является моделью информационного поиска, базирующейся на математической логике. Сейчас популярно объединение булевой с векторно-пространственной модели алгебры представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны - ранжирование документов, базируется на весах ключевых слов.

При использовании булевой модели база данных включает индекс, организуется в виде инвертированного массива данных, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается.

В индексе могут храниться также значение частоты вхождения этого терма в каждом документе, что помогает сортировать список по убыванию частоты вхождения.

Большинство известных информационно-поисковых систем и систем классификации информации основываются на использовании векторной модели описания данных (Vector Space Model). Векторная модель является классической моделью алгебры. В рамках этой модели документ описывается вектором в евклидовом пространстве, в котором в каждом документе для терму ставится в соответствие его весовой коэффициент, который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует заданной тематике, также является вектором в том же евклидовом пространстве термов. Для результата оценки близости запроса и документа используется скалярное произведение соответствующих векторов описания тематики и документа.

Векторно-пространственная модель представления данных автоматически обеспечивает системам такие возможности: обработка больших запросов; простая реализация режима поиска документов, подобных найденным; сохранение результатов поиска в информационном массиве с последующим уточняющим поиском.

На практике, однако, чаще всего используются комбинированные подходы, в которых объединены возможности булевой и векторно-пространственной модели и добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска осуществляется в соответствии с булевой модели, а результаты ранжируются по весам согласно модели векторного пространства.

в настоящее время известно немало производителей программного обеспечения, которые предлагают свои продукты и решения в области Text Mining.

Это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных и имеют дружественные графические интерфейсы, возможности визуализации и манипулирования данными, предоставляют доступ к различным источникам данных и функционируют в архитектуре клиент - сервер. Например, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti).

Современные системы поиска информации определяются, исходя из двух основных тенденций: обработки знаний и применение открытых систем. Именно на пересечении этих направлений возникли агентні технологии. Активное развитие методов и технологий распределенного искусственного интеллекта, достижения в области аппаратных и программных средств поддержки концепции разделенности и открытости вызвали развитие мультиагентных систем, в которых программные агенты совместно решают сложные задачи в информационном пространстве.

Способность программных агентов автономно планировать и координировать свои действия, вести переговоры с другими распределенными приложениями в сложной гетерогенной информационной среде, гибко и интеллектуально принимать решения в динамично изменяющихся и непредсказуемых ситуациях приводит к тому, что агентно-ориентированные технологии становятся одной из ключевых технологий обработки информации.

Технологии анализа данных (Text Mining, Data Mining)

Руководитель : Баяндин Николай Иванович.

Образовательное учреждение : Федеральное государственное бюджетное учреждение высшего профессионального образования "Московский государственный университет экономики, статистики и информатики (МЭСИ)", г. Москва

Кто владеет информацией - тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.

На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.

Рассмотрим подробнее технологию анализа данных.

Наиболее перспективные направления анализа данных:

·анализ текстовой информации

·интеллектуальный анализ данных

1. Анализ текстовой информации Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).

Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. "Неструктурированные текстовые данные" - набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно - вручную.

Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.

Извлечение информации. Выделение ключевых понятий для анализа.

Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.

Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Предварительная обработка документа

Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

Стэмминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение всех методов.

Задачи Text Mining

Классификация (classification) - определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества

Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.

Извлечения ключевых понятий (feature extraction) - идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).

Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.

Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.

Примеры средства анализа текстовой информации:

Средства Oracle - Oracle Text2.

Средства от IBM - Intelligent Miner for Text1

Средства SAS Institute - Text Miner

Интеллектуальный анализ данных Data Mining

Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода - "добыча данных", "раскопка данных") - обнаружение неявных закономерностей в наборах данных.

·специализированных "коробочных" программных продуктов для интеллектуального анализа;

·математических пакетов;

·электронных таблиц (и различного рода надстроек над ними);

·средств интегрированных в системы управления базами данных (СУБД);

·других программных продуктов.

Задачи интеллектуального анализа данных:

Задача классификации определение категории и класса каждому объекту.

Задача регрессии - поиск шаблонов для определения числового значения.

Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.

анализ text data mining

Задача кластеризации - деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Задача определения взаимосвязей - определение часто встречающихся наборов объектов среди множества подобных наборов.

Анализ последовательностей - обнаружение закономерностей в последовательностях событий.

Анализ отклонений - поиск событий, отличающихся от нормы.

По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных.

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.

Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.

Список используемой литературы и интернет - ресурсов

1.Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912

3.

4.

5.

6.

Сегодня вопросы анализа структурированной информации в различных прикладных областях в зависимости от специфики задач решены на 90-100%. С точки зрения технологий это объясняется очень просто: современные инструменты анализа позволяют "видеть" данные, хранящиеся в БД. На рынке широко представлены такие привычные пользователям технологии, как OLAP, BI и Data Mining, основанные на популярных методах статистической обработки, прогнозирования и визуализации.

Совершенно противоположная ситуация сложилась с анализом неструктурированных данных, проще говоря - текста, написанного естественным человеческим языком. Проблемы, связанные с автоматизацией этой области, для большинства пользователей пока не решены. Сразу отметим, что, говоря об анализе, всегда имеем в виду поиск ответа на конкретный вопрос того или иного человека.

Например, аналитик из службы надзора спрашивает: "Какие российские банки являются наиболее рискованными?" В упрощенном виде результат должен представлять собой отсортированный по надежности список банков, содержащий оценки рисков. В случае, когда информация находится в базе данных, все понятно: настроили инструмент анализа на запрос к базе, ввели формулу и "попросили" вывести таблицу с сортировкой по степени риска. Но в том-то и сложность, что, как правило, этой информации в базе данных нет. В той или иной форме она присутствует в Интернете и других источниках. Но как добыть ее из неструктурированных данных, например из отчетов банков и других документов, опубликованных в Сети?

Практически все пользователи делают следующее: заходят в поисковик, например Yandex, вводят запрос - и... Получают тысячи и тысячи ссылок... А теперь самое интересное: закатываем рукава и щелкаем на ссылках, просматриваем текст, выделяем нужные фрагменты с названием банка, сведениями о его услугах, уставном капитале, доходности, расходах и прочих показателях, необходимых, cогласно методике или нашему пониманию, для оценки рисков. Полученные данные загружаем в MS Excel, применяем формулы, рисуем графики и наконец любуемся на полученный честным и тяжким трудом результат.

Подобных примеров как в быту, так и в бизнесе встречается очень много. Объединяет их одно - рутина, связанная с ручным поиском и добычей данных. Очень это все напоминает картину средневековых рудников: тысячи людей кирками и лопатами вгрызаются в неподатливую породу, добывая крупицы полезных минералов. Получается, что по способу работы с неструктурированной информацией мы находимся в Средних веках. Есть ли сегодня возможность автоматизировать тяжкий труд этих "рудокопов"?

Как показывает анализ российской и зарубежной практики, такие технологии имеются. Попробуем понять, чем могут они быть полезны пользователям, и отделить мифы от реальности.

Наш путь: поиск, извлечение, анализ

Из приведенного выше упрощенного примера видно, что процесс получения конечного результата (ответа на вопрос) можно условно разделить на три фазы. Сначала ищем релевантные документы, потом из того, что найдено, извлекаем данные и в завершение анализируем их. Соответственно современные подходы можно разделить на три группы по степени автоматизации различных фаз указанного процесса: поиска документов, извлечения информации, анализа.

При этом подход, основанный только на автоматизации поиска, практикуется в 90% случаев, извлечение информации автоматизировано приблизительно в 10% решений, и только в редких случаях подобные системы берут на себя аналитическую работу. Хотя именно инструменты анализа наиболее понятны конечному пользователю. Причины такого расклада будут рассмотрены далее.

Применение поисковых систем

Этот подход подразумевает наличие на предприятии поисковой системы, используемой как основное средство в работе с неструктурированными текстами.

Менеджер или аналитик вводит ключевые слова, обрабатывает ссылки, получает документ, просматривает содержание, выбирает нужную информацию, загружает ее в программу анализа или базу данных и генерирует отчет. Известно, что производительность такой работы составляет от 400 до 1000 статей в сутки в зависимости от опытности аналитика. Это тяжкий труд, сравнимый с упомянутой выше работой на рудниках. Человек здесь занят в основном рутинными операциями, а потому не может много внимания уделить действительно интеллектуальной работе.

Основные преимущества такого подхода вполне очевидны: распространенность и общедоступность поисковых технологий. Это так называемое one-click-решение, когда вы набрали ключевое слово, нажали на одну кнопку и.... Добавьте к этому привычку думать, что с дальнейшей обработкой информации, кроме человека, никто справиться не может.

Поскольку инструменты поиска развиваются уже давно и достигли высокой стадии зрелости, они вполне успешно отвечают на вопрос, где находится информация. Их можно сравнить с компасом, который позволяет ориентироваться в мире неструктурированных данных. Пользователи уже успели настолько привыкнуть к поисковикам, что нет необходимости проводить какое-то специальное обучение.

Однако если речь идет об обработке больших массивов данных, применение одних только поисковых систем становится малоэффективным, так как требует значительных человеческих ресурсов на этапах "добычи" фактов и их анализа.

Автоматизация извлечения информации

Этот подход предполагает наличие технологически "продвинутого" инструмента, способного выделять из текста нужные элементы (Text Mining). Его работа заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе пользователь получает запрошенную информацию в структурированном виде. Структуры могут представлять собой как простые сущности (персоны, организации, географические названия), так и сложные (факты, содержащие некое событие, его участников, дату, финансовые параметры и пр.). События бывают самые разные: происшествия, сделки, суды и т. п. Указанный инструмент позволяет автоматически собирать результаты своей работы в коллекции данных, которые уже пригодны для проведения анализа.

Анализировать подобные наборы данных, безусловно, проще и быстрее, чем результаты работы поисковика. Однако и здесь требуются усилия по интеграции средств Text Mining с источниками документов, поисковиком и аналитическими инструментами. Сегодня поставщики инструментов Text Mining снабжают свои продукты возможностями интеграции с источниками документов (в основном с Web-ресурсами) и с базами данных через файлы в формате XML. Предоставляется также набор SDK, применение которого подразумевает довольно дорогую дальнейшую разработку. Но основной проблемой использования этих технологий является сложность настройки и поддержки таких инструментов. Это обусловлено спецификой компьютерной лингвистики, оперирующей терминами синтаксиса, и семантики. Как правило, конечные пользователи и разработчики далеки от этих материй, а в итоге возможности таких инструментов используются лишь на 5-10%.

Тем не менее пользователь уже избавлен от необходимости вручную просматривать тысячи документов и подбирать ключевые слова. За него это делает система. Появляются дополнительные возможности автоматической классификации и сопоставления подобных документов. Кроме того, программа способна сама распознавать смысловые элементы текста, например факты, события, и передавать их на последующую обработку.

Автоматизация аналитических процедур

В простейшем случае в руках конечного пользователя есть такие аналитические инструменты, как MS Excel и MS Access, в усовершенствованном - BI и Data Mining. В отдельных заказных разработках реализуются те или иные ноу-хау. Как бы там ни было, напрашивается очевидное решение: сформировать технологическую цепочку поисковик - Text Mining - инструмент анализа. Интегрировать элементы указанной цепочки можно через базу данных. Для автоматизации процесса в идеале нужен некий механизм, который запросит информацию у поисковика, сам просканирует документы, обнаружит искомые факты, структурирует их, сохранит в базе и сообщит о выполненном задании. Тогда аналитик должен будет только открыть отчеты и проанализировать результаты.

Text Mining - как это работает?

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining.

1. Information Extraction (извлечение информации):

а) Feature (Entity) Extraction - извлечение слов или групп слов, которые, с точки зрения пользователя, важны для описания содержания документа. Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые сущности также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;

б) Feature (Entity) Association Extraction - более сложные с технологической точки зрения. Прослеживаются различного рода связи между извлеченными сущностями. Например, даже если выбранные субъекты упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), можно с большой степенью определенности сказать, есть ли между ними какая-то связь или нет;

в) Relationship, Event and Fact Extraction - самый сложный вариант извлечения информации (Information Extraction), включающий в себя извлечение сущностей, распознавание фактов и событий, а также извлечение информации из этих фактов. Например, система может сделать заключение, что Иван Петров купил компанию "Пупкин и Ко", даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна, так как обычная человеческая речь подразумевает очень много вариантов изложения. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система способна отнести к разным категориям факты "Мужик купил бутылку водки" и "Иван Петров купил компанию "Пупкин и Ко"".

2. Summarization (автоматическое реферирование, аннотирование) - построение краткого содержания документа по его полному тексту.

3. Categorization (категоризация, классификация) - отнесение документа или его части к одной или нескольким категориям. Категории могут определять "направленность" текста - тематическую, жанровую, эмоциональную, оценочную.

4. Clusterization - объединение документов в группы по принципу их схожести.

Проблемы такого подхода очевидны и связаны с многокомпонентностью решения. Нужно инсталлировать поисковик, инструмент извлечения данных из текста, средства анализа, а кроме того, произвести всю сопутствующую интеграцию. Тем не менее представляется, что именно этим путем будут двигаться поставщики решений для конечных пользователей. Оснований для этого несколько.

1. Инструменты анализа, в частности BI и Data Mining, во всем мире становятся стандартом де-факто, и все больше специалистов опирается на них как на основные средства создания аналитической среды. Наряду с коммерческими продуктами такого рода развивается мир открытых ресурсов (проекты Pentaho и Eclipse), доступных широкой аудитории пользователей.

2. Технологии Text Mining, включая средства интеграции с источниками информации и аналитическими инструментами, также коммерциализируются (их предлагают такие фирмы, как Clarabridge, Nstein Technologies, Attensity).

3. Развиваются и сами научные области - компьютерная лингвистика, методы анализа текстов. Появились консультанты, в основную сферу деятельности которых входит решение подобных задач. Привлечение этих экспертов делает проекты такого рода исключительно эффективными.

Чтобы не ходить далеко за примерами...

Приведем несколько примеров работы технологической связки поиска - добычи - анализа неструктурированной информации, реализованных нашей компанией на базе платформы Clarabridge. Отметим, что они иллюстрируют лишь часть возможностей такого рода инструментов. Функционал решения может быть гораздо шире.

Система, построенная по принципу технологической связки, позволяет составлять различного рода рейтинги и прогнозы на основе информации, содержащейся в открытых и корпоративных источниках. Так, при расчете рейтинга упоминаемости автомобильных брендов в новостях, публикуемых на сайте Yandex, система нашла ссылки, извлекла факты, выявила связи между ними, структурировала полученную информацию и провела ее анализ (см. рис. 1). Поскольку процесс автоматизирован, пользователь сразу получает готовый информационный продукт, позволяющий судить о том, какие позитивные (негативные) качества ассоциируются с каждым из представленных брендов и как со временем меняются мнения покупателей. Если кнопкой мыши щелкнуть на той или иной части графика - например демонстрирующей падение рейтинга BMW, - система подскажет причины этого падения (в данном случае причиной стал отзыв автомобилей с рынка).

брендов в онлайновых новостных источниках

Кроме того, технологические комплексы, подобные Clarabridge, могут использоваться для выявления "голоса клиента" или "дыхания рынка" - анализа переписки, заметок call-центров, новостных статей в СМИ и Интернете, мнений покупателей на онлайновых форумах и в блогах. При этом информация из неструктурированных документов интегрируется с данными из CRM-систем и других источников.

Историческая справка

Началом развития технологии Text Mining можно считать эпоху правления президента США Ричарда Никсона (1969-1974 гг.). Тогда были выделены десятки миллионов долларов на развитие научных направлений, связанных с автоматизацией перевода. Это происходило в эпоху холодной войны, когда, в частности, очень актуальной была задача компьютерного перевода с русского языка на английский самых разнообразных документов, начиная с научных докладов и заканчивая технической документацией. Неудивительно, что проект этот носил закрытый характер.

В то же самое время появилась новая область знаний - Natural Language Processing (NLP), называвшаяся в России компьютерной лингвистикой. В 90-х годах в открытых источниках стали появляться не только доклады с научных конференций, но и программные коды, что позволило привлечь к разработкам более широкое международное научное сообщество. Наиболее активны в этой области ученые США, Великобритании, Франции и Германии.

В нашей стране развитие компьютерной лингвистики имело свою специфику. Она развивалась в основном в интересах оборонных предприятий и служб безопасности и не была ориентирована на решения конкретных бизнес-задач. Сказалось и отсутствие в последние годы целевого финансирования этой области. Тем не менее бурное развитие СМИ и Интернета порождает спрос как со стороны федеральных служб, так и со стороны коммерческих организаций (конкурентная разведка, например).

Так, для сравнительного анализа популярности тарифов сотовых операторов, обсуждаемых на интернет-форумах, система проанализировала более 20 форумов и блогов, извлекла факты в соответствии с установленными классификаторами и ограничителями, провела сравнительный анализ и представила данные в удобном для принятия решений виде (см. рис. 2).

Рис. 2. Тенденции упоминаемости тарифов

Анализ тенденций обсуждаемости различных тарифов позволяет увидеть развитие их популярности и причины, стоящие за этим, а также смоделировать и спрогнозировать продвижение новых тарифов. При этом те или иные показатели можно детализировать до уровня исходного текста, что дает возможность проводить аудит информации с целью проверки достоверности данных и корректности настроек системы.

Выводы

В силу инерции мышления массовая аудитория с недоверием относится к тому,что машина может оперировать понятиями фактов, событий, персон, организаций и т. п. В основном именно это заставляет нас отказываться от технологий Text Mining и загружать себя ручной обработкой результатов поиска. Есть, конечно, и объективные трудности. Методы Text Mining должны быть адаптированы к предметной области, что нередко требует временных и прочих ресурсов. Некоторые типы текстов (например, художественная литература, профессиональный и иной сленг) плохо поддаются машинной обработке.

Между тем технологии добычи информации из неструктурированных текстов (Text Mining) используются на практике уже сегодня. Со временем их применение будет только расширяться, поскольку объемы доступной и полезной информации растут с каждым днем, а потребность в их анализе по-прежнему не удовлетворена.



Загрузка...