Data mining методы классификации и прогнозирования. Добыча данных · Loginom Wiki. Статистические методы Data mining

Мы приветствуем вас на портале Data Mining - уникальном портале, посвященном современным методам Data Mining.

Технологии Data Mining представляют собой мощный аппарат современной бизнес-аналитики и исследования данных для обнаружения скрытых закономерностей и построение предсказательных моделей. Data Mining или добыча знаний основывается не на умозрительных рассуждениях, а на реальных данных.

Рис. 1. Схема применения Data Mining

Problem Definition – Постановка задачи: классификация данных, сегментация, построение предсказательных моделей, прогнозирование.
Data Gathering and Preparation – Сбор и подготовка данных, чистка, верификация, удаление повторных записей.
Model Building – Построение модели, оценка точности.
Knowledge Deployment – Применение модели для решения поставленной задачи.

Data Mining применяется для реализации масштабных аналитических проектов в бизнесе, маркетинге, интернете, телекоммуникациях, промышленности, геологии, медицине, фармацевтике и других областях.

Data Mining позволяет запустить процесс нахождения значимых корреляций и связей в результате просеивания огромного массива данных с использованием современных методов распознавания образов и применения уникальных аналитических технологий, включая деревья принятия решений и классификации, кластеризацию, нейронносетевые методы и другие.

Пользователь, впервые открывший для себя технологию добычи данных, поражается обилию методов и эффективных алгоритмов, позволяющих найти подходы к решению трудных задач, связанных с анализом больших объемов данных.

В целом Data Mining можно охарактеризовать как технологию, предназначенную для поиска в больших объемах данных неочевидных , объективных и практически полезных закономерностей.

В основе Data Mining лежат эффективные методы и алгоритмы, разработанные для анализа неструктурированных данных большого объема и размерности.

Ключевой момент состоит в том, что данные большого объема и большой размерности представляются лишенными структуры и связей. Цель технологии добычи данных – выявить эти структуры и найти закономерности там, где, на первый взгляд, царит хаос и произвол.

Вот актуальный пример применения добычи данных в фармацевтике и лекарственной индустрии.

Взаимодействие лекарственных веществ - нарастающая проблема, с которой сталкивается современное здравоохранение.

Со временем количество назначаемых лекарств (безрецептурных и всевозможных добавок) возрастает, что делает все более и более вероятным взаимодействие между лекарствами, которое может стать причиной серьезных побочных эффектов, о которых не подозревают врачи и пациенты.

Эта область относится к постклиническим исследованиям, когда лекарство уже выпущено на рынок и интенсивно используется.

Клинические исследования относятся к оценке эффективности препарата, но слабо учитывают взаимодействия данного лекарства с другими препаратами, представленными на рынке.

Исследователи из Стэнфордского Университета в Калифорнии изучили базу данных FDA (Food and Drug Administration - Управление по контролю за пищевыми продуктами и лекарственными препаратами) побочных эффектов лекарств и обнаружили, что два часто используемых препарата – антидепрессант пароксетин и правастатин, используемый для понижения уровня холестерина – увеличивают риск развития диабета, если употребляются совместно.

Исследование по проведению подобного анализа, основанного на данных FDA выявило 47 ранее неизвестных неблагоприятных взаимодействий.

Это замечательно, с той оговоркой, что многие отрицательные эффекты, отмеченные пациентами, остаются не выявленными. Как раз в таком случае сетевой поиск способен себя проявить наилучшим образом.

Ближайшие курсы по Data Mining Академии Анализа Данных StatSoft в 2020 г.

Мы начинаем знакомство с Data Mining, используя замечательные видеоролики Академии Анализа Данных.

Обязательно посмотрите наши ролики, и вы поймете, что такое Data Mining!

Видео 1. Что такое Data Mining?


Видео 2. Обзор методов добычи данных: деревья принятия решений, обобщенные предсказательные модели, кластеризация и многое другое

В вашем браузере отключен JavaScript


Прежде чем запустить исследовательский проект, мы должны организовать процесс получения данных из внешних источников, сейчас мы покажем, как это делается.

Ролик познакомит вас с уникальной технологией STATISTICA In-place database processing и связью Data Mining с реальными данными.

Видео 3. Порядок взаимодействия с базами данных: графический интерфейс построения SQL запросов технология In-place database processing

В вашем браузере отключен JavaScript


Теперь мы познакомимся с технологиями интерактивного бурения, эффективными при проведении разведочного анализа данных. Сам термин бурение отражает связь технологии Data Mining с геологоразведкой.

Видео 4. Интерактивное бурение: Разведочные и графические методы для интерактивного исследования данных

В вашем браузере отключен JavaScript


Теперь мы познакомимся с анализом ассоциаций (association rules), эти алгоритмы позволяют находить связи, имеющиеся в реальных данных. Ключевым моментом является эффективность алгоритмов на больших объемах данных.

Результатом алгоритмов анализа связей, например, алгоритма Apriori нахождение правил связей исследуемых объектов с заданной достоверностью, например, 80 %.

В геологии эти алгоритмы можно применять при разведочном анализе полезных ископаемых, например, как признак А связан с признаками В и С.

Вы можете найти конкретные примеры таких решений по нашим ссылкам:

В розничной торговле алгоритма Apriori или их модификации позволяют исследовать связь различных товаров, например, при продаже парфюмерии (духи – лак – туш для ресниц и т.д.) или товаров разных брендов.

Анализ наиболее интересных разделов на сайте также можно эффективно проводить с помощью правил ассоциаций.

Итак, познакомьтесь с нашим следующим роликом.

Видео 5. Правила ассоциаций

В вашем браузере отключен JavaScript

Приведем примеры применения Data Mining в конкретных областях.

Интернет-торговля:

  • анализ траекторий покупателей от посещения сайта до покупки товаров
  • оценка эффективности обслуживания, анализ отказов в связи с отсутствием товаров
  • связь товаров, которые интересны посетителям

Розничная торговля: анализ информации о покупателях на основе кредитных карт, карт скидок и тд.

Типичные задачи розничной торговли, решаемые средствами Data Miningа:

  • анализ покупательской корзины ;
  • создание предсказательных моделей и классификационных моделей покупателей и покупаемых товаров;
  • создание профилей покупателей;
  • CRM, оценка лояльности покупателей разных категорий, планирование программ лояльности;
  • исследование временных рядов и временных зависимостей, выделение сезонных факторов, оценка эффективности рекламных акций на большом диапазоне реальных данных.

Телекоммуникационный сектор открывает неограниченные возможности для применения методов добычи данных, а также современных технологий big data:

  • классификация клиентов на основе ключевых характеристик вызовов (частота, длительность и т.д.), частоты смс ;
  • выявление лояльности клиентов ;
  • определение мошенничества и др.

Страхование:

  • анализ риска . Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это пересмотром политики скидок семейным клиентам.
  • выявление мошенничества . Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

Практическое применение добычи данных и решение конкретных задач представлено на следующем нашем видео.

Вебинар 1. Вебинар «Практические задачи Data Mining: проблемы и решения»

В вашем браузере отключен JavaScript

Вебинар 2. Вебинар "Data Mining и Text Mining: примеры решения реальных задач"

В вашем браузере отключен JavaScript


Более глубокие знания по методологии и технологии добычи данных вы можете получить на курсах StatSoft.

Добыча данных (Data Mining)

Data Mining — это методология и процесс обнаружения в больших массивах данных, накапливающихся в информационных системах компаний, ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining является одним из этапов более масштабной методологии Knowledge Discovery in Databases .

Знания, обнаруженные в процессе Data Mining, должны быть нетривиальными и ранее неизвестными. Нетривиальность предполагает, что такие знания не могут быть обнаружены путем простого визуального анализа. Они должны описывать связи между свойствами бизнес-объектов, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и к новым объектам.

Практическая полезность знаний обусловлена возможностью их использования в процессе поддержки принятия управленческих решений и совершенствовании деятельности компании.

Знания должны быть представлены в виде, понятном для пользователей, которые не имеют специальной математической подготовки. Например, проще всего воспринимаются человеком логические конструкции «если, то». Более того, такие правила могут быть использованы в различных СУБД в качестве SQL -запросов. В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Data Mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на шесть видов:

Data Mining носит мультидисциплинарный характер, поскольку включает в себя элементы численных методов, математической статистики и теории вероятностей , теории информации и математической логики, искусственного интеллекта и машинного обучения .

Задачи бизнес-анализа формулируются по-разному, но решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации. Например, оценка рисков — это решение задачи регрессии или классификации, сегментация рынка — кластеризация, стимулирование спроса — ассоциативные правила. Фактически задачи Data Mining являются элементами, из которых можно «собрать» решение большинства реальных бизнес-задач.

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как математическая статистика, теория информации, машинное обучение и базы данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. Например, алгоритм кластеризации k-means был заимствован из статистики.

Средства Data Mining

В настоящее время технология Data Mining представлена целым рядом ком­мерческих и свободно распространяемых программных продуктов. Доста­точно полный и регулярно обновляемый список этих продуктов можно найти на сайте www . kdnuggets . com , посвященном Data Mining. Классифицировать программные продукты Data Mining можно по тем же принципам, что поло­жены в основу классификации самой технологии. Однако подобная класси­фикация не будет иметь практической ценности. Вследствие высокой конку­ренции на рынке и стремления к полноте технических решений многие из продуктов Data Mining охватывают буквально все аспекты применения ана­литических технологий. Поэтому целесообразнее классифицировать продук­ты Data Mining по тому, каким образом они реализованы и, соответственно, какой потенциал для интеграции они предоставляют. Очевидно, что и это ус­ловность, поскольку такой критерий не позволяет очертить четкие границы между продуктами. Однако у подобной классификации есть одно несомнен­ное преимущество. Она позволяет быстро принять решение о выборе того или иного готового решения при инициализации проектов в области анализа данных, разработки систем поддержки принятия решений, создания храни­лищ данных и т. д.

Итак, продукты Data Mining условно можно разделить на три больших кате­гории:

    входящие, как неотъемлемая часть, в системы управления базами данных;

    библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;

    коробочные или настольные решения ("черные ящики").

Продукты первых двух категорий предоставляют наибольшие возможности для интеграции и позволяют реализовать аналитический потенциал практиче­ски в любом приложении в любой области. Коробочные приложения, в свою очередь, могут предоставлять некоторые уникальные достижения в области Data Mining или быть специализированными для какой-либо конкретной сфе­ры применения. Однако в большинстве случаев их проблематично интегри­ровать в более широкие решения.

Включение аналитических возможностей в состав коммерческих систем управления базами данных является закономерной и имеющей огромный по­тенциал тенденцией. Действительно, где, как ни в местах концентрации дан­ных, имеет наибольший смысл размещать средства их обработки. Исходя из этого принципа, функциональность Data Mining в настоящий момент реали­зована в следующих коммерческих базах данных:

    Microsoft SQL Server;

Основные тезисы

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, ко­торые могут быть проверены другими средствами анализа (например. OLAP).

    Data Mining- исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.

    Методами Data Mining решаются три основные задачи: задача классифи­кации и регрессии, задача поиска ассоциативных правил и задача класте­ризации. По назначению они делятся на описательные и предсказатель­ные. По способам решения задачи разделяют на supervised learning (обуче­ние с учителем) и unsupervised learning (обучение без учителя).

    Задача классификации и регрессии сводится к определению значения за­висимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае - о задаче классификации.

    При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.

    Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

    Методы Data Mining находятся на стыке разных направлений информаци­онных технологий: статистики, нейронных сетей, нечетких множеств, ге­нетических алгоритмов и др.

    Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизирован­ного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.

    Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.

    Методы Data Mining могут эффективно использоваться в различных об­ластях человеческой деятельности: в бизнесе, медицине, науке, телеком­муникациях и т. д.

3. Анализ текстовой информации - Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по опре­деленным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т. п. Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, тексто­вые документы практически невозможно преобразовать в табличное пред­ставление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как тек­стовые поля (BLOB-поля). В го же время в тексте скрыто огромное количест­во информации, но ее неструктурированность не позволяет использовать ал­горитмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Как видно, от определения Data Mining оно отличается только новым поняти­ем "неструктурированные текстовые данные". Под такими знаниями понима­ется набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких доку­ментов являются: web-страницы, электронная почта, нормативные документы ит. п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию. Документы, использующие язык расширяемой разметки XML (extensible Markup Lan­guage), стандартный язык обобщенной разметки SGML (Standard Generalised Markup Language) и другие подобные соглашения по структуре формирова­ния текста, принято называть полуструктурированными документами. Они также могут быть обработаны методами Text Mining.

Процесс анализа текстовых документов можно представить как последова­тельность нескольких шагов

    Поиск информации. На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступ­ность. Как правило, пользователи могут определить набор анализируемых документов самостоятельно - вручную, но при большом количестве до­кументов необходимо использовать варианты автоматизированного отбо­ра по заданным критериям.

    Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для пред­ставления их в виде, с которым работают методы Text Mining. Целью та­ких преобразований является удаление лишних слов и придание тексту более строгой формы. Подробнее методы предварительной обработки бу­дут описаны в разд.

    Извлечение информации. Извлечение информации из выбранных докумен­тов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

Применение методов Text Mining. На данном шаге извлекаются шаблоны и отношения, имеющиеся в текстах. Данный шаг является основным в процессе анализа текстов, и практические задачи, решаемые на этом шаге.

Интерпретация результатов. Последний шаг в процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как прави­ло, интерпретация заключается или в представлении результатов на есте­ственном языке, или в их визуализации в графическом виде.

Визуализация также может быть использована как средство анализа текста. Для этого извлекаются ключевые понятия, которые и представляются в гра­фическом виде. Такой подход помогает пользователю быстро идентифициро­вать главные темы и понятия, а также определить их важность.

Предварительная обработка текста

Одной из главных проблем анализа текстов является большое количество слов в документе. Если каждое из этих слов подвергать анализу, то время по­иска новых знаний резко возрастет и вряд ли будет удовлетворять требовани­ям пользователей. В то же время очевидно, что не все слова в тексте несут полезную информацию. Кроме того, в силу гибкости естественных языков формально различные слова (синонимы и т. п.) на самом деле означают оди­наковые понятия. Таким образом, удаление неинформативных слов, а также приведение близких по смыслу слов к единой форме значительно сокращают время анализа текстов. Устранение описанных проблем выполняется на этапе предварительной обработки текста.

Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов:

    Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

    Стэмминг- морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

    Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

    Приведение регистра. Этот прием заключается в преобразовании всех сим­волов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение перечисленных методов.

Задачи Text Mining

В настоящее время в литературе описано много прикладных задач, решаемых с помощью анализа текстовых документов. Это и классические задачи Data Mining: классификация, кластеризация, и характерные только для текстовых документов задачи: автоматическое аннотирование, извлечение ключевых понятий и др.

Классификация (classification) - стандартная задача из области Data Mining. Ее целью является определение для каждого документа одной или несколь­ких заранее заданных категорий, к которым этот документ относится. Осо­бенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из доку­ментов соответствует какой-нибудь заданной категории.

Частным случаем задачи классификации является задача определения тема­тики документа .

Целью кластеризации (clustering) документов является автоматическое выяв­ление групп семантически похожих документов среди заданного фиксиро­ванного множества. Отметим, что группы формируются только на основе по­парной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.

Автоматическое аннотирование (summarization) позволяет сократить текст, сохраняя его смысл. Решение этой задачи обычно регулируется пользовате­лем при помощи определения количества извлекаемых предложений или процентом извлекаемого текста по отношению ко всему тексту. Результат включает в себя наиболее значимые предложения в тексте.

Первичной целью извлечения кчючевых понятий (feature extraction) является идентификация фактов и отношений в тексте. В большинстве случаев такими понятиями являются имена существительные и нарицательные: имена и фа­милии людей, названия организаций и др. Алгоритмы извлечения понятий могут использовать словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Навигация по тексту (text-base navigation) позволяет пользователям переме­щаться по документам относительно тем и значимых терминов. Это выпол­няется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени. Тренд может быть использован, например, для обнаружения изменений интересов компании от одного сегмента рынка к другому.

Поиск ассоциаций также является одной из основных задач Data Mining. Для ее решения в заданном наборе документов идентифицируются ассоциатив­ные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов. Далее в этой главе рассматриваются решения следующих задач: извлечение ключевых понятий, классификация, кластеризация и авто­матическое аннотирование.

Классификация текстовых документов

Классификация текстовых документов, так же как и в случае классификации объектов заключается в отнесении документа к одному из заранее известных классов. Часто классификацию применительно к текстовым доку­ментам называют категоризацией или рубрикацией. Очевидно, что данные названия происходят от задачи систематизации документов по каталогам, категориям и рубрикам. При этом структура каталогов может быть как одно­уровневой, так и многоуровневой (иерархической).

Формально задачу классификации текстовых документов описывают набо­ром множеств.

В задаче классификации требуется на основе этих данных построить про­цедуру, которая заключается в нахождении наиболее вероятной категории из множества С для исследуемого документа.

Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких признаков в документе говорит о его принадлежности или непринад­лежности к той или иной теме.

Такое множество признаков часто называют словарем, т. к. оно состоит из лексем, которые включают слова и/или словосочетания, характеризующие категорию.

Необходимо заметить, что данные наборы признаков являются отличитель­ной чертой классификации текстовых документов от классификации объек­тов в Data Mining, которые характеризуются набором атрибутов.

Решение об отнесении документа d, к категории с, принимается на основании пересечения общих признаков

Задача методов классификации состоит в том, чтобы наилучшим образом вы­брать такие признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении документа к рубрике.

Средства анализа текстовой информации

    Средства Oracle - Oracle Text2

Начиная с версии Oracle 7.3.3, средства текстового анализа являются неотъ­емлемой частью продуктов Oracle. В Oracle эти средства развились и полу­чили новое название- Oracle Text- программный комплекс, интегриро­ванный в СУБД, позволяющий эффективно работать с запросами, относящи­мися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реля­ционными базами данных. В частности, при написании приложений для об­работки текста стало возможно использование SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, явля­ется задача поиска документов по их содержанию - по словам или фразам, которые при необходимости комбинируются с использованием булевых опе­раций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах.

    Средства от IBM - Intelligent Miner for Text1

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор от­дельных утилит, запускаемых из командной строки или из скриптов незави­симо друг от друга. Система содержит объединение некоторых утилиты для решения задач анализа текстовой информации.

IBM Intelligent Miner for Text объединяет мощную совокупность инструмен­тов, базирующихся в основном на механизмах поиска информации (infor­mation retrieval), что является спецификой всего продукта. Система состоит ряд базовых компонентов, которые имеют самостоятельное значение вне пре­делов технологии Text Mining:

    Средства SAS Institute - Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner весьма универсальна, поскольку может работать с тексто­выми документами различных форматов - в базах данных, файловых систе­мах и далее в web.

Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с сущест­вующими структурированными данными, такими как возраст, доход и харак­тер покупательского спроса.

Основные тезисы

    Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в не­структурированных текстовых данных.

    Процесс анализа текстовых документов можно представить как последо­вательность нескольких шагов: поиск информации, предварительная обра­ботка документов, извлечение информации, применение методов Text Mining, интерпретация результатов.

    Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов: удаление стоп-слов, стэмминг, Л-граммы, приведение регистра.

    Задачами анализа текстовой информации являются: классификация, кла­стеризация, автоматическое аннотирование, извлечение ключевых поня­тий, навигация по тексту, анализ трендов, поиск ассоциаций и др.

    Извлечение ключевых понятий из текстов может рассматриваться и как отдельная прикладная задача, и как отдельный этап анализа текстов. В по­следнем случае извлеченные из текста факты используются для решения различных задач анализа.

    Процесс извлечения ключевых понятий с помощью шаблонов выполняет­ся в две стадии: на первой из текстовых документов извлекаются отдель­ные факты с помощью лексического анализа, на второй стадии выполня­ется интеграция извлеченных фактов и/или вывод новых фактов.

    Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содер­жат одинаковые признаки (слова или словосочетания), и наличие или от­сутствие таких признаков в документе говорит о его принадлежности или непринадлежности к той или иной теме.

    Большинство алгоритмов кластеризации требуют, чтобы данные были представлены в виде модели векторного пространства, которая широко применяется для информационного поиска и использует метафору для от­ражения семантического подобия как пространственной близости.

    Выделяют два основных подхода к автоматическому аннотированию тек­стовых документов: извлечение (выделение наиболее важных фрагментов) и обобщение (использование предварительно собранных знаний).

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.

Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена.

Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.

Список литературы

    «Технологии анализа данных: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Куприянов, В. В. Стенаненко, И. И. Холод. - 2-е изд., перераб. и доп.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - статья интернета

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технологии анализа данных

    Дипломная работа >> Банковское дело

    Заемщика с использованием кластерного, вербального анализа , корректирующих коэффициентов и т.д., также... кредитоспособности заемщика на основе интеллектуального анализа данных Data Mining (с... На начальном этапе анализа проводится анализ собственных средств и...

  1. Анализ и классификация современного рынка информационных систем, реализующих дискреционную, м

    Реферат >> Информатика

    1.3 Ролевое разграничение 6 2. Сравнительный анализ различных типов систем 7 Операционные системы... системы, включающий в себя: анализ политик безопасности и их характеристик, ... приложений или реализующие более интеллектуальный анализ данных. К тому же...

  2. Интеллектуальные способности одаренных детей в связи со школьной успеваемостью

    Дипломная работа >> Психология

    Взаимосвязь успеваемости и особенностей интеллектуального развития. На основании теоретического анализа проблемы исследования была... к интеллекту без анализа его психологической структуры. Решающей для оценки интеллектуальных способностей является...

Развитие методов записи и хранения данных привело к бурному росту объемов собираемой и анализируемой информации. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно, хотя необходимость проведения такого анализа вполне очевидна, ведь в этих "сырых" данных заключены знания, которые могут быть использованы при принятии решений. Для того чтобы провести автоматический анализ данных, используется Data Mining.

Data Mining – это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining является одним из шагов Knowledge Discovery in Databases.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Полезность заключается в том, что эти знания могут приносить определенную выгоду при их применении. Знания должны быть в понятном для пользователя не математика виде. Например, проще всего воспринимаются человеком логические конструкции "если … то …". Более того, такие правила могут быть использованы в различных СУБД в качестве SQL-запросов. В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Алгоритмы, используемые в Data Mining, требуют большого количества вычислений. Раньше это являлось сдерживающим фактором широкого практического применения Data Mining, однако сегодняшний рост производительности современных процессоров снял остроту этой проблемы. Теперь за приемлемое время можно провести качественный анализ сотен тысяч и миллионов записей.

Задачи, решаемые методами Data Mining:

  1. Классификация – это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
  2. Регрессия , в том числе задачи прогнозирования. Установление зависимости непрерывных выходных от входных переменных.
  3. Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера должны быть "похожими" друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
  4. Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
  5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.
  6. Анализ отклонений – выявление наиболее нехарактерных шаблонов.

Проблемы бизнес анализа формулируются по-иному, но решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации. Например, оценка рисков – это решение задачи регрессии или классификации, сегментация рынка – кластеризация, стимулирование спроса – ассоциативные правила. Фактически, задачи Data Mining являются элементами, из которых можно собрать решение подавляющего большинства реальных бизнес задач.

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. Например, процедура кластеризации k-means была просто заимствована из статистики. Большую популярность получили следующие методы Data Mining: нейронные сети, деревья решений, алгоритмы кластеризации, в том числе и масштабируемые, алгоритмы обнаружения ассоциативных связей между событиями и т.д.

Deductor является аналитической платформой, в которую включен полный набор инструментов для решения задач Data Mining: линейная регрессия, нейронные сети с учителем, нейронные сети без учителя, деревья решений, поиск ассоциативных правил и множество других. Для многих механизмов предусмотрены специализированные визуализаторы, значительно облегчающие использование полученной модели и интерпретацию результатов. Сильной стороной платформы является не только реализация современных алгоритмов анализа, но и обеспечение возможности произвольным образом комбинировать различные механизмы анализа.

mob_info