TF-IDF

Материал из Википедии — свободной энциклопедии

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорциональн частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска. Например как один из критериев релевантности документа поисковому запросу, при автоматической кластеризации текстов.

Содержание

1 Структура формулы
2 Числовое применение
3 Пример
4 Применение в модели векторного пространства
5 Примечания
6 Литература
7 См. также
8 Ссылки

[править] Структура формулы

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом оценивается важность слова $t i$ в пределах отдельного документа.

$\mathrm{TF} = \frac{n_i}{\sum_k n_k}$ ,

где $n i$ есть число рассматриваемых употреблений слова, а в знаменателе общее число словоупотреблений.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некторое слово встречается в документах коллекции. Таким образом понижается вес широкоиспользуемых слов.

$\mathrm{IDF} = \log \frac{|D|}{|(d_{i}\supset t_{i})|}$ ,^[1]

где

|D| — количество документов в корпусе;
$|(d_{i}\supset t_{i})|$ — количество документов, в которых встречается $t i$ (когда $n_{i} \neq 0$ ).

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

Высокий вес в TF-IDF достигнут слова с высокой частотой в пределах конкретного документа и с низкой частотой употрблений в других документах.

[править] Числовое применение

Существуют различные формулы, основанные на методе TF-IDF. Они отличаются коэффициентами, нормировками, использованием логарифмированных шкал.

Одной из наиболее популярных формул является формула BM25[1].

[править] Пример

Если документ содержит 100 слов и слово^[2] «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Одним из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF. В данном примере, TF-IDF вес для слова «заяц» в коллекции документов будет 300 (0,03/0,0001).

[править] Применение в модели векторного пространства

Мера TF-IDF часто используется для представлении документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью (англ. vector space model) и даёт возможность сравнивать тексты, сравнивая представляющие их вектора в какой либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышева и др.), т. е. производя кластерный анализ.

[править] Примечания

↑ В некоторых вариантах формулы не используется логарифмирование.
↑ Обычно перед анализом документа слова приводятся морфологическим анализатором к нормальной форме.

[править] Литература

Дж Солтон. Динамические библиотечно-поисковые системы. М.: - Мир, 1979.
Salton, G. and McGill, M. J. 1983 Introduction to modern information retrieval. McGraw-Hill, ISBN 0070544840.
Salton, G., Fox, E. A. and Wu, H. 1983 Extended Boolean information retrieval. Commun. ACM 26, 1022—1036.
Salton, G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing & Management 24(5): 513—523
Федоровский А.Н, Костин М. Ю. Mail.ru на РОМИП-2005 // в сб. «Труды РОМИП’2005» Труды третьего российского семинара по оценке методов информационного поиска. Под ред. И. С. Некрестьянова, стр. 106—124, Санкт-Петербург: НИИ Химии СПбГУ, 2005.

[править] См. также

[править] Ссылки

Категории: Информация | Использование искусственного интеллекта | Работа с естественными языками

TF-IDF

Материал из Википедии — свободной энциклопедии

Содержание

[править] Структура формулы

[править] Числовое применение

[править] Пример

[править] Применение в модели векторного пространства

[править] Примечания

[править] Литература

[править] См. также

[править] Ссылки

Views

Навигация

Участие

Поиск

На других языках