Apache Lucene
Origem: Wikipédia, a enciclopédia livre.
O Apache Lucene, ou simplesmente Lucene, é um software de busca e uma API de indexação de documentos, escrito na linguagem de programação Java. É um software de código aberto da Apache Software Foundation licenciado através da licença Apache.
O Lucene contém apenas o núcleo do "motor" de busca. Por isso, ele não inclui um Web crawler ou um parser para diferentes formatos de documentos. O usuário do Lucene deve adicionar estas funcionalidades.
Para o Lucene não importa a origem dos dados, seu formato, or mesmo a linguagem em que foi escrito, desde que esses dados possam ser convertido para texto. Isto significa que o Lucene pode ser utilizado para indexar e buscar dados gravados em: arquivos, páginas web em servidores remotos, documentos gravados no sistema de arquivos local, arquivos textos, documentos Microsoft Word, documentos HTML ou arquivos PDF, ou qualquer outro formato do qual possa ser extraído informação textual.
[editar] Softwares que utilizam o Lucene
- Beagle utiliza uma versão do Lucene escrita em C# (DotLucene) como indexador.
- CNET utiliza o Lucene para buscar os seus produtos.
- LjFind utiliza o Lucene para buscas num universo de 110,000,000 posts no LiveJournal.
- Nutch é um motor de busca completo que utiliza o Lucene.
- A Wikipedia utiliza o Lucene para buscas textuais.
[editar] Lucene em outras linguagens
Foram construídas versões do Lucene para outras linguagens além do Java:
- ((en)) Lucene4c - Linguagem C
- ((en)) CLucene - C++
- ((en)) MUTIS - Delphi
- ((en)) NLucene - .NET
- ((en)) DotLucene - .NET
- ((en)) Plucene - Perl
- ((en)) Pylucene - Python
- ((en)) Ferret e RubyLucene - Ruby