Lucene: Forskjell mellom sideversjoner
Ingen redigeringsforklaring |
|||
Linje 33: | Linje 33: | ||
== Egenskaper og bruk == |
== Egenskaper og bruk == |
||
Lucene egner seg for enhver applikasjon som trenger full-tekst [[indeksering]] og søk. Lucene er motoren i flere mer komplette søkemotorer for ulike formål, blant annet [[Solr]], [[Nutch]] og [[Attivio AIE]]. |
Lucene egner seg for enhver applikasjon som trenger full-tekst [[indeksering]] og søk, og Lucene har generelt blitt anerkjent <ref>{{cite bok |title=Machine Learning and Data Mining in Pattern Recognition: 5th International Conference |last=Perner |first=Petra |authorlink= |coauthors= |year=2007 |publisher=Springer |location= |isbn=978-3-540-73498-7 |page=387 |pages= |url= |accessdate=}}</ref><ref>[http://www.glscube.org/downloads/glscube_design.pdf GNU/Linux Semantic Storage System]</ref> for sin anvendelse i implementeringen av [[Internett søke motor]]er and lokalt søk på separate nettsteder. Lucene er motoren i flere mer komplette søkemotorer for ulike formål, blant annet [[Solr]], [[Nutch]] og [[Attivio AIE]]. |
||
Sentralt i Lucene's logiske arkitektur er ideen om et '''dokument''' som inneholder '''felter''' med tekst. Denne fleksibiliteten gjør at Lucene's API er uavhengig av fil-format. Tekst på formatene [[Portable Document Format|PDFer]], [[HTML]], [[Microsoft Word]], [[OpenDocument]] m.fl. kan alle indekseres så lenge tekstlig informasjon kan trekkes ut. |
Sentralt i Lucene's logiske arkitektur er ideen om et '''dokument''' som inneholder '''felter''' med tekst. Denne fleksibiliteten gjør at Lucene's API er uavhengig av fil-format. Tekst på formatene [[Portable Document Format|PDFer]], [[HTML]], [[Microsoft Word]], [[OpenDocument]] m.fl. kan alle indekseres så lenge tekstlig informasjon kan trekkes ut. |
Sideversjonen fra 3. mai 2012 kl. 13:28
Lucene | |||
---|---|---|---|
Utvikler(e) | Apache Software Foundation | ||
Utgitt | 30. mars 2000 | ||
Nyeste versjon | 3.6 | ||
Kodelager | https://github.com/apache/lucene | ||
Type | Søkealgoritme | ||
Lisens | Apache License 2.0[1] | ||
Nettsted | lucene.apache.org (en) lucene.apache.org (en) | ||
Apache Lucene er et fri/åpen kildekode programvarebibliotek for informasjonsgjenfinning, opprinnelig utviklet i programmeringsspråket Java av Doug Cutting. Lucene støttes av Apache Software Foundation og utgis under Apache programvarelisens.
Lucene har blitt portert til andre programmeringsspråk inkludert Delphi, Perl, C#, C++, Python, Ruby og PHP[2].
Historie
Lucene ble opprinnelig skrevet av Doug Cutting i 1999[3]. Den var opprinnelig tilgjengelig for nedlasting fra sin hjemmeisde på SourceForge. Siden ble den en del av Apache Software Foundations Jakarta produktfamilie av åpen/fri kildekode skrevet i Java. Dette skjedde i september 2001. Lucene ble et eget toppnivås Apache prosjekt i februar 2005. Inntil nylig har Lucene inkludert en rekke underprosjekter som for eksempel Lucene Java, Droids, Lucene.Net, Lucy, Mahout, Solr, Nutch, Open Relevance Project, PyLucene og Tika. Solr har siden blitt integrert med Lucene projektet selv, og Mahout, Nutch og Tika har blitt flyttet ut som egne toppnivås prosjekter.
Egenskaper og bruk
Lucene egner seg for enhver applikasjon som trenger full-tekst indeksering og søk, og Lucene har generelt blitt anerkjent [4][5] for sin anvendelse i implementeringen av Internett søke motorer and lokalt søk på separate nettsteder. Lucene er motoren i flere mer komplette søkemotorer for ulike formål, blant annet Solr, Nutch og Attivio AIE.
Sentralt i Lucene's logiske arkitektur er ideen om et dokument som inneholder felter med tekst. Denne fleksibiliteten gjør at Lucene's API er uavhengig av fil-format. Tekst på formatene PDFer, HTML, Microsoft Word, OpenDocument m.fl. kan alle indekseres så lenge tekstlig informasjon kan trekkes ut.
Prosjekter basert på Lucene
Lucene er i seg selv kun et indekserings- og søke-bibliotek, og inneholder ikke søkerobot eller funksjonalitet for tolkning av HTML. Men det finnes flere prosjekter som utvider Lucenes funksjonalitet:
- Apache Nutch tilbyr vevgjennomgang (vev crawling) og parsing av HTML
- Apache Solr - er en komplett søkemotor-tjener
- ElasticSearch - er en komplett søkemotor-tjener
- Compass er et Java søkemotor-rammeverk bygget på toppen av Lucene.[6]
Tilgang på kompetanse
Det er et levende utvikler- og bruker-miljø rundt Lucene, som raskt og effektivt kan svare på spørsmål eller rette feil. Det er også flere ulike kommersielle konsulentfirmaer som kan tilby kursing, konsulenthjelp, skreddersøm/videreutvikling og support-kontrakter.
Se også
Referanser
- ^ https://github.com/apache/lucene/blob/main/LICENSE.txt.
- ^ Lucene implementations
- ^ «Better Search with Apache Lucene and Solr» (PDF). 19. november, 2007. Sjekk datoverdier i
|dato=
(hjelp) - ^ Mal:Cite bok
- ^ GNU/Linux Semantic Storage System
- ^ Compass hjemmeside
Bibliografi
- Gospodnetic, Otis (2009). Lucene in Action, 2nd edition. Manning Publications. ISBN 1933988177.
- Gospodnetic, Otis (2004). Lucene in Action. Manning Publications. ISBN 978-1-932394-28-3.