|
Suchmaschinen entwickeln mit Apache Lucene
JavaMagazin
Manfred Hardt, Fabian Theis
Software & Support
EAN: 9783935042451 (ISBN: 3-935042-45-0)
180 Seiten, paperback, 14 x 21cm, Juli, 2004
EUR 22,90 alle Angaben ohne Gewähr
|
|
Umschlagtext
Lucene ist ein in Java geschriebenes Framework zur Entwicklung von Volltext-Suchmaschinen. Nicht nur die Tatsache, dass Lucene Teil des in Java-Entwicklerkreisen hochgeschätzten Jakarta-Projekts der Apache Software Foundation ist, spricht für Qualität und Zukunftsorientierung. Und das beste daran: Lucene ist Open Source und lizenzkostenfrei. Dank seiner durchdachten, flexiblen und multifunktionalen Architektur hat sich Lucene auch gegen kommerzielle Lösungen behaupten können und wurde von diversen Softwareherstellern in deren Produkte integriert.
Kompromisslos auf den Punkt gebracht und ohne unnötigen literarischen Ballast vermittelt Ihnen das vorliegende Buch das notwendige Wissen darüber, wie selbst in Projekten mit gehobenen Ansprüchen an Skalierbarkeit und Performanz die Einbindung von Suchfunktionen für eine Vielzahl von Java-Anwendungen mithilfe von Lucene gelingt.
Anhand konkreter Beispiele zeigen Manfred Hardt und Fabian Theis, wie grundlegende Aufgaben wie Indexierung, Anfragebearbeitung, Suche und Ergebnispräsentation gelöst werden. Darüber hinaus werden auch spezielle Thematiken wie die Indexierung spezieller Dokumenttypen (PDF, Microsoft Office, StarOffice/OpenOffice.org), die Entwicklung einfacher Crawler sowie fortgeschrittene Anfrage- und Ergebnispräsentationstechniken (QueryBuilder, Scoring, Filter) behandelt.
Rezension
In meiner Ausbildung zum Fachinformatiker programmiere ich Suchfunktionen ( für Web, FileSystem & Datenbanken ) und -masken für unsere Kunden. Bisher war ich auf das von uns eingesetzte Java Framework beschränkt, bis ich auf Lucene stieß.
Das Buch gibt einen wirklich sehr guten Einstieg in das Apache Lucene Framework. Man wird Schritt für Schritt zur eigenen Suchmaschiene geführt. Kenntnisse in Java sollten allerdings vorhanden sein, denn es wird nicht auf Programmierung an sich eingegangen.
Es sind viele Grafiken und Codebeispiele im Buch vorhanden, was das Verstehen der Zusammenhänge sehr vereinfacht.
Dieses Buch und vor allem Lucene ist für jeden interessant der eine Suchfunktion in seinem Internet bzw. Intranet Auftritt implementieren will. Lucene kann dabei eine gute Alternative gegenüber kommerzieller Suchmaschienen sein. Und dieses Buch hilft einem zu verstehen worauf es ankommt und wie man das Lucene Framwork anwendet.
Tim Sonner, lehrerbibliothek.de
Inhaltsverzeichnis
Auf die Plätze, fertig, los!
Das dürfen Sie erwarten
Aufbau dieses Buchs
Buchbeispiele
Schritt für Schritt zur eigenen Suchmaschine
Wer suchet,
Frameworks vermitteln „Best Practices“
Realisierung von Suchmaschinen mit Lucene
Zusammenfassung
Lucene und der Rest der Welt
Lucene und die Open-Source-Bewegung
Geschichte und Entwicklung von Lucene
Marktsondierung
Lizenzierung – ein Wort der Warnung
Zusammenfassung
Download und Installation
Download
Die Distributionen
Lucene im Eigenbau
JavaCC und der QueryParser
Plugins und die Sandbox
Weitere hilfreiche Ressourcen
Zusammenfassung
Indexierung
Indexierung mit Lucene
Aufbereitung und Abstraktion des Suchraums
Dokumente für Microsoft Excel, Microsoft Word,OpenOffice/StarOffice und PDF-Dateien
Analyzer
Indexerstellung
Format des Lucene-Index
Zusammenfassung
Anfragen erstellen und bearbeiten
Von der Eingabe zur Anfrage
Lucenes Anfragesprache und deren Syntax
Anfrageauswertung mit dem QueryParser
Konstruktion von Anfragen mit dem Lucene-API
Spezielle Query-Objekte mit dem QueryParser erzeugen
Zusammenfassung
Suchprozesse gestalten
Implementierung des Suchprozesses
Suchen in einem Index mit IndexSearcher
Gleichzeitiges Durchsuchen mehrerer Indexe mit MultiSearcher
Nachfiltern von Suchergebnissen
Trefferlisten mit HitCollector festlegen
Mengenmäßige Beschränkung der Suchergebnisse mit TopDocs
Suchmaschinen als Client/Server-System konzipieren
Zusammenfassung
Aufbereitung der Suchergebnisse
„Entscheidend ist, was hinten rauskommt“
Ergebnisauswertung
Ergebnisbewertung
Ergebnispräsentation
Zusammenfassung
Nutzungsgrenzen und Ausblick
Wortstamm (Stemming)
Phonetische Suchen (Sounds like, Soundex-Algorithmen)
Assoziative Suchen/Synonymsuche
Reguläre Ausdrücke
Zusammenfassung
Anhang A: Interview mit Doug Cutting
Anhang B: Quellen
Autoren
Index
|
|
|