View Single Post
Old 01-11-2010, 06:32 PM   #13
Moredread
Addict
Moredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-books
 
Posts: 202
Karma: 754
Join Date: Nov 2009
Device: Trekstore Pyrus
Quote:
Originally Posted by rasch View Post
Hallo Leute,
ich möchte euch nicht frustrieren aber ich denke das man zu der Zeit in der z.B. ein 200 Mhz mmx gewerkelt haben die Festplatten gerade mal 2 GB hatten. Die Datenmengen die man damals durchsucht / indiziert hat waren sicher auch groß, aber es waren sicher nicht gleich Bibliothekenweise.
Ich hatte damals eine 20 GB Festplatte auf einem 133 MHZ Rechner. Um alle Bücher zu durchsuchen, muss ich nicht ein einziges dieser Bücher öffnen. Eben dazu gibt es ja einen Suchindex, der nur ein Bruchteil der Bücher groß ist. Derzeit habe ich ca. 50 GB Text (ein Teil davon sind Foren, die mittlerweile offline sind) und die lassen sich unter einer Sekunde durchsuchen (mittels Copernic Desktop Search). Wo sollte da das Problem sein? Indizierung beherrscht bspw. Windows ja schon aus dem FF. Hatte ich ja auch schon geschrieben.



Quote:
Originally Posted by rasch View Post
So mal auf die schnelle 2 GB ins RAM kippen ( Der Bus fährt auf den Embedded Kisten nicht so schnell und 512 Bit is er sicher auch nicht breit ) oder permanent da drin halten ist mit der momentanen eBook Reader HW auch nicht wirklich drin.
Das wäre ja auch völlig unnötig. Wie gesagt, der Index ist kleiner - und er muss zur Suche nicht einmal komplett geladen werden.



Quote:
Originally Posted by rasch View Post
Es wäre sicher schön, aber der Charme dieser Hardware liegt sicher nicht in der Fähigkeit sich wie ein großer Server zu verhalten.
( wäre doch schade wenn man da noch ein AKW und Klimaanlage für die Abwärme betreiben müsste )
Die Stärken eines Index liegen eben darin, das nicht sämtliche Bücher durchsucht werden müssen, sondern lediglich ein entsprechend strukturierter Index, der dann auch wieder nur teilweise durchsucht werden muss. Ein Index ist eine Art Abkürzung für eine Suchfunktion.



Quote:
Originally Posted by rasch View Post
Für machbarer halte ich da, das man außerhalb Index Dateien mit (z.B. fachlich) Interessanten Wörtern vorbereitet. So bekommt dann jedes (von außen) durchsuchbare Dokument eine von der Größe überschaubare/händelbare Indexdatei mit.
( das wäre dann aber erstmal eine proprietärer Sache (evtl. ergänzend zu den bestehenden Formaten) )
So etwas aufzubauen erfordert aber erstmal ziemlich viel Eigenarbeit.
Für den Eigenbedarf viel Aufwand, aber für ne Comunity durchaus denkbar
Eine Software, die das bei Textdateien schafft, kann ich an einem Wochenende programmieren. Sie würde Indexdateien vollautomatisiert erstellen. Allerdings wirft dieser Ansatz eine Menge Probleme auf, bspw. bei der Suche nach Wortteilen oder Satzfragmenten. Gut möglich, das ich etwas ähnliches im ersten Anlauf mache. Mein Indexsystem ist allerdings wesentlich komplexer - und hat den Vorteil, das es sich nicht so schnell aus der Ruhe bringen lässt wie ein Index, der für jedes Buch eine eigene Datei durchsuchen muss. Das ist aber einer bestimmten Anzahl Bücher nicht mehr tragbar, da alleine das öffnen der Indexdateien irrsinnig viel Zeit verschlingen würde.

Zerbrich Dir nicht den Kopf darüber, wie so ein Algorithmus funktioniert (es sei denn, Du willst einen programmieren ). Das Ding habe ich auch nicht an einem Tag erfunden. Wenn man einmal dahintergekommen ist, kann man es aber ziemlich leicht realisieren.



Quote:
Originally Posted by rasch View Post
Wenn Du das was Du nicht suchst auch nicht ( seitenweise ) wegscrollen/blättern musst bist Du auch schneller bei den Infos die Du suchst. ( Wenn sie denn dabei sind )
Um den Problem zu entgehen, das ein Wort überall vorkommt (beispielsweise: der, die, das, ich, du, er, sie, es usw. usw.) gibt es verschiedene Lösungsansätze. Entweder werden solche Wörter durch einen Filter aussortiert (natürlich automatisch, ohne, das man diese Worte alle in einen Filter eingeben muss, Sprache besteht nämlich zu einem sehr großen Teil nur aus nutzlosen Füllwörtern, jedenfalls aus Sicht eines Programms, das Sprache irgendwie analysieren muss). Oder aber man strukturiert den Index von vorneherein so, das dieses Problem gar nicht erst auftreten kann. Was ich genau machen werde, hängt von der Leistung der Hardware ab - und welches System einerseits eine akzeptable Performance erreicht und andererseits in einem akzeptablen Zeitrahmen bleibt.
Moredread is offline   Reply With Quote