Ich habe gerade ein Konkurrenz Programm am laufen, dass meine Dateien mal nach duplikaten durchsuchen soll.
Für ~13.000 Dateien rattert das Programm jetzt schon über 50min, wobei man erwähnen muss, dass das Programm die ID3-Tags von mp3-Titlen für die Bildung des Hashes außer acht lässt.
Für unser Programm müssen wir uns deshalb mal Gedanken über den Vergleichsalgorithmus machen. Wenn man jeden Hash mit allen anderen Verliebenden Prüfen würde, würde man ca (Anzahl)²/2 Durchläufe brauchen. Durch Sortierung nach Dateigröße lässt sich das natürlich deutlich reduzieren, erhöht aber den Verwaltungsaufwand.
Also hier besteht eindeutig noch verbesserrungs bedarf.
Vergleichsalgorithmus
- cloidnerux
- Moderator
- Beiträge: 3125
- Registriert: Fr Sep 26, 2008 4:37 pm
- Wohnort: Ram (Gibts wirklich)
Vergleichsalgorithmus
Redundanz macht wiederholen unnötig.
quod erat expectandum
quod erat expectandum
- Xin
- nur zu Besuch hier
- Beiträge: 8862
- Registriert: Fr Jul 04, 2008 11:10 pm
- Wohnort: /home/xin
- Kontaktdaten:
Re: Vergleichsalgorithmus
Das lasse ich mal so stehen, denn zum einen hast Du natürlich recht, zum anderen ist es aber auch ein Problem, dass innerhalb der Datenverwaltungs-Verwaltungsklasse gekapselt ist, die man nach einer Proof-Of-Concept-Implementierung natürlich auch noch mit einem Turbolader nachrüsten kann.
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.
Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.
Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.