Datei double finder.dart: Unterschied zwischen den Versionen

Aus Info-Theke
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „= Links = * Projekt ddouble = Zielsetzung = Hier werden nur Besonderheiten der Datei double_finder.dart besprochen. Viele Teile dieser Datei sind ähnlic…“)
 
Zeile 35: Zeile 35:
Diese Methode erledigt den Kern des Programms.
Diese Methode erledigt den Kern des Programms.


<pre>/// Finds the duplicates in a list of [filePatterns].
<pre>/// Finds the duplicates in a list of [filePatterns] respecting [fileOptions].
void find(List<String> filePatterns, FileOptions fileOptions) {
void find(List<String> filePatterns, FileOptions fileOptions) {
   fileOptions.yieldDirectory =
   fileOptions.yieldDirectory =
Zeile 122: Zeile 122:
   }
   }
}
}
</pre>
</pre>
fileOptions.yieldDirectory =
fileOptions.yieldDirectory =
* <code>fileOptions.yieldLinkToDirectory = fileOptions.yieldLinkToFile = false;</code> Der Filenamensgenerator soll nur die Namen von reguläre Dateien liefern (keine Verzeichnisnamen, keine Links).
* <code>fileOptions.yieldLinkToDirectory = fileOptions.yieldLinkToFile = false;</code> Der Filenamensgenerator soll nur die Namen von reguläre Dateien liefern (keine Verzeichnisnamen, keine Links).
* <code>final toRemove = <FileInfo>[];</code>
* <code>final toRemove = <FileInfo>[];</code> In dieser Liste merken wir uns die Einträge, die gelöscht werden müssen. Erklärung weiter unten.
* <code>for (var filename in supplier.next())</code> Die zentrale Schleife über alle Dateien der gewünschten Verzeichnisse.
* <code>final file = supplier.currentEntity as File;</code>
** Wir brauchen mehr Infos über die Datei als den Dateinamen. Diese Info ist in der Klassenvariblen <code>supplier.currentEntity</code> vorhanden.
** Diese Variable hat aber den Typ <code>FileSystemEntitity</code>, einer Oberklasse von Typ <code>File</code>. Wir haben den Generator FileSupplier() aber so konfiguriert, dass nur Dateien geliefert werden können, daher muss <code>supplier.currentEntity</code> vom Typ <code>File</code> sein.
** Daher können wir den Typ konvertieren mit <code>as Type</code>.
* <code>final size = file.lengthSync();</code> Die Variable <code>file</code> hat durch die obige Konvertierung den Typ <code>File</code> und mit <code>file.lengthSync()</code> können wir auf die Dateigröße zugreifen, was beim Typ <code>FileSystemEntitiy</code> nicht möglich ist.
* <code>var newEntry = FileInfo(filename, size);</code> Wir erstellen eine Info der Datei. Wir können nicht '''final''' verwenden, da in bestimmten Fällen <code>newEntry</code> auf <code>null</code> gesetzt wird.
* <code>if (!processedFiles.containsKey(size))</code> Die Klassenvariablen <code>processedFiles</code> ist eine <code>Map</code> mit einem Eintrag für jede schon gefundene Dateilänge. Der Wert des Schlüssel-Werte-Paares ist eine Liste der Infos über die Dateien mit dieser Länge. Wir prüfen also, ob es schon Dateien mit der Länge der aktuellen Datei gibt, genauer (wegen des <code>!</code> (not)), ob es keinen Eintrag gibt.
* <code>processedFiles[size] = [newEntry];</code> Kein Eintrag, dann erzeugen wir einen...
* <code>continue</code> ... und sind für diesen Schleifendurchgang fertig, da es nichts zu vergleichen gibt.
* Der weitere Code wird nur durchlaufen, wenn es schon Dateien mit dieser Länge gibt.
* <code>for (var processedFile in processedFiles[size])</code> Diese Schleife iteriert über alle schon gefundenen Dateien mit der Dateilänge der zu testenden Datei.
* <code>processedFile.hashStart ??= calcHash(file, calculateStartBlock: true);</code>
** Der Operator <code>??=</code> bewirkt, dass getestet wird, ob <code>processedFile</code> <code>null</code> ist. Wenn ja (und nur dann) wird der Hashwert berechnet und der Variablen zugewiesen.
* <code>if (processedFile.hashStart == null)</code> Ist der Wert trotz obiger Zeile noch <code>null</code>, ist ein Fehler in <code>calcHash()</code> aufgetreten. In diesem Fall kann also die Prüfsumme nicht berechnet werden. Da dieser Fehler bei erneutem Test (wenn noch eine Datei mit dieser Länge auftaucht) wieder auftreten könnte, entfernen wird den Eintrag aus der Liste, damit das nicht nochmal passiert:
* <code>toRemove.add(processedFile);</code> Wir dürfen nicht sofort löschen, da die Liste in einer <code>for</code>-Schleife verwendet wird, daher merken wir den Eintrag in der extra dafür vorgesehenen Liste <code>toRemove</code> ...
* <code>continue</code> ... und sind für diesen Schleifendurchlauf fertig
* <code>newEntry.hashStart ??= calcHash(file, calculateStartBlock: true);</code> Wenn <code>newEntry.hashStart</code> noch null ist, wird die Prüfsumme berechnet.
* <code>if (newEntry.hashStart == null)</code> Ist das Berechnen missglückt?
* <code>newEntry = null;</code> Fehler merken...
* <code>break;</code> ... und Schleife abbrechen
* <code>if (processedFile.hashStart == newEntry.hashStart)</code> Sind die Prüfsummen für den ersten Block gleich?
* <code>rocessedFile.hashFull ??= calcHash(File(processedFile.name), calculateStartBlock: false);</code> Wenn noch nicht berechnet, dann berechne die Prüfsumme der Gesamtdatei.
* <code>newEntry.hashFull ??= calcHash(file, calculateStartBlock: false);</code> Berechnet die Prüfsumme, wenn noch nicht erledigt.
* <code>for (var processedFile in toRemove)</code> Über alle Einträge der "zu-löschen-Liste":
* <code>processedFiles[size].remove(processedFile);</code> Eintrag löschen.
* <code>if (newEntry != null)</code> Wenn oben kein Fehler war..
* <code>processedFiles[size].add(newEntry);</code> Die Daten der aktuellen Datei für diese Dateigröße merken.

Version vom 28. Januar 2021, 19:04 Uhr

Links

Zielsetzung

Hier werden nur Besonderheiten der Datei double_finder.dart besprochen.

Viele Teile dieser Datei sind ähnlich wie [Datei search_engine.dart], z. B. das Festlegen der Optionen.

Die Klasse SearchEngine

Die Klasse implementiert ("realisiert") die Suche nach Duplikaten.

Die Attribute

Zuerst werden die Attribute definiert:

class DoubleFinder {
  static bool storeResult = false;
  final startTime = DateTime.now();
  Map<int, List<FileInfo>> processedFiles = {};
  final int verboseLevel;
  final startLength;
  final blockSize;
  int startBlockCount = 0;
  int fullBlockCounts = 0;
  int fullBlockFiles = 0;
  int doubles = 0;
  final lines = <String>[];
  var hashBuilder = md5;

Der Konstruktor

DoubleFinder({this.verboseLevel, this.blockSize, this.startLength});
  • Keine Besonderheiten.

Die Methode find()

Diese Methode erledigt den Kern des Programms.

/// Finds the duplicates in a list of [filePatterns] respecting [fileOptions].
void find(List<String> filePatterns, FileOptions fileOptions) {
  fileOptions.yieldDirectory =
      fileOptions.yieldLinkToDirectory = fileOptions.yieldLinkToFile = false;
  fileOptions.recursive = true;
  final supplier = FileSupplier(
      fileOptions: fileOptions,
      filePatterns: filePatterns,
      verboseLevel: verboseLevel);
  final toRemove = <FileInfo>[];
  for (var filename in supplier.next()) {
    final file = supplier.currentEntity as File;
    final size = file.lengthSync();
    if (size == 0){
      continue;
    }
    var newEntry = FileInfo(filename, size);
    if (!processedFiles.containsKey(size)) {
      if (verboseLevel >= 4) {
        print('= new size $size');
      }
      processedFiles[size] = [newEntry];
      continue;
    }
    for (var processedFile in processedFiles[size]) {
      processedFile.hashStart ??= calcHash(file, calculateStartBlock: true);
      if (processedFile.hashStart == null) {
        toRemove.add(processedFile);
        continue;
      }
      newEntry.hashStart ??= calcHash(file, calculateStartBlock: true);
      if (newEntry.hashStart == null) {
        newEntry = null;
        break;
      }
      if (processedFile.hashStart == newEntry.hashStart) {
        if (verboseLevel >= 4) {
          print('= start block is the same: $filename ${processedFile.name}');
        }
        processedFile.hashFull ??=
            calcHash(File(processedFile.name), calculateStartBlock: false);
        if (processedFile.hashFull == null) {
          toRemove.add(processedFile);
          continue;
        }
        newEntry.hashFull ??= calcHash(file, calculateStartBlock: false);
        if (newEntry.hashFull == null) {
          newEntry = null;
          break;
        }
        if (processedFile.hashFull == newEntry.hashFull) {
          doubles++;
          final line = '${newEntry.name} = ${processedFile.name} size: $size';
          if (verboseLevel >= 2) {
            if (storeResult) {
              lines.add(line);
            } else {
              print(line);
            }
          }
          // we search only one duplicate.
          break;
        }
      }
    }
    for (var processedFile in toRemove) {
      processedFiles[size].remove(processedFile);
    }
    toRemove.clear();
    if (newEntry != null) {
      processedFiles[size].add(newEntry);
    }
  }
  if (verboseLevel >= 1) {
    print('= duplicates: $doubles start blocks: $startBlockCount full blocks: $fullBlockFiles files with $fullBlockCounts blocks');
    print(supplier.summary.join('\n'));
    final diff = DateTime.now().difference(startTime);
    final milliSeconds =
        (diff.inMilliseconds % 1000).toString().padLeft(3, '0');
    print(
        '= runtime: ${diff.inHours}h${diff.inMinutes % 60}m${diff.inSeconds % 60}.$milliSeconds');
  }
  if (!DoubleFinder.storeResult) {
    // Exit at once: release resources faster.
    exit(0);
  }
}

fileOptions.yieldDirectory =

  • fileOptions.yieldLinkToDirectory = fileOptions.yieldLinkToFile = false; Der Filenamensgenerator soll nur die Namen von reguläre Dateien liefern (keine Verzeichnisnamen, keine Links).
  • final toRemove = <FileInfo>[]; In dieser Liste merken wir uns die Einträge, die gelöscht werden müssen. Erklärung weiter unten.
  • for (var filename in supplier.next()) Die zentrale Schleife über alle Dateien der gewünschten Verzeichnisse.
  • final file = supplier.currentEntity as File;
    • Wir brauchen mehr Infos über die Datei als den Dateinamen. Diese Info ist in der Klassenvariblen supplier.currentEntity vorhanden.
    • Diese Variable hat aber den Typ FileSystemEntitity, einer Oberklasse von Typ File. Wir haben den Generator FileSupplier() aber so konfiguriert, dass nur Dateien geliefert werden können, daher muss supplier.currentEntity vom Typ File sein.
    • Daher können wir den Typ konvertieren mit as Type.
  • final size = file.lengthSync(); Die Variable file hat durch die obige Konvertierung den Typ File und mit file.lengthSync() können wir auf die Dateigröße zugreifen, was beim Typ FileSystemEntitiy nicht möglich ist.
  • var newEntry = FileInfo(filename, size); Wir erstellen eine Info der Datei. Wir können nicht final verwenden, da in bestimmten Fällen newEntry auf null gesetzt wird.
  • if (!processedFiles.containsKey(size)) Die Klassenvariablen processedFiles ist eine Map mit einem Eintrag für jede schon gefundene Dateilänge. Der Wert des Schlüssel-Werte-Paares ist eine Liste der Infos über die Dateien mit dieser Länge. Wir prüfen also, ob es schon Dateien mit der Länge der aktuellen Datei gibt, genauer (wegen des ! (not)), ob es keinen Eintrag gibt.
  • processedFiles[size] = [newEntry]; Kein Eintrag, dann erzeugen wir einen...
  • continue ... und sind für diesen Schleifendurchgang fertig, da es nichts zu vergleichen gibt.
  • Der weitere Code wird nur durchlaufen, wenn es schon Dateien mit dieser Länge gibt.
  • for (var processedFile in processedFiles[size]) Diese Schleife iteriert über alle schon gefundenen Dateien mit der Dateilänge der zu testenden Datei.
  • processedFile.hashStart ??= calcHash(file, calculateStartBlock: true);
    • Der Operator ??= bewirkt, dass getestet wird, ob processedFile null ist. Wenn ja (und nur dann) wird der Hashwert berechnet und der Variablen zugewiesen.
  • if (processedFile.hashStart == null) Ist der Wert trotz obiger Zeile noch null, ist ein Fehler in calcHash() aufgetreten. In diesem Fall kann also die Prüfsumme nicht berechnet werden. Da dieser Fehler bei erneutem Test (wenn noch eine Datei mit dieser Länge auftaucht) wieder auftreten könnte, entfernen wird den Eintrag aus der Liste, damit das nicht nochmal passiert:
  • toRemove.add(processedFile); Wir dürfen nicht sofort löschen, da die Liste in einer for-Schleife verwendet wird, daher merken wir den Eintrag in der extra dafür vorgesehenen Liste toRemove ...
  • continue ... und sind für diesen Schleifendurchlauf fertig
  • newEntry.hashStart ??= calcHash(file, calculateStartBlock: true); Wenn newEntry.hashStart noch null ist, wird die Prüfsumme berechnet.
  • if (newEntry.hashStart == null) Ist das Berechnen missglückt?
  • newEntry = null; Fehler merken...
  • break; ... und Schleife abbrechen
  • if (processedFile.hashStart == newEntry.hashStart) Sind die Prüfsummen für den ersten Block gleich?
  • rocessedFile.hashFull ??= calcHash(File(processedFile.name), calculateStartBlock: false); Wenn noch nicht berechnet, dann berechne die Prüfsumme der Gesamtdatei.
  • newEntry.hashFull ??= calcHash(file, calculateStartBlock: false); Berechnet die Prüfsumme, wenn noch nicht erledigt.
  • for (var processedFile in toRemove) Über alle Einträge der "zu-löschen-Liste":
  • processedFiles[size].remove(processedFile); Eintrag löschen.
  • if (newEntry != null) Wenn oben kein Fehler war..
  • processedFiles[size].add(newEntry); Die Daten der aktuellen Datei für diese Dateigröße merken.