ERGOBOOK AUDIT 001

Quelle: 2_ergo.zip
Dateien: 1277
Gesamtgröße: 395.31 MB

Hauptbefund:
- 887 TXT-Dateien
- 363 PDF-Dateien
- 20 JPG-Dateien
- 2 DOCX-Dateien

Dubletten:
- Exakte Dateidubletten-Gruppen: 3
- Dateien in exakten Dublettengruppen: 6
- Exakte Textdubletten-Gruppen: 0
- Nahe Textdublette-Paare, Stichprobe: 38

Quellenstandard:
Jede Datei erhält eine stabile ID ERGO-0001 usw.
Kurzzitat: ERGO-0001 · pfad/datei.ext
Vollzitat: Dateiname. (Datum falls ableitbar, sonst o. J.). Pfad [GREMMATIK-Ergobuch-Archiv, ERGO-0001].

Nächster Schritt:
1. PDF-Text extrahieren, soweit technisch möglich.
2. Alle Quellen in Kapitelcluster ziehen.
3. Dubletten entfernen oder als Varianten markieren.
4. Ergobuch-Kapitelstruktur erzeugen.
5. Website-Wolke um Quellenzeile rechts unten ergänzen.
