Konfigurationshandbuch
Vollständige Referenz für alle Duckling-Konfigurationsoptionen.
Umgebungsvariablen
Legen Sie eine .env-Datei im Verzeichnis backend an:
# Flask Configuration
FLASK_ENV=development # development | production | testing
SECRET_KEY=your-secret-key # Required for production
DEBUG=True # Enable debug mode
# File Handling
MAX_CONTENT_LENGTH=104857600 # Max upload size in bytes (100MB default)
# Database (optional - defaults to SQLite)
DATABASE_URL=sqlite:///history.db
Produktionsumgebung
FLASK_ENV=production
SECRET_KEY=your-very-secure-random-key-here
DEBUG=False
MAX_CONTENT_LENGTH=209715200 # 200MB for production
Sicherheitshinweis
Verwenden Sie in der Produktion niemals den Standard-SECRET_KEY. Erzeugen Sie einen sicheren Zufallsschlüssel.
OCR-Einstellungen
OCR (optische Zeichenerkennung) extrahiert Text aus Bildern und gescannten Dokumenten.
Konfigurationsoptionen
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
enabled | boolean | true | OCR ein-/ausschalten |
backend | string | "easyocr" | Zu verwendende OCR-Engine |
language | string | "en" | Hauptsprache für die Erkennung |
force_full_page_ocr | boolean | false | Ganze Seite per OCR vs. erkannte Bereiche |
use_gpu | boolean | false | GPU-Beschleunigung (nur EasyOCR) |
confidence_threshold | float | 0.5 | Mindest-Konfidenz der Ergebnisse (0–1) |
bitmap_area_threshold | float | 0.05 | Mindestflächenanteil für Bitmap-OCR (0–1) |
OCR-Engines
Gut für mehrsprachige Dokumente mit hohen Genauigkeitsanforderungen.
- GPU-Unterstützung: Ja (CUDA)
- Sprachen: 80+
- Hinweis: Auf manchen Systemen können Initialisierungsprobleme auftreten
Klassische, zuverlässige OCR-Engine für einfache Dokumente.
- GPU-Unterstützung: Nein
- Sprachen: 100+
- Voraussetzung: Tesseract systemweit installiert
Native macOS-OCR mit Apples Vision-Framework.
- GPU-Unterstützung: Nutzt die Apple Neural Engine
- Voraussetzung: macOS 10.15+
- Sprachcodes: Duckling akzeptiert Kurzcodes wie
en,de,frund normalisiert sie bei der Konvertierung zu Vision-Lokalisierungen (z. B.en-US).
Unterstützte Sprachen
| Code | Sprache | Code | Sprache |
|---|---|---|---|
en | Englisch | ja | Japanisch |
de | Deutsch | zh | Chinesisch (vereinfacht) |
fr | Französisch | zh-tw | Chinesisch (traditionell) |
es | Spanisch | ko | Koreanisch |
it | Italienisch | ar | Arabisch |
pt | Portugiesisch | hi | Hindi |
nl | Niederländisch | th | Thai |
pl | Polnisch | vi | Vietnamesisch |
ru | Russisch | tr | Türkisch |
Tabelleneinstellungen
Legen Sie fest, wie Tabellen in Dokumenten erkannt und extrahiert werden.
Konfigurationsoptionen
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
enabled | boolean | true | Tabellenerkennung aktivieren |
structure_extraction | boolean | true | Tabellenstruktur beibehalten |
mode | string | "accurate" | Erkennungsmodus |
do_cell_matching | boolean | true | Zellinhalt der Struktur zuordnen |
Erkennungsmodi
- Präzisere Tabellenerkennung
- Bessere Zellgrenzen
- Langsamere Verarbeitung
- Empfohlen für komplexe Tabellen
Bildeinstellungen
Bildextraktion und -verarbeitung konfigurieren.
Konfigurationsoptionen
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
extract | boolean | true | Eingebettete Bilder extrahieren |
classify | boolean | true | Bilder klassifizieren und taggen |
generate_page_images | boolean | false | Pro Seite ein Bild erzeugen |
generate_picture_images | boolean | true | Abbildungen als Dateien extrahieren |
generate_table_images | boolean | true | Tabellen als Bilder extrahieren |
images_scale | float | 1.0 | Skalierungsfaktor für Bilder (0,1–4,0) |
Beispielkonfigurationen
Leistungseinstellungen
Verarbeitungsgeschwindigkeit und Ressourcennutzung optimieren.
Konfigurationsoptionen
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
device | string | "auto" | Verarbeitungsgerät |
num_threads | int | 4 | CPU-Threads (1–32) |
document_timeout | int/null | null | Maximale Bearbeitungszeit in Sekunden |
Geräteoptionen
| Gerät | Beschreibung | Ideal für |
|---|---|---|
auto | Wählt automatisch das beste Gerät | Allgemeine Nutzung |
cpu | Erzwingt CPU-Verarbeitung | Server ohne GPU |
cuda | NVIDIA-GPU-Beschleunigung | Linux/Windows mit NVIDIA-GPU |
mps | Apple Metal Performance Shaders | macOS mit Apple Silicon |
Beispielkonfigurationen
Chunking-Einstellungen
Dokument-Chunking für RAG-Anwendungen konfigurieren.
Konfigurationsoptionen
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
enabled | boolean | false | Chunking aktivieren |
max_tokens | int | 512 | Maximale Token pro Segment |
merge_peers | boolean | true | Zu kleine Segmente zusammenführen |
Beispielkonfigurationen
Ausgabe-Einstellungen
Standard-Ausgabeformat festlegen.
| Einstellung | Typ | Standard | Beschreibung |
|---|---|---|---|
default_format | string | "markdown" | Standard-Exportformat |
Vollständiges Konfigurationsbeispiel
{
"ocr": {
"enabled": true,
"backend": "easyocr",
"language": "en",
"force_full_page_ocr": false,
"use_gpu": false,
"confidence_threshold": 0.5,
"bitmap_area_threshold": 0.05
},
"tables": {
"enabled": true,
"structure_extraction": true,
"mode": "accurate",
"do_cell_matching": true
},
"images": {
"extract": true,
"classify": true,
"generate_page_images": false,
"generate_picture_images": true,
"generate_table_images": true,
"images_scale": 1.0
},
"performance": {
"device": "auto",
"num_threads": 4,
"document_timeout": null
},
"chunking": {
"enabled": false,
"max_tokens": 512,
"merge_peers": true
},
"output": {
"default_format": "markdown"
}
}
Konfiguration über die API
Aktuelle Einstellungen abrufen
Einstellungen aktualisieren
curl -X PUT http://localhost:5001/api/settings \
-H "Content-Type: application/json" \
-d '{
"ocr": {"backend": "tesseract"},
"performance": {"num_threads": 8}
}'
Auf Standardwerte zurücksetzen
Fehlerbehebung
OCR funktioniert nicht
- EasyOCR-Initialisierungsfehler: Wechseln Sie zu
ocrmac(macOS) odertesseract - GPU-Fehler: Setzen Sie
use_gpu: false - Niedrige Konfidenz: Senken Sie
confidence_threshold
Langsame Verarbeitung
images_scaleauf0.5reduzieren- Für Tabellen
mode: "fast"verwenden generate_page_imagesdeaktivierennum_threadserhöhen
Speicherprobleme
document_timeoutaktivieren (z. B. 120 Sekunden)- Weniger Dateien pro Stapel verarbeiten
images_scalereduzieren- Chunking deaktivieren, falls nicht benötigt