Duckling
Eine moderne, benutzerfreundliche Web-Oberfläche für Docling (IBM) – eine leistungsstarke Bibliothek zur Dokumentkonvertierung.

Überblick
Duckling bietet eine intuitive Web-Oberfläche, um Dokumente mit Docling zu konvertieren. Ob du Text aus PDFs extrahieren, Word-Dokumente nach Markdown konvertieren oder OCR für gescannte Bilder nutzen möchtest: Duckling macht es einfach.
Hauptfunktionen
-
Ziehen Sie Ihre Dokumente einfach auf die Oberfläche für sofortige Verarbeitung
-
Konvertieren Sie mehrere Dateien gleichzeitig mit paralleler Verarbeitung
-
PDFs, Word-Dokumente, PowerPoints, Excel-Dateien, HTML, Markdown, Bilder und mehr
-
Exportieren Sie nach Markdown, HTML, JSON, DocTags, Document Tokens, RAG Chunks oder Klartext
-
Extrahieren Sie eingebettete Bilder und Tabellen mit CSV-Export
-
Generieren Sie Dokument-Segmente, die für RAG-Anwendungen optimiert sind
-
Mehrere OCR-Backends mit GPU-Beschleunigungsunterstützung
-
Greifen Sie jederzeit auf zuvor konvertierte Dokumente zu
-
Analyse-Panel mit Durchsatz, Speichernutzung und Leistungsmetriken
Schnellstart
Siehe Erste Schritte, um Duckling mit Docker oder in der lokalen Entwicklung zu installieren und auszuführen. Eine kompakte Anleitung steht im Schnellstart.
Unterstützte Formate
Eingabeformate
| Format | Erweiterungen | Beschreibung |
|---|---|---|
.pdf | Portable Document Format | |
| Word | .docx | Microsoft Word-Dokumente |
| PowerPoint | .pptx | Microsoft PowerPoint-Präsentationen |
| Excel | .xlsx | Microsoft Excel-Tabellenkalkulationen |
| HTML | .html, .htm | Webseiten |
| Markdown | .md, .markdown | Markdown-Dateien |
| Bilder | .png, .jpg, .jpeg, .tiff, .gif, .webp, .bmp | Direkte Bild-OCR |
| AsciiDoc | .asciidoc, .adoc | Technische Dokumentation |
| PubMed XML | .xml | Wissenschaftliche Artikel |
| USPTO XML | .xml | Patentdokumente |
Exportformate
| Format | Erweiterung | Beschreibung |
|---|---|---|
| Markdown | .md | Formatierter Text mit Überschriften, Listen, Links |
| HTML | .html | Web-fertiges Format mit Styling |
| JSON | .json | Vollständige Dokumentstruktur |
| Klartext | .txt | Einfacher Text ohne Formatierung |
| DocTags | .doctags | Markiertes Dokumentformat |
| Document Tokens | .tokens.json | Token-Ebene-Darstellung |
| RAG Chunks | .chunks.json | Chunks für RAG-Anwendungen |
Architektur
graph LR
A[Browser] --> B[React-Frontend]
B --> C[Flask-Backend]
C --> D[Docling-Engine]
D --> E[(Speicher)]
style A fill:#3b82f6,color:#fff
style B fill:#1e3a5f,color:#fff
style C fill:#14b8a6,color:#fff
style D fill:#8b5cf6,color:#fff
style E fill:#f59e0b,color:#fff Dokumentation
- Erste Schritte - Installations- und Schnellstartanleitung
- Benutzerhandbuch - Funktionen und Konfigurationsoptionen
- Docling-Dokumentation - Ausgewählte upstream-Dokumentation zu Docling
- API-Referenz - Vollständige API-Dokumentation
- Architektur - Systemdesign und Komponenten
- Bereitstellung - Produktionsbereitstellungsanleitung
- Mitwirken - Wie man beiträgt
Danksagungen
- Docling von IBM für die leistungsstarke Dokumentkonvertierungs-Engine
- React für das Frontend-Framework
- Flask für das Backend-Framework
- Tailwind CSS für das Styling
- Framer Motion für Animationen