Web Analytics Made Easy - Statcounter
Skip to content

Duckling

Une interface Web moderne et conviviale pour Docling - la puissante bibliothèque de conversion de documents d'IBM.

Capture d'écran Duckling

Aperçu

Duckling fournit une interface Web intuitive pour convertir des documents en utilisant la bibliothèque Docling d'IBM. Que vous ayez besoin d'extraire du texte depuis des PDF, de convertir des documents Word en Markdown ou d'effectuer de l'OCR sur des images numérisées, Duckling simplifie tout.

Fonctionnalités principales

  • TĂ©lĂ©versement par glisser-dĂ©poser


    Glissez simplement vos documents sur l'interface pour un traitement instantané

  • Traitement par lot


    Convertissez plusieurs fichiers simultanément avec traitement parallèle

  • Support multi-formats


    PDFs, documents Word, PowerPoints, fichiers Excel, HTML, Markdown, images et plus encore

  • Formats d'export multiples


    Exportez vers Markdown, HTML, JSON, DocTags, Document Tokens, RAG Chunks ou texte brut

  • Extraction d'images et tableaux


    Extrayez les images intégrées et les tableaux avec export CSV

  • Segmentation prĂŞte pour RAG


    Générez des segments de document optimisés pour les applications RAG

  • OCR avancĂ©


    Plusieurs backends OCR avec support d'accélération GPU

  • Historique des conversions


    Accédez aux documents précédemment convertis à tout moment

  • Statistiques de conversion


    Panneau d'analytique avec débit, utilisation du stockage et métriques de performance

Démarrage rapide

Démarrez en quelques minutes :

Démarrage en une commande avec images pré-construites :

curl -O https://raw.githubusercontent.com/davidgs/duckling/main/docker-compose.prebuilt.yml && docker-compose -f docker-compose.prebuilt.yml up -d

Ou construisez localement :

git clone https://github.com/davidgs/duckling.git
cd duckling
docker-compose up --build

# Cloner le dépôt
git clone https://github.com/davidgs/duckling.git
cd duckling

# Configuration du backend
cd backend
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python duckling.py

# Configuration du frontend (nouveau terminal)
cd frontend
npm install
npm run dev

Accédez à l'application sur http://localhost:3000

Formats pris en charge

Formats d'entrée

Format Extensions Description
PDF .pdf Format de document portable
Word .docx Documents Microsoft Word
PowerPoint .pptx Présentations Microsoft PowerPoint
Excel .xlsx Classeurs Microsoft Excel
HTML .html, .htm Pages Web
Markdown .md, .markdown Fichiers Markdown
Images .png, .jpg, .jpeg, .tiff, .gif, .webp, .bmp OCR direct sur images
AsciiDoc .asciidoc, .adoc Documentation technique
PubMed XML .xml Articles scientifiques
USPTO XML .xml Documents de brevets

Formats d'export

Format Extension Description
Markdown .md Texte formaté avec en-têtes, listes, liens
HTML .html Format prĂŞt pour le Web avec styles
JSON .json Structure complète du document
Texte brut .txt Texte simple sans formatage
DocTags .doctags Format de document balisé
Document Tokens .tokens.json Représentation au niveau des tokens
RAG Chunks .chunks.json Segments pour applications RAG

Architecture

graph LR
    A[Navigateur] --> B[Frontend React]
    B --> C[Backend Flask]
    C --> D[Moteur Docling]
    D --> E[(Stockage)]

    style A fill:#3b82f6,color:#fff
    style B fill:#1e3a5f,color:#fff
    style C fill:#14b8a6,color:#fff
    style D fill:#8b5cf6,color:#fff
    style E fill:#f59e0b,color:#fff

Documentation

Remerciements- Docling par IBM pour le puissant moteur de conversion de documents