Duckling
Una interfaz gr谩fica moderna y f谩cil de usar para Docling - la potente biblioteca de conversi贸n de documentos de IBM.

Resumen
Duckling proporciona una interfaz web intuitiva para convertir documentos usando la biblioteca Docling de IBM. Ya sea que necesites extraer texto de PDFs, convertir documentos Word a Markdown o realizar OCR en im谩genes escaneadas, Duckling lo hace sencillo.
Caracter铆sticas principales
-
Carga por arrastrar y soltar
Simplemente arrastra tus documentos a la interfaz para procesamiento instant谩neo
-
Procesamiento por lotes
Convierte m煤ltiples archivos a la vez con procesamiento paralelo
-
Soporte multi-formato
PDFs, documentos Word, PowerPoints, archivos Excel, HTML, Markdown, im谩genes y m谩s
-
M煤ltiples formatos de exportaci贸n
Exporta a Markdown, HTML, JSON, DocTags, Document Tokens, RAG Chunks o texto plano
-
Extracci贸n de im谩genes y tablas
Extrae im谩genes y tablas incrustadas con exportaci贸n CSV
-
Fragmentaci贸n lista para RAG
Genera fragmentos de documentos optimizados para aplicaciones RAG
-
OCR avanzado
M煤ltiples backends OCR con soporte de aceleraci贸n GPU
-
Historial de conversiones
Accede a documentos previamente convertidos en cualquier momento
-
Estad铆sticas de conversi贸n
Panel de an谩lisis con rendimiento, uso de almacenamiento y m茅tricas de rendimiento
Inicio r谩pido
Comienza en minutos:
Inicio con un comando usando im谩genes preconstruidas:
curl -O https://raw.githubusercontent.com/davidgs/duckling/main/docker-compose.prebuilt.yml && docker-compose -f docker-compose.prebuilt.yml up -d
O construir localmente:
# Clonar el repositorio
git clone https://github.com/davidgs/duckling.git
cd duckling
# Configuraci贸n del backend
cd backend
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python duckling.py
# Configuraci贸n del frontend (nueva terminal)
cd frontend
npm install
npm run dev
Accede a la aplicaci贸n en http://localhost:3000
Formatos soportados
Formatos de entrada
| Formato | Extensiones | Descripci贸n |
|---|---|---|
.pdf | Formato de documento port谩til | |
| Word | .docx | Documentos de Microsoft Word |
| PowerPoint | .pptx | Presentaciones de Microsoft PowerPoint |
| Excel | .xlsx | Hojas de c谩lculo de Microsoft Excel |
| HTML | .html, .htm | P谩ginas web |
| Markdown | .md, .markdown | Archivos Markdown |
| Im谩genes | .png, .jpg, .jpeg, .tiff, .gif, .webp, .bmp | OCR directo de im谩genes |
| AsciiDoc | .asciidoc, .adoc | Documentaci贸n t茅cnica |
| PubMed XML | .xml | Art铆culos cient铆ficos |
| USPTO XML | .xml | Documentos de patentes |
Formatos de exportaci贸n
| Formato | Extensi贸n | Descripci贸n |
|---|---|---|
| Markdown | .md | Texto formateado con encabezados, listas, enlaces |
| HTML | .html | Formato listo para web con estilos |
| JSON | .json | Estructura completa del documento |
| Texto plano | .txt | Texto simple sin formato |
| DocTags | .doctags | Formato de documento etiquetado |
| Document Tokens | .tokens.json | Representaci贸n a nivel de tokens |
| RAG Chunks | .chunks.json | Fragmentos para aplicaciones RAG |
Arquitectura
graph LR
A[Browser] --> B[React Frontend]
B --> C[Flask Backend]
C --> D[Docling Engine]
D --> E[(Storage)]
style A fill:#3b82f6,color:#fff
style B fill:#1e3a5f,color:#fff
style C fill:#14b8a6,color:#fff
style D fill:#8b5cf6,color:#fff
style E fill:#f59e0b,color:#fff Documentaci贸n
- Primeros pasos - Gu铆a de instalaci贸n e inicio r谩pido
- Gu铆a del usuario - Caracter铆sticas y opciones de configuraci贸n
- Documentaci贸n Docling - Documentaci贸n curada de Docling
- Referencia API - Documentaci贸n completa de la API
- Arquitectura - Dise帽o del sistema y componentes
- Despliegue - Gu铆a de despliegue en producci贸n
- Contribuir - C贸mo contribuir
Agradecimientos
- Docling de IBM por el potente motor de conversi贸n de documentos
- React por el framework frontend
- Flask por el framework backend
- Tailwind CSS por el estilo
- Framer Motion por las animaciones