Formatos admitidos
Referencia completa de los formatos de entrada y salida que admite Duckling.
Formatos de entrada
Documentos
| Formato | Extensiones | Descripci贸n | Notas |
|---|---|---|---|
.pdf | Portable Document Format | Soporte completo, incluidos PDF escaneados con OCR | |
| Word | .docx | Microsoft Word | Solo formato moderno (no .doc) |
| PowerPoint | .pptx | Microsoft PowerPoint | Extrae texto e im谩genes de las diapositivas |
| Excel | .xlsx | Microsoft Excel | Extrae tablas y datos |
| HTML | .html, .htm | P谩ginas web | Conserva estructura y formato |
| Markdown | .md, .markdown | Archivos Markdown | Soporte completo de CommonMark |
Im谩genes
| Formato | Extensiones | Descripci贸n | Notas |
|---|---|---|---|
| PNG | .png | Portable Network Graphics | Ideal para capturas y diagramas |
| JPEG | .jpg, .jpeg | Joint Photographic Experts Group | Ideal para fotos |
| TIFF | .tiff, .tif | Tagged Image File Format | Soporte multip谩gina |
| GIF | .gif | Graphics Interchange Format | Solo el primer fotograma |
| WebP | .webp | Web Picture format | Formato web moderno |
| BMP | .bmp | Bitmap | Im谩genes sin comprimir |
Documentos t茅cnicos
| Formato | Extensiones | Descripci贸n | Notas |
|---|---|---|---|
| AsciiDoc | .asciidoc, .adoc | Documentaci贸n t茅cnica | Sintaxis AsciiDoc completa |
| PubMed XML | .xml | Art铆culos cient铆ficos | Formato PubMed Central |
| USPTO XML | .xml | Patentes | Formato de patentes de EE. UU. |
Formatos de salida
Formatos de texto
Markdown (.md)
Lo mejor para documentaci贸n y contenido que necesita formato.
# T铆tulo del documento
## Secci贸n 1
Este es un p谩rrafo con texto en **negrita** y en *cursiva*.
- Elemento de lista 1
- Elemento de lista 2
| Columna 1 | Columna 2 |
|-----------|-----------|
| Dato 1 | Dato 2 |
HTML (.html)
Formato listo para la web con estilos conservados.
<h1>T铆tulo del documento</h1>
<h2>Secci贸n 1</h2>
<p>Este es un p谩rrafo con texto en <strong>negrita</strong> y en <em>cursiva</em>.</p>
Texto plano (.txt)
Texto simple sin formato.
Formatos estructurados
JSON (.json)
Estructura completa del documento en JSON. Representaci贸n sin p茅rdida.
{
"title": "T铆tulo del documento",
"sections": [
{
"heading": "Secci贸n 1",
"level": 2,
"content": [
{
"type": "paragraph",
"text": "Este es un p谩rrafo..."
}
]
}
]
}
DocTags (.doctags)
Formato de documento etiquetado para an谩lisis sem谩ntico.
<document>
<title>T铆tulo del documento</title>
<section level="2">
<heading>Secci贸n 1</heading>
<paragraph>Este es un p谩rrafo...</paragraph>
</section>
</document>
Document Tokens (.tokens.json)
Representaci贸n a nivel de tokens para aplicaciones de PLN.
{
"tokens": [
{"text": "Documento", "type": "word", "position": 0},
{"text": "T铆tulo", "type": "word", "position": 1}
]
}
Formatos RAG
RAG Chunks (.chunks.json)
Fragmentos de documento optimizados para generaci贸n aumentada por recuperaci贸n (RAG).
{
"chunks": [
{
"id": 1,
"text": "Este es el primer fragmento de texto...",
"meta": {
"headings": ["Secci贸n 1"],
"page": 1,
"token_count": 128
}
}
]
}
Gu铆a de selecci贸n de formato
| Caso de uso | Formato recomendado |
|---|---|
| Documentaci贸n | Markdown |
| Publicaci贸n web | HTML |
| Procesamiento de datos | JSON |
| Indexaci贸n de b煤squeda | Texto plano |
| Pipelines de PLN / ML | Document Tokens |
| Aplicaciones RAG | RAG Chunks |
| An谩lisis sem谩ntico | DocTags |
Par谩metro de formato de la API
Al usar la API, indique el formato en el punto final de exportaci贸n:
# Descargar como Markdown
curl http://localhost:5001/api/export/{job_id}/markdown
# Descargar como JSON
curl http://localhost:5001/api/export/{job_id}/json
# Descargar como HTML
curl http://localhost:5001/api/export/{job_id}/html
Tipos MIME
| Formato | Tipo MIME |
|---|---|
| Markdown | text/markdown |
| HTML | text/html |
| JSON | application/json |
| Texto plano | text/plain |
| DocTags | application/xml |