Web Analytics Made Easy - Statcounter
Skip to content

Formatos admitidos

Referencia completa de los formatos de entrada y salida que admite Duckling.

Formatos de entrada

Documentos

Formato Extensiones Descripci贸n Notas
PDF .pdf Portable Document Format Soporte completo, incluidos PDF escaneados con OCR
Word .docx Microsoft Word Solo formato moderno (no .doc)
PowerPoint .pptx Microsoft PowerPoint Extrae texto e im谩genes de las diapositivas
Excel .xlsx Microsoft Excel Extrae tablas y datos
HTML .html, .htm P谩ginas web Conserva estructura y formato
Markdown .md, .markdown Archivos Markdown Soporte completo de CommonMark

Im谩genes

Formato Extensiones Descripci贸n Notas
PNG .png Portable Network Graphics Ideal para capturas y diagramas
JPEG .jpg, .jpeg Joint Photographic Experts Group Ideal para fotos
TIFF .tiff, .tif Tagged Image File Format Soporte multip谩gina
GIF .gif Graphics Interchange Format Solo el primer fotograma
WebP .webp Web Picture format Formato web moderno
BMP .bmp Bitmap Im谩genes sin comprimir

Documentos t茅cnicos

Formato Extensiones Descripci贸n Notas
AsciiDoc .asciidoc, .adoc Documentaci贸n t茅cnica Sintaxis AsciiDoc completa
PubMed XML .xml Art铆culos cient铆ficos Formato PubMed Central
USPTO XML .xml Patentes Formato de patentes de EE. UU.

Formatos de salida

Formatos de texto

Markdown (.md)

Lo mejor para documentaci贸n y contenido que necesita formato.

# T铆tulo del documento

## Secci贸n 1

Este es un p谩rrafo con texto en **negrita** y en *cursiva*.

- Elemento de lista 1
- Elemento de lista 2

| Columna 1 | Columna 2 |
|-----------|-----------|
| Dato 1    | Dato 2    |

HTML (.html)

Formato listo para la web con estilos conservados.

<h1>T铆tulo del documento</h1>
<h2>Secci贸n 1</h2>
<p>Este es un p谩rrafo con texto en <strong>negrita</strong> y en <em>cursiva</em>.</p>

Texto plano (.txt)

Texto simple sin formato.

T铆tulo del documento

Secci贸n 1

Este es un p谩rrafo con texto en negrita y en cursiva.

Formatos estructurados

JSON (.json)

Estructura completa del documento en JSON. Representaci贸n sin p茅rdida.

{
  "title": "T铆tulo del documento",
  "sections": [
    {
      "heading": "Secci贸n 1",
      "level": 2,
      "content": [
        {
          "type": "paragraph",
          "text": "Este es un p谩rrafo..."
        }
      ]
    }
  ]
}

DocTags (.doctags)

Formato de documento etiquetado para an谩lisis sem谩ntico.

<document>
  <title>T铆tulo del documento</title>
  <section level="2">
    <heading>Secci贸n 1</heading>
    <paragraph>Este es un p谩rrafo...</paragraph>
  </section>
</document>

Document Tokens (.tokens.json)

Representaci贸n a nivel de tokens para aplicaciones de PLN.

{
  "tokens": [
    {"text": "Documento", "type": "word", "position": 0},
    {"text": "T铆tulo", "type": "word", "position": 1}
  ]
}

Formatos RAG

RAG Chunks (.chunks.json)

Fragmentos de documento optimizados para generaci贸n aumentada por recuperaci贸n (RAG).

{
  "chunks": [
    {
      "id": 1,
      "text": "Este es el primer fragmento de texto...",
      "meta": {
        "headings": ["Secci贸n 1"],
        "page": 1,
        "token_count": 128
      }
    }
  ]
}

Gu铆a de selecci贸n de formato

Caso de uso Formato recomendado
Documentaci贸n Markdown
Publicaci贸n web HTML
Procesamiento de datos JSON
Indexaci贸n de b煤squeda Texto plano
Pipelines de PLN / ML Document Tokens
Aplicaciones RAG RAG Chunks
An谩lisis sem谩ntico DocTags

Par谩metro de formato de la API

Al usar la API, indique el formato en el punto final de exportaci贸n:

# Descargar como Markdown
curl http://localhost:5001/api/export/{job_id}/markdown

# Descargar como JSON
curl http://localhost:5001/api/export/{job_id}/json

# Descargar como HTML
curl http://localhost:5001/api/export/{job_id}/html

Tipos MIME

Formato Tipo MIME
Markdown text/markdown
HTML text/html
JSON application/json
Texto plano text/plain
DocTags application/xml