Cloudera acelera la IA y el análisis con un lakehouse abierto: Catálogo REST de Iceberg para zero-copy e Interoperabilidad, y un Optimizer que promete hasta 13× más rendimiento

Cloudera ha anunciado en EVOLVE25 NYC dos piezas que apuntalan su apuesta por un lakehouse abierto sobre Apache Iceberg: por un lado, la integración de Cloudera Iceberg REST Catalog en toda su plataforma —para compartir datos sin copias y con metadatos unificados—; por otro, Cloudera Lakehouse Optimizer, un servicio de optimización automática y mantenimiento inteligente de tablas Iceberg que, según sus pruebas internas, acelera consultas hasta 13× y recorta almacenamiento un 36 %. Ambos productos están disponibles desde hoy, mientras que la versión on-premises del Optimizer llegará en un lanzamiento futuro.

El movimiento tiene una lectura clara: a medida que las empresas intentan “llevar la IA a los datos, allí donde están”, la complejidad arquitectónica, los silos y la gobernanza inconsistente se convierten en frenos. Cloudera plantea un mismo tejido de seguridad y gobierno —su Shared Data Experience (SDX)— con un catálogo REST que habla Iceberg y abre el contenido a múltiples motores sin desplazamientos ni duplicación, y un motor de optimización que mantiene las tablas sanas y eficientes para cualquier engine compatible.


Por qué importa: IA “en cualquier nube” sin mover datos

En el día a día, mover datos para entrenar, inferir o analizar dispara costes, añade superficie de ataque y retrasa decisiones. El Catálogo REST de Iceberg integrado por Cloudera apunta a ese cuello de botella: expone los tables y metadatos vía REST, con políticas unificadas y lineaje/auditoría extendidos a cualquier consumidor autorizado. La promesa es lograr interoperabilidad zero-copy con motores de terceros —Snowflake, Databricks, AWS Athena, AWS EMR, Salesforce, entre otros—, manteniendo ACID y políticas de acceso coherentes desde SDX.

En paralelo, el Lakehouse Optimizer reduce la “fricción invisible” de las tablas Iceberg: reescritura inteligente de manifests y position deletes, compaction, clustering, mantenimiento proactivo y políticas declarativas por tabla o por catálogo completo. Donde antes había jobs ad hoc, ventanas de mantenimiento, playbooks y deuda operativa, ahora se promete automatización con observabilidad de nivel empresarial.


Cloudera Iceberg REST Catalog: interoperabilidad abierta, gobierno único y menos TCO

Cloudera afirma ser el primer proveedor que integra el Iceberg REST Catalog en una plataforma de datos e IA de ciclo completo —desde ingesta en tiempo real y procesamiento masivo, hasta consumo en BI y IA—. Las capacidades clave pasan por:

  • Zero-copy data sharing: terceros acceden directamente a los datos gestionados por Cloudera sin copiar ni mover, en nube pública, centro de datos o edge.
  • Gobierno y seguridad unificados: con SDX, las políticas de acceso, el lineaje y la auditoría se extienden a herramientas externas, evitando “zonas grises” en el perímetro.
  • Metadatos abiertos: descubrimiento instantáneo de activos sin lock-in en catálogos propietarios; el Catálogo REST se convierte en fuente de verdad para acelerar desarrollo de IA y analítica.
  • Menor TCO, time-to-value más corto: Cloudera asegura que clientes reportan hasta un 79 % menos de coste de almacenamiento al tiempo que mejoran visibilidad entre líneas de negocio. Cita, como ejemplo, a una multinacional del sector satelital que habría obtenido ese ahorro mientras fortalecía sus pipelines de datos para IA.

La lectura de fondo: al estandarizar el acceso vía REST y Iceberg, Cloudera quiere que cada empresa futuro-pruebe su estrategia de datos sin “enjaularse” en un catálogo cerrado, y sin renunciar a control, visibilidad y cumplimiento.


Lakehouse Optimizer: mantenimiento “sin manos” para Iceberg (y para cualquier motor)

El Optimizer llega como servicio inteligente, abierto a cualquier engine compatible con Iceberg y con una interfaz de políticas granulares:

  • Optimización avanzada más allá del “mantenimiento básico”: reescribe manifest y position delete files, gestiona compactación y layout para dar más rendimiento con menos coste.
  • Políticas declarativas: se aplican por tabla o por catálogo; el motor ejecuta y monitoriza.
  • Observabilidad: métricas, dashboards y trazabilidad para saber qué se optimiza, cuándo y cuánto mejora.
  • Beneficios medidos (internos): hasta 13× en rendimiento de consulta y -36 % en almacenamiento.

Cloudera destaca además que será el único servicio de su clase disponible on-premises en una versión futura, una carta diferenciadora para sectores regulados o con requisitos de soberanía que no pueden o no quieren delegar el control plane en la nube.


“Un lakehouse abierto de verdad”: posición y promesa

La narrativa de Cloudera —que en su día fue pionera del “Big Data”— pivota alrededor de Apache Iceberg como formato de tabla abierto y estándar de facto para lakehouses. El Catálogo REST aporta interoperabilidad y metadatos compartidos; SDX aplica seguridad y gobernanza sobre el 100 % de los datos; el Optimizer automatiza la higiene y la eficiencia sin depender del motor que los consulte.

En palabras de Leo Brunnick, Chief Product Officer de Cloudera, la compañía sigue invirtiendo para que Iceberg sea “enterprise-ready”, con la tríada flexibilidad, escalabilidad y insights sin concesiones, “cuando y donde hagan falta”. La ambición declarada: ser “la única plataforma capaz de llevar IA a los datos —en todas las nubes, el centro de datos y el edge— manteniendo un gobierno unificado y multi-engine analytics sin copias ni lock-in”.


¿Qué cambia para un data team… y para el CFO?

Menos ETL para compartir

El Catálogo REST evita pipelines de copia solo para “servir” un subconjunto de datos a un motor de terceros. Menos trabajo repetido, menos latencia entre la fuente y el consumidor.

Mismo gobierno en todo el perímetro

Políticas, lineaje y auditoría se heredan; el riesgo de “zonas de sombra” baja. Para cumplimiento, auditoría interna y seguridad, eso significa menos sorpresas.

Costes

La promesa de -79 % de almacenamiento en casos reales y el -36 % del Optimizer en pruebas internas son titulares que el CFO querrá validar: menos copias, archivos más compactos, tabla siempre optimizada y consultas más baratas porque leen menos.

Multi-engine de facto

Si un área usa Athena, otra Databricks y otra Snowflake, el catálogo no te “encierra”: basta apuntar y respetar políticas. La fricción política entre equipos baja; el ROI del dato sube.


Lectura de mercado: Iceberg como lingua franca

El empuje de Cloudera coincide con la consolidación de Iceberg como formato abierto que permite tablas ACID sobre object storage, con esquemas evolutivos y metadatos ricos. En ese terreno, la diferenciación pasa por:

  • Cómo se gobierna (SDX vs. stacks cerrados).
  • Cómo se comparte (Catálogo REST vs. catálogos propietarios).
  • Cómo se mantiene (Optimizer vs. jobs manuales y housekeeping a medida).
  • Dónde corre (nube, on-prem, edge).

Cloudera intenta atar las cuatro. Su discurso de “data anywhere → AI everywhere” y el dorso abierto de la arquitectura da respuesta a una demanda recurrente: interoperabilidad y soberanía sin rehacerlo todo.


Disponibilidad y próximos pasos

Cloudera confirma que Data Sharing con Iceberg REST Catalog y Lakehouse Optimizer están disponibles desde hoy. La versión on-premises del Optimizer llegará en una entrega posterior, todavía sin fecha pública. Más información comercial y técnica está ya en Cloudera.com.


Preguntas frecuentes

¿Qué es exactamente el “Iceberg REST Catalog” y en qué se diferencia de un catálogo propietario?
Es una implementación REST del catálogo de Apache Iceberg que expone tablas y metadatos de manera abierta y estandarizada. A diferencia de catálogos propietarios, permite que motores de terceros (Snowflake, Databricks, Athena, EMR, Salesforce…) apunten directamente a los datos gestionados por Cloudera sin copiarlos, heredando políticas, lineaje y auditoría vía SDX, y evitando el lock-in del catálogo.

¿Cómo logra el Lakehouse Optimizer mejorar hasta 13× el rendimiento de consulta?
Según Cloudera, el servicio aplica optimización avanzada de tablas Iceberg: reescribe manifests y position deletes, ejecuta compactación y layout eficientes y automatiza el housekeeping que, de otro modo, exigiría jobs manuales. Al reducir ficheros, fragmentación y lecturas innecesarias, las consultas tocan menos bytes y se aceleran.

¿Puedo usar estas capacidades en cualquier nube y también on-premises?
El Catálogo REST y la interoperabilidad zero-copy están disponibles en nubes públicas, centros de datos y el edge gestionados por Cloudera. El Lakehouse Optimizer se ofrece ya como servicio en nube; Cloudera ha anunciado que será el único de su tipo disponible también on-premises en un lanzamiento futuro.

¿De dónde sale el “hasta un 79 %” de ahorro en almacenamiento?
Cloudera atribuye esa cifra a clientes existentes que, al eliminar copias redundantes y unificar el acceso vía REST Catalog y SDX, redujeron el número de datasets replicados y optimizaron su huella de object storage. No es una garantía universal; el ahorro real depende de patrones de copia, volumen histórico y el grado de adopción de zero-copy sharing y del Optimizer en cada caso.

vía: cloudera

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×