Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

Snowflake presenta Snowpark Connect para Apache Spark™ en vista previa pública

Snowflake, la plataforma especializada en AI Data Cloud, ha anunciado la disponibilidad en vista previa pública de Snowpark Connect para Apache Spark™, una nueva funcionalidad que permite a los usuarios de Spark ejecutar su código directamente sobre el motor de Snowflake. Esta integración promete mejoras significativas en rendimiento, reducción de costes y una notable simplificación operativa para las organizaciones que gestionan cargas de trabajo intensivas en datos.

Basado en una arquitectura cliente-servidor desacoplada, Snowpark Connect permite separar el código del usuario del clúster Spark encargado del procesamiento. Esta nueva arquitectura, introducida por la comunidad de Apache Spark™ en su versión 3.4, permite que los trabajos de Spark sean impulsados directamente por el motor de Snowflake.

Gracias a esta integración, los usuarios pueden ejecutar código Spark moderno —incluyendo Spark DataFrame, Spark SQL y funciones definidas por el usuario (UDF)— sin necesidad de mantener entornos Spark independientes ni preocuparse por dependencias, compatibilidad de versiones o actualizaciones. Todo el proceso es gestionado automáticamente por Snowflake, que se encarga del escalado dinámico y la optimización del rendimiento, eliminando así la carga operativa para los desarrolladores.

Además, trasladar el procesamiento de datos a Snowflake permite establecer un marco único de gobernanza desde el inicio del flujo de datos, garantizando coherencia, seguridad y cumplimiento normativo a lo largo de todo el ciclo de vida, sin duplicar esfuerzos.

Un estudio interno de Snowflake revela que los clientes que utilizan Snowpark Client para crear pipelines en Python, Java o Scala han logrado un rendimiento medio 5,6 veces superior y un ahorro del 41 % en costes, en comparación con entornos Spark gestionados de forma tradicional.

Con esta apuesta, Snowflake refuerza su compromiso por ofrecer herramientas eficientes y unificadas para desarrolladores y científicos de datos, integrando lo mejor de Spark dentro de su ecosistema cloud.

Desarrollado sobre Spark Connect y la arquitectura de Snowflake

Snowpark Connect para Spark aprovecha la arquitectura desacoplada de Spark Connect, que permite que las aplicaciones envíen un plan lógico no resuelto a un clúster Spark remoto para su procesamiento. Esta filosofía de separación cliente-servidor ha sido fundamental en el diseño de Snowpark desde sus inicios. Actualmente, Snowpark Connect es compatible con las versiones 3.5.x de Spark, asegurando la compatibilidad con las últimas funcionalidades y mejoras introducidas en dichas versiones.

Esta innovación elimina la necesidad de mover datos entre Spark y Snowflake, un proceso que históricamente ha generado costes adicionales, latencia y complejidad de gobernanza. Ahora, las organizaciones pueden ejecutar código Spark DataFrame, SQL y UDF en Snowflake a través de Snowflake Notebooks, cuadernos Jupyter, procedimientos almacenados de Snowflake, VSCode, Airflow o Snowpark Submit, lo que permite una integración perfecta en diferentes almacenamientos en Snowflake, Iceberg (en Snowflake o gestionado externamente) y opciones de almacenamiento en la nube.

Trabajando con un data lakehouse abierto

Snowpark Connect para Spark funciona con tablas Apache Iceberg™, incluyendo tablas Iceberg gestionadas externamente y también bases de datos vinculadas a catálogos. Con esto, ahora puedes aprovechar la potencia, el rendimiento, la facilidad de uso y la gobernanza de la plataforma Snowflake sin tener que mover tus datos o reescribir tu código Spark.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×