Apache Beam y el Arte de los Pipelines Escalables

Cuando me uní al proyecto de Google en Wizeline había usado Spark y un poco de Flink, pero Beam era nuevo para mí. Un año después tengo opiniones fuertes. Aquí está el resumen ejecutivo.

El modelo unificado es el verdadero valor

El argumento de venta de Beam — escribe una vez, ejecuta en cualquier runner — suena a marketing. En la práctica es genuinamente útil. Desarrollamos y probamos pipelines localmente con el DirectRunner, y luego los promovimos a Dataflow sin cambiar una sola línea de código de pipeline. Ese ciclo de retroalimentación es rápido.

Las ventanas y triggers son difíciles

Manejar datos tardíos correctamente es donde la mayoría de los proyectos Beam fallan. La API es expresiva, pero el modelo mental toma tiempo en interiorizarse. La clave: las ventanas son etiquetas, los triggers deciden cuándo emitir. Una vez que eso encajó, todo lo demás siguió.

(
    events
    | "Window" >> beam.WindowInto(
        beam.window.SlidingWindows(size=60, period=10),
        trigger=AfterWatermark(
            late=AfterCount(1)
        ),
        accumulation_mode=AccumulationMode.DISCARDING,
    )
    | "Sum" >> beam.CombinePerKey(sum)
)

Las pruebas son tu mejor amigo

El DirectRunner hace que las pruebas unitarias de pipelines sean triviales. Escribí pruebas para cada transformación. Cuando un trabajo de producción falló a escala, el error casi siempre estaba en la lógica de negocio que una prueba habría detectado — no en el framework.

La conclusión

Beam recompensa la paciencia. Las abstracciones son genuinamente elegantes una vez que dejas de luchar contra ellas. Si estás construyendo pipelines de datos que necesitan escalar a petabytes y ejecutarse en infraestructura gestionada, vale la inversión.