← All posts tagged говно

Upon a failure, Flink selects the latest completed checkpoint k. The system then re-deploys the entire distributed dataflow, and gives each operator the state that was snapshotted as part of checkpoint k.

это что получается, сдохла одна машина, и весь сука кластер стопается и идет рекаверить стейт
чем больше машин, чем больше стейта, тем больше отказов и рестартов

как с этим жить вообще