говно flink
Upon a failure, Flink selects the latest completed checkpoint k. The system then re-deploys the entire distributed dataflow, and gives each operator the state that was snapshotted as part of checkpoint k.
это что получается, сдохла одна машина, и весь сука кластер стопается и идет рекаверить стейт
чем больше машин, чем больше стейта, тем больше отказов и рестартов
как с этим жить вообще