前言
在实时计算应用场景中经常会有对异构集群的实时调用需求,而当异构集群的服务由于机器配置、节点负载等原因无法做到负载均衡时,可以通过Flink的自定义多线程来实现对异构集群的动态负载均衡。
背景需求
文本内容鉴别、图片内容鉴别、图片OCR等特征生产需求,都需要和基于GPU部署的异构集群来交互。如果GPU集群机器配置无法统一,那么就会产生负载不均的情况。
即:一个GPU集群中某些节点处理的快,某些节点处理的慢,处理慢的节点往往会导致大量的超时异常,从而引起整个作业的反压。
其流程图如下:
我们借助Flink分布式的先天优势,在任务中通过Thrift RPC调用模型服务,实时获取结果后再写到特征工程,以此来构建特征生成整个链路。
参考资料
文档信息
- 本文作者:Tony
- 本文链接:https://lj-michale.top/2024/04/11/dynamic-load-balancing-of-heterogeneous-flink-clusters/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)