使用工作队列进行精细的并行处理

    在这个例子中,当每个 Pod 被创建时,它会从一个任务队列中获取一个工作单元,处理它,然后重复,直到到达队列的尾部。

    下面是这个示例的步骤概述:

    1. 启动存储服务用于保存工作队列。 在这个例子中,我们使用 Redis 来存储工作项。 在上一个例子中,我们使用了 RabbitMQ。 在这个例子中,由于 AMQP 不能为客户端提供一个良好的方法来检测一个有限长度的工作队列是否为空, 我们使用了 Redis 和一个自定义的工作队列客户端库。 在实践中,你可能会设置一个类似于 Redis 的存储库,并将其同时用于多项任务或其他事务的工作队列。

    2. 创建一个队列,然后向其中填充消息。 每个消息表示一个将要被处理的工作任务。 在这个例子中,消息是一个我们将用于进行长度计算的整数。

    3. 启动一个 Job 对队列中的任务进行处理。这个 Job 启动了若干个 Pod。 每个 Pod 从消息队列中取出一个工作任务,处理它,然后重复,直到到达队列的尾部。

    你必须拥有一个 Kubernetes 的集群,同时你的 Kubernetes 集群必须带有 kubectl 命令行工具。 建议在至少有两个节点的集群上运行本教程,且这些节点不作为控制平面主机。 如果你还没有集群,你可以通过 构建一个你自己的集群,或者你可以使用下面任意一个 Kubernetes 工具构建:

    熟悉基本的、非并行的 Job

    启动 Redis

    对于这个例子,为了简单起见,我们将启动一个单实例的 Redis。 了解如何部署一个可伸缩、高可用的 Redis 例子,请查看 Redis 示例

    你也可以直接下载如下文件:

    现在,让我们往队列里添加一些 “任务”。在这个例子中,我们的任务是一些将被打印出来的字符串。

    输出类似于:

    1. Hit enter for command prompt

    现在按回车键,启动 Redis 命令行界面,然后创建一个存在若干个工作项的列表。

    1. # redis-cli -h redis
    2. redis:6379> rpush job2 "apple"
    3. (integer) 1
    4. redis:6379> rpush job2 "banana"
    5. (integer) 2
    6. redis:6379> rpush job2 "cherry"
    7. (integer) 3
    8. redis:6379> rpush job2 "date"
    9. (integer) 4
    10. redis:6379> rpush job2 "fig"
    11. (integer) 5
    12. redis:6379> rpush job2 "grape"
    13. (integer) 6
    14. redis:6379> rpush job2 "lemon"
    15. (integer) 7
    16. redis:6379> rpush job2 "melon"
    17. (integer) 8
    18. redis:6379> rpush job2 "orange"
    19. (integer) 9
    20. 1) "apple"
    21. 2) "banana"
    22. 3) "cherry"
    23. 4) "date"
    24. 5) "fig"
    25. 6) "grape"
    26. 7) "lemon"
    27. 8) "melon"
    28. 9) "orange"

    因此,这个键为 job2 的列表就是我们的工作队列。

    注意:如果你还没有正确地配置 Kube DNS,你可能需要将上面的第一步改为 redis-cli -h $REDIS_SERVICE_HOST

    创建镜像

    现在我们已经准备好创建一个我们要运行的镜像。

    我们会使用一个带有 Redis 客户端的 Python 工作程序从消息队列中读出消息。

    这里提供了一个简单的 Redis 工作队列客户端库,名为 rediswq.py ()。

    Job 中每个 Pod 内的 “工作程序” 使用工作队列客户端库获取工作。具体如下:

    application/job/redis/worker.py

    1. #!/usr/bin/env python
    2. import time
    3. host="redis"
    4. # 如果你未在运行 Kube-DNS,请取消下面两行的注释
    5. # import os
    6. # host = os.getenv("REDIS_SERVICE_HOST")
    7. q = rediswq.RedisWQ(name="job2", host=host)
    8. print("Worker with sessionID: " + q.sessionID())
    9. print("Initial queue state: empty=" + str(q.empty()))
    10. while not q.empty():
    11. item = q.lease(lease_secs=10, block=True, timeout=2)
    12. if item is not None:
    13. itemstr = item.decode("utf-8")
    14. print("Working on " + itemstr)
    15. time.sleep(10) # 将你的实际工作放在此处来取代 sleep
    16. q.complete(item)
    17. else:
    18. print("Waiting for work")
    19. print("Queue empty, exiting")

    你也可以下载 、 rediswq.py 和 文件。然后构建镜像:

    1. docker tag job-wq-2 <username>/job-wq-2
    2. docker push <username>/job-wq-2

    你需要将镜像 push 到一个公共仓库或者 。

    如果你使用的是 Google Container Registry, 请先用你的 project ID 给你的镜像打上标签,然后 push 到 GCR 。请将 <project> 替换为你自己的 project ID。

    1. docker tag job-wq-2 gcr.io/<project>/job-wq-2
    2. gcloud docker -- push gcr.io/<project>/job-wq-2

    这是 Job 定义:

    application/job/redis/job.yaml 使用工作队列进行精细的并行处理 - 图2

    1. apiVersion: batch/v1
    2. kind: Job
    3. metadata:
    4. name: job-wq-2
    5. parallelism: 2
    6. template:
    7. metadata:
    8. name: job-wq-2
    9. spec:
    10. - name: c
    11. image: gcr.io/myproject/job-wq-2
    12. restartPolicy: OnFailure

    请确保将 Job 模板中的 gcr.io/myproject 更改为你自己的路径。

    在这个例子中,每个 Pod 处理了队列中的多个项目,直到队列中没有项目时便退出。 因为是由工作程序自行检测工作队列是否为空,并且 Job 控制器不知道工作队列的存在, 这依赖于工作程序在完成工作时发出信号。 工作程序以成功退出的形式发出信号表示工作队列已经为空。 所以,只要有任意一个工作程序成功退出,控制器就知道工作已经完成了,所有的 Pod 将很快会退出。 因此,我们将 Job 的完成计数(Completion Count)设置为 1。 尽管如此,Job 控制器还是会等待其它 Pod 完成。

    运行 Job

    现在运行这个 Job:

    稍等片刻,然后检查这个 Job。

    1. kubectl describe jobs/job-wq-2
    1. Name: job-wq-2
    2. Namespace: default
    3. Selector: controller-uid=b1c7e4e3-92e1-11e7-b85e-fa163ee3c11f
    4. Labels: controller-uid=b1c7e4e3-92e1-11e7-b85e-fa163ee3c11f
    5. job-name=job-wq-2
    6. Annotations: <none>
    7. Parallelism: 2
    8. Completions: <unset>
    9. Start Time: Mon, 11 Jan 2016 17:07:59 -0800
    10. Pods Statuses: 1 Running / 0 Succeeded / 0 Failed
    11. Pod Template:
    12. Labels: controller-uid=b1c7e4e3-92e1-11e7-b85e-fa163ee3c11f
    13. job-name=job-wq-2
    14. Containers:
    15. c:
    16. Image: gcr.io/exampleproject/job-wq-2
    17. Port:
    18. Environment: <none>
    19. Mounts: <none>
    20. Volumes: <none>
    21. Events:
    22. FirstSeen LastSeen Count From SubobjectPath Type Reason Message
    23. --------- -------- ----- ---- ------------- -------- ------ -------
    24. 33s 33s 1 {job-controller } Normal SuccessfulCreate Created pod: job-wq-2-lglf8

    你可以等待 Job 成功,等待时长有超时限制:

    1. # 状况名称的检查不区分大小写
    2. kubectl wait --for=condition=complete --timeout=300s job/job-wq-2
    1. Worker with sessionID: bbd72d0a-9e5c-4dd6-abf6-416cc267991f
    2. Initial queue state: empty=False
    3. Working on banana
    4. Working on date

    你可以看到,其中的一个 Pod 处理了若干个工作单元。

    如果你有持续的后台处理业务,那么可以考虑使用 ReplicaSet 来运行你的后台业务, 和运行一个类似 的后台处理库。