Lineage

    Lineage 支持是非常实验性的,可能会发生变化。

    Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。

    气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。

    注意

    如果操作员支持,操作员可以自动添加入口和出口。

    在示例DAG任务中, <cite>run_me_first</cite>是一个BashOperator,它接收从列表生成的3个入口: <cite>CAT1</cite> , <cite>CAT2</cite> , <cite>CAT3</cite> 。 请注意, <cite>execution_date</cite>是一个模板化字段,将在任务运行时呈现。

    在幕后,Airflow将沿袭元数据作为任务的<cite>pre_execute</cite>方法的一部分进行准备。 当任务完成执行<cite>时,</cite>将调用<cite>post_execute</cite>并将lineage元数据推送到XCOM中。 因此,如果您要创建自己的覆盖此方法的运算符,请确保分别使用<cite>prepare_lineage</cite>和<cite>apply_lineage</cite>修饰您的方法。

    Airflow可以将其沿袭元数据发送到Apache Atlas。 您需要启用<cite>atlas</cite>后端并正确配置它,例如在<cite>airflow.cfg中</cite> :

    1. [ atlas ]
    2. password = my_password

    请确保安装了<cite>atlasclient</cite>软件包。