DataWorks遷移助手提供任務搬站功能,支援將開源排程引擎Oozie、Azkaban、Airflow的任務快速遷移至DataWorks。本文主要介紹如何將開源Azkaban工作流排程引擎中的作業遷移至DataWorks上。
支援遷移的Azkaban版本
支援全部版本的Azkaban遷移。
整體遷移流程
遷移助手支援開源工作流排程引擎到DataWorks體系的大資料開發任務遷移的基本流程如下圖所示。
針對不同的開源排程引擎,DataWorks遷移助手會出一個相關的任務匯出方案。
整體遷移流程為:透過遷移助手排程引擎作業匯出能力,將開源排程引擎中的作業匯出;再將作業匯出包上傳至遷移助手中,透過任務型別對映,將對映後的作業匯入至DataWorks中。作業匯入時可設定將任務轉換為MaxCompute型別作業、EMR型別作業、CDH型別作業等。
Azkaban作業匯出
Azkaban工具本身具備匯出工作流的能力,有自己的Web控制檯,如下圖所示:
Azkaban介面支援直接Download某個Flow。Flow的匯出流程:
操作步驟:
1。進入Project頁面
2。點選Flows,會列出Project下面所有的工作流(Flow)
3。點選Download即可下載Project的匯出檔案
Azkaban匯出包格式原生Azkaban即可,匯出包Zip檔案內部為Azakaban的某個Project的所有任務(Job)和關係資訊。
Azkaban作業匯入
拿到了開源排程引擎的匯出任務包後,使用者可以拿這個zip包到遷移助手的遷移助手-任務上雲-排程引擎作業匯入頁面上傳匯入包進行包分析。
匯入包分析成功後點擊確認,進入匯入任務設定頁面,頁面中會展示分析出來的排程任務資訊。
開源排程匯入設定
使用者可以點選高階設定,設定Azkaban任務與DataWorks任務的轉換關係。不同的開源排程引擎,在高階設定裡面的設定介面基本一致,如下圖:
高階設定項介紹:
sparkt-submit轉換為:匯入過程會去分析使用者的任務是不是sparkt-submit任務,如果是的話,會將spark-submit任務轉換為對應的DataWorks任務型別,比如說:ODPS_SPARK/EMR_SPARK/CDH_SPARK等
命令列 SQL任務轉換為:開源引擎很多工型別是命令列執行SQL,比如說hive -e, beeline -e, impala-shell等等,遷移助手會根據使用者選擇的目標型別做對應的轉換。比如可以轉換成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等
目標計算引擎型別:這個主要是影響的是Sqoop同步的目的端的資料寫入配置。我們會預設將sqoop命令轉換為資料整合任務。計算引擎型別決定了資料整合任務的目的端資料來源使用哪個計算引擎的project。
Shell型別轉換為:SHELL型別的節點在Dataworks根據不同計算引擎會有很多種,比如EMR_SHELL,CDH_SHELL,DataWorks自己的Shell節點等等。
未知任務轉換為:對目前遷移助手無法處理的任務,我們預設用一個任務型別去對應,使用者可以選擇SHELL或者虛節點VIRTUAL
SQL節點轉換為:DataWorks上的SQL節點型別也因為繫結的計算引擎的不同也有很多種。比如 EMR_HIVE,EMR_IMPALA、EMR_PRESTO,CDH_HIVE,CDH_IMPALA,CDH_PRESTO,ODPS_SQL,EMR_SPARK_SQL,CDH_SPARK_SQL等,使用者可以選擇轉換為哪種任務型別。
注意:這些匯入對映的轉換值是動態變化的,和當前專案空間繫結的計算引擎有關,轉換關係如下。
匯入至DataWorks + MaxCompute
設定項
可選值
sparkt-submit轉換為
ODPS_SPARK
命令列 SQL任務轉換為
ODPS_SQL、ODPS_SPARK_SQL
目標計算引擎型別
ODPS
Shell型別轉換為
DIDE_SHELL
未知任務轉換為
DIDE_SHELL、VIRTUAL
SQL節點轉換為
ODPS_SQL、ODPS_SPARK_SQL
匯入至DataWorks + EMR
設定項
可選值
sparkt-submit轉換為
EMR_SPARK
命令列 SQL任務轉換為
EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
目標計算引擎型別
EMR
Shell型別轉換為
DIDE_SHELL, EMR_SHELL
未知任務轉換為
DIDE_SHELL、VIRTUAL
SQL節點轉換為
EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
匯入至DataWorks + CDH
設定項
可選值
sparkt-submit轉換為
CDH_SPARK
命令列 SQL任務轉換為
CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
目標計算引擎型別
CDH
Shell型別轉換為
DIDE_SHELL
未知任務轉換為
DIDE_SHELL、VIRTUAL
SQL節點轉換為
CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
執行匯入
設定完對映關係後,點選開始匯入即可。匯入完成後,請進入資料開發中檢視匯入結果。