Quick Start

sql_runner 是一个以Spark SQL为内核，以SQL为主体，扩展支持了数据质量告警，支持多种外部数据源，支持数据处理流程控制的数据处理引擎。

用户通过sql_runner命令就可以执行一个包含各种扩展SQL的sql任务。运行命令:sql_runner [job_file.sql]

Quick Start

编写SQL文件:

/************************************************

  author: kun.wan
  period: day
  run_env: PRD
  describe: 基础数据处理脚本

************************************************/

INSERT  OVERWRITE TABLE trade.dws_trade partition(dt='${date|yyyyMMdd}')
SELECT  *
FROM    trade.dwd_trade t
WHERE   t.dt = '${date|yyyyMMdd}';

通过sql_runner [job_file] 命令就可以实现将表trade.dwd_trade的数据清洗到表trade.dws_trade。

运行说明:

程序的第一部分为任务注释，注释中必须要包含 author, period, run_env, describe 这几个字段，主要是基于大型项目中的任务管理考虑，在之后的一些Demo中会将这部分头注释做省略。
第二部分是我们需要运行的SQL命令，后面对系统当前支持的命令再详细介绍。
在SQL中有看到${date|yyyyMMdd} 这样的特殊参数，这个会参考系统的参数管理章节。

系统命令

当前系统支持如下命令

单行注释命令
多行注释命令
SET参数命令
IF命令
SQL命令

单行注释命令

以-- 作为单行注释开始，系统执行的时候会忽略单行注释

多行注释命令

以/** 作为多行注释开始，以 */作为多行注释结束，系统执行的时候会忽略多行注释

SET参数命令

以!set 作为SET命令开始，以; 作为命令结束符, 命令格式: !set [key]=[value];, 系统执行的时候解析该参数为系统参数

IF命令

以!if 作为IF命令开始，以!fi作为命令结束符，命令支持!else语句分支，命令格式:

!if ([条件判断语句])
  [命令1]
  [命令2]
  [命令3]
!else
  [命令4]
  [命令5]
!fi

命令正在执行的时候会对上述条件判断语句进行判断，如果条件为真，执行IF下面的命令，如果条件为假，执行ELSE下面的命令。

使用示例1: 对运行环境参数进行判断，来选择IF分支命令的选择执行

!set user = "kun.wan";
!if (user = 'kun.wan')
  select 'if command';
!else
  select 'else command';
!fi

使用示例2: 根据之前的SQL执行结果进行判断，来选择IF分支命令的选择执行

SELECT /*+ COLLECT_VALUE('row_count', 'c') */ count(1) as c;
SELECT /*+ COLLECT_VALUE('row_count2', 'd') */ count(1) as d;

!if (row_count = row_count2 and row_count = 1)
  select 'row count is 1';
!else
  select 'row count is not 1';
!fi

SQL命令

除去以上命令，其他的代码会被解析为SQL命令，以; 作为命令结束符；每个SQL会由SQL引擎解析执行

参数管理

系统执行过程中会有很多运行以来参数，包括时间参数，系统参数和Set命令参数。系统通过set命令，apollo配置等方式进行参数定义，在程序中使用${variable}的格式引用参数。通过 ${variable, 'DEFAULT_VALUE'}格式引用参数时，如果没有找到variable参数，则返回DEFAULT_VALUE

时间参数

时间参数是一个特殊类型的参数，表示任务运行的批次时间，如没有其他参数影响，系统时间由如下决定:

如果是period=month, 系统时间表示当前时间的上一个月的1日0点0分0秒
如果是period=day, 系统时间表示当前时间的前一天的0点0分0秒
如果是period=hour, 系统时间表示当前时间的上一个小时的的0分0秒

说明:

时间参数以date 开头，date表示当前job的运行批次时间。
时间可以通过+和-来进行时间的加减运行
在做时间运算的时候以数字和时间单位表示加减的时间窗口，时间单位中，Y表示年，M表示月， D表示天，H表示小时，m表示分钟，S表示秒。
输出的时间格式默认为 yyyyMMdd，可以通过 | 后连接自定义的时间格式来自定义输出时间格式。时间格式为Java 默认的时间解析格式。

示例: ${date-3d|yyyyMMdd}

系统参数

为了方便程序运行，程序启动的时候已经设置了一些系统参数，用于辅助程序运行。

系统环境参数

系统启动的时候会读取env.xml 中的配置作为系统参数，另外一些数据库中的配置系统会从Apollo中进行获取。

另外系统还支持在命令行中修改一些系统参数:

--dates : 手工指定系统的运行批次时间，后面可以添加多个日期参数，通过逗号分隔。每个日期参数格式：--dates 2021-01-01T00:00:00,2021-01-03T00:00:00
--dateRange : 手工指定系统的运行批次时间，后续跟批量运行的开始日期和结束日志，参数格式:--dateRange 2021-01-01T00:00:00 2021-01-03T00:00:00, 默认会每一个时间单位（天级任务就是一天，小时任务就是一小时）运行一次，可以通过 --dateRangeStep 参数修改多少个时间单位运行一次。
--test : 单次执行该任务，此时任务会把执行日志屏幕输出；如果程序运行错误，不会进行告警。在开发模式和补跑数据时可以添加该参数运行。
--dryrun : 空跑模式，此模式会空跑指定任务中的SQL，并在屏幕上输出日志，可用于检查编写的程序正确性。

Set命令参数

这个是在任务运行过程中修改系统参数

参数的使用

对于上说的各种参数，可以通过${variable}格式，在SQL中引用，系统在执行的时候会自动进行参数替换。此外，参数还支持嵌套参数引用，即 ${variable1 ${variable2 ${variable3}} }

高级功能说明

日志管理

如果程序在开发环境运行，需要传入参数 --test，程序日志直接在命令行输出；如果程序运行出错，不进行告警；
如果程序在生产环境运行，程序运行日志输出在目录下 /tmp/{USER}/${yyyyMMdd}，程序运行完毕后会将日志归档到HDFS目录 /metadata/logs/insight/${yyyyMMdd}；如果程序运行出错，自动进行钉钉告警；

Contributing

开启本地调试模式

注释掉pom中的 hive-cli 和 hive-exec两个依赖的provide依赖
在resource目录下补充hdfs，yarn，hive的访问配置文件
启动 org.apache.sql.runner.JobRunner 程序

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
bin		bin
docs		docs
src		src
.gitignore		.gitignore
.gitlab-ci.yml		.gitlab-ci.yml
README.md		README.md
assembly.xml		assembly.xml
pom.xml		pom.xml
scalastyle-config.xml		scalastyle-config.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Quick Start

系统命令

单行注释命令

多行注释命令

SET参数命令

IF命令

SQL命令

参数管理

时间参数

系统参数

系统环境参数

Set命令参数

参数的使用

高级功能说明

日志管理

Contributing

About

Releases 1

Packages

Languages

wankunde/sql-runner

Folders and files

Latest commit

History

Repository files navigation

Quick Start

系统命令

单行注释命令

多行注释命令

SET参数命令

IF命令

SQL命令

参数管理

时间参数

系统参数

系统环境参数

Set命令参数

参数的使用

高级功能说明

日志管理

Contributing

About

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages