CDN 接口日志聚合统计

更新时间：2023-12-07

概览

用户对 CDN 接口日志进行聚合统计。

需求场景

所有的 CDN 接口调用日志通过 flume 直接推送到 百度消息服务（KAFKA）中作为流式计算 source ，在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 接口调用日志的聚合统计，并实时将聚合结果写到 百度数据仓库（Palo）当中，用户可以利用数据可视化工具（如 Sugar BI）等调用 Palo 的 API 完成数据展示。

方案概述

服务器 → KAFKA → BSC → Palo → Sugar BI

配置步骤

一个完整的 Spark SQL 作业由 source 表、sink 表和 DML 语句构成。

定义 KAFKA Source 表

SPARK

1CREATE TABLE source_kafka_table (
2    `prefix` STRING,
3    `region` STRING,
4    `userIdSrc` STRING,
5    `clusterNameSrc` STRING,
6    `transDurationSrc` DOUBLE,
7    `srcDurationSrc` STRING,
8    `ts` BIGINT
9) WITH (
10    'connector.type' = 'KAFKA',
11    'format.encode' = 'CSV',
12    'format.attributes.field-delimiter' = ' ', -- 分隔符为空格
13    'connector.topic' = 'xxxxxxxxx__bsc-source',
14    'connector.properties.bootstrap.servers' = 'kafka.bd.baidubce.com:9071',
15    'connector.properties.ssl.filename' = 'kafka-key_bd.zip'
16);

定义 Palo Sink 表

编写数据聚合DML语句

按照某些值和指定的时间进行聚合，没有使用窗口，而是定义 5 分钟的微批触发时间来完成聚合，并且聚合状态要设置为 no state