jivvies
本站致力于IT相关技术的分享
构建基于 Sanic 和 Prettier 的 Azure Data Lake 规范化数据摄入网关 构建基于 Sanic 和 Prettier 的 Azure Data Lake 规范化数据摄入网关
我们的数据湖最近出现了一个棘手的“熵增”问题。团队的多个微服务和数据源持续不断地向 Azure Data Lake Storage (ADLS Gen2) 推送 JSON 格式的配置快照、事件载荷和元数据。功能上,这些数据都完全正确。但问题
2023-10-27
构建基于Python与Serverless的CDC管道实现数据湖分析负载分离 构建基于Python与Serverless的CDC管道实现数据湖分析负载分离
我们生产环境的 Aurora MySQL 读副本 CPU 占用率已经连续数周在 90% 以上的高位徘徊。最初的读写分离设计,本意是隔离在线事务处理(OLTP)和报表查询,但随着业务增长,数据分析团队的临时复杂查询和 BI 工具的仪表盘刷新,
2023-10-27
构建一个以SQLite为状态后端的轻量级Python Spark数据管道框架 构建一个以SQLite为状态后端的轻量级Python Spark数据管道框架
在许多数据处理场景中,我们面临一个典型的架构窘境:需要Apache Spark的分布式计算能力来处理TB级的数据集,但整个项目的协调和调度需求又相对简单,引入Apache Airflow或Azkaban这类重型工作流引擎显得杀鸡用牛。这些引
2023-10-27