Staging and Structuring in dbt

2 years ago

In this episode, we dive deep into the staging layer of dbt projects, exploring the best practices for organizing data models and ensuring data quality.

脚本

Leo

大家好，欢迎收听本期播客！今天我们将探讨 dbt 项目中的 staging 层，也就是数据建模的基础部分。我们知道，staging 层是数据流动的起点，然而很多人可能对如何高效组织这一层并不十分清楚。今天我们有幸请到了 Lily，她是一位分析专家，能够为我们提供一些深入的见解。

Lily

谢谢 Leo 的介绍！确实，staging 层是整个数据建模过程中的关键。就像你提到的，它不仅是数据的入口，还为后续的复杂模型打下了坚实的基础。我们可以把它想象成是一个化学反应的起始阶段，所有的元素都在这里被组织和准备，以便构建出更复杂的数据结构。

Leo

没错，Lily。就像在化学中，我们需要合适的原子来形成分子。在 dbt 中，staging 层就像是这些原子的集合。我们该如何科学地组织这些文件和文件夹呢？你觉得有哪些最佳实践是我们必须遵循的？

Lily

首先，文件夹的结构非常重要，这不仅有助于我们理解代码库的流动，还能帮助我们在项目中建立知识图谱。比如，根据数据源系统来创建子目录是个不错的选择，而不是根据数据加载工具或业务组来划分。这样确保了每个团队都能基于同一套数据源进行工作，避免了定义上的冲突。

Leo

这确实是一个重要的观点。通过保持文件夹结构的一致性，我们可以更轻松地找到需要的代码，同时也能提高代码的可维护性。说到文件命名，这也是一个关键的部分。你认为有哪些命名规则是我们应该遵循的？

Lily

文件命名方面，我建议使用一致的模式，比如采用 `stg_[source]__[entity]s.sql` 的格式。这样的命名方式不仅能够让人一目了然，而且能避免因为命名不当导致的混淆。此外，使用复数形式也能让 SQL 更加具有描述性，增强可读性。这些小细节在长远的维护中是非常有帮助的。

Leo

非常赞同！文件命名的规范化可以显著提高团队协作的效率。同时，staging 层的模型应该以视图的形式来物化，这样可以确保下游模型总是获取最新的数据。你觉得这方面有没有什么特别的注意事项？

Lily

确实，materialized as views 的方式非常重要。这样，不仅可以节省仓库空间，还能避免重复计算。我们在 staging 层应该力求简洁、明了，避免在这一阶段进行连接和聚合操作，因为这会增加下游模型的复杂性。在这个阶段，我们的目标是清理和准备各个单独的源数据。

Leo

是的，保持简洁和高效的原则是至关重要的。我们还可以利用 dbt 的 `source` 宏来实现与源表的 1 对 1 关系，这样可以构建出一个更加干净和可复用的代码库。

Lily

没错！此外，当我们需要在 staging 层进行连接时，可以考虑创建基模型。在某些情况下，基模型能够帮助我们更好地组织数据，为后续的复杂模型打下基础。

Leo

非常感谢你今天分享的见解，Lily！这些关于 staging 层的最佳实践无疑对我们的听众会有很大的帮助。接下来我们可以探讨一下在 dbt 的开发过程中，如何有效地运用这些原则来提升工作效率。

参与者

Leo

Data Engineer

Lily

Analytics Specialist

主题

dbt
data modeling
data transformation