提取、加载和转换你的数据:使用PlanetScale Connect
在很多情况下,你可能需要移动和/或转换应用程序数据,比如提高数据库性能、整合数据、为组织中的其他团队提供安全查询数据的权限,以及一些与你的用例相关的具体原因。这看起来似乎可以直接自行设置,但如果不影响生产数据库,要做到这一点可能既繁琐又困难。借助PlanetScale Connect(现为Beta版),你可以轻松对数据执行ELT(提取、加载、转换)操作,以满足你的应用需求。
什么是PlanetScale Connect?
借助PlanetScale Connect,你可以与现有的ELT平台集成,从你的PlanetScale数据库中提取数据,并安全地将其加载到其他目的地进行分析、转换等功能。在该功能的初期版本中,我们支持使用开源平台Airbyte作为首选的ELT工具,并计划在未来扩展这一功能。
在Airbyte中,你可以选择你的PlanetScale数据库作为数据源。接下来,你可以从数百个连接器(Airbyte连接器完整列表)中进行选择,包括Google BigQuery、AWS Redshift、Snowflake等等。在配置过程中,你可以在将数据加载到最终目的地之前,对数据进行转换。这让你可以完全掌控数据迁移、转换,并仅需几次点击和配置即可将数据上传到新的数据源。
ELT管道的优势
为了更好地理解我们推出PlanetScale Connect的背景,我们来探讨实施一个成熟ELT管道的一些关键优势。
1. 上下文优化
将你的应用数据卸载到一个更合适的数据存储中,可以更好地维护和查询历史数据。举例来说,你的生产应用可能只需要前两个月的数据实现即时可用。在这种情况下,你可以将较旧的数据卸载到一个单独的数据存储中,对其进行查询而不会影响主应用的性能。
2. 数据整合
很多时候,存储在数据库中的某些数据并不是永久需要的。在这种情况下,ELT在转换阶段提供了一个绝佳的机会,可以在加载到新的数据源之前移除不必要的数据。
3. 数据增值
除了数据整合,在数据转换过程中,你可能还需要对数据进行增值处理。例如,通过调用内部和/或外部API来获取附加信息,以为现有数据增加额外的上下文和细节。
4. 提升生产力
成功创建一个生成预期结果的ELT管道后,这一过程将不再需要人工干预。你的团队可以专注于最高优先级的任务,同时确保数据管道持续运行。
5. 数据准确性
利用ELT管道,你可以确保数据始终保持一致和准确。这种方式为上游应用的模式变化提供了灵活性,同时能够保持下游应用的统一数据格式。
如何实现
为了让PlanetScale Connect能够作为ELT平台的源,它需要解决以下三个关键问题:
1. 模式发现
ELT源应支持发现PlanetScale数据库中所有关键空间中的模式,并以ELT工具要求的各种格式返回(通常是特定格式的JSON文档)。
2. 初始数据导出
ELT源应能够高效地返回PlanetScale数据库的完整数据导出。这一点至关重要,因为效率低下的解决方案会对生产数据库造成负面影响。
3. 增量数据同步
ELT源需支持“增量同步”的概念,即维护一个游标以描述数据最后同步的位置和时间。然后利用该游标仅查询自上一次同步以来被修改或新添加的数据。
关注公众号:程序新视界,一个让你软实力、硬技术同步提升的平台
除非注明,否则均为程序新视界原创文章,转载必须以链接形式标明本文链接