-
读数据工程之说念: 盘算和构建健壮的数据系统33改日
发布日期:2024-11-16 11:39 点击次数:1251. 改日
1.1. 运营的优先级和最好实践与时候可能会改变,但人命周期的主要阶段会在好多年内保合手不变
1.2. 跟着组织以新的方式诳骗数据,将需要新的基础、系统和责任流来得志这些需求
1.3. 若是器具变得更容易使用,数据工程师就会向价值链上犹豫动,专注于更高等别的责任
1.4. 数据工程人命周期不会很快隐藏
1.5. 简化的、易用的器具延续训斥着数据工程师的准初学槛
1.6. 大数据关联时候总会后起之秀
1.6.1. 谷歌BigQuery是GFS和MapReduce的后裔,不错查询PB级的数据
1.6.2. 云的出现导致开源器具的使用产生紧要转念
1.6.3. 云托管的开源器具与云私有的做事一样容易使用
1.6.3.1. 有高度专科化需求的公司也不错部署云托管的开源,然后若是它们需要定制底层代码,再转向到自处分的开源器具
1.7. 现成的数据聚拢器越来越受迎接
1.7.1. 新一代的托管聚拢器曲直凡引东说念主注主张,即使对专精于此的工程师来说亦然如斯,因为他们开动意志到这种器具不错爽快时期和元气心灵
1.8. 时候趋势不仅是由那些造轮子的东说念主决定的,亦然由那些用好轮子的东说念主决定的
1.8.1. 灵验地使用器具与创造器具不异紧要
1.8.2. 下一步不错找契机应用实经常候、改善用户体验、创造价值,并界说全新的应用表率类型
2. 云数据操作系统过头高互通性
2.1. 雷同操作系统做事,但规模要更大,在好多机器上运行而不是单一的做事器
2.2. 云数据操作系统这一主张的进化的下一个前沿将在更高层级发展
2.3. 新一代文献步地(如Parquet和Avro)依然开动用于云数据交换,大大改善了CSV互操作性和原生JSON的性能
2.4. 数据API生态系统的另一个要害部分是包括了模式和数据层级的元数据目次,目下广泛使用的是传统的Hive Metastore
2.4.1. 元数据将在数据互操作性方面推崇要害作用,包括跨应用表率和系统以及跨云和网罗,并鼓励自动化和简化
2.5. 处分云数据做事的脚手架也会有紧要纠正
2.5.1. Apache Airflow依然成为第一个信得过面向云的数据任务编排平台
2.5.2. 下一代的数据编排平台将以增强数据集成和数据可感知性为特征
2.5.2.1. 任务编排平台将与数据目次和数据血统集成,数据可感知性因此会极大增强
2.6. 流管说念和数据库随机赢得和查询流数据
2.6.1. Apache Pulsar这么的器具为指明了改日,即流式DAG不错用相对不详的代码来部署复杂的调治
2.7. 更复杂的移动操作系统沙盘框架并莫得淘汰移动应用表率开导东说念主员
2.7.1. 移动应用表率开导东说念主员目下不错专注于构建质地更好、更复杂的应用表率
2.8. 云数据操作系统范式晋升了各式应用表率和系统的互操作性和绵薄性
3. “企业级”数据工程
3.1. 数据器具的日益简化和最好实践的流传意味着数据工程将变得愈加“企业级”
3.2. 也曾只给巨型组织使用的时候和实践正在向卑鄙浸透
3.3. 大数据和流数据也曾的难过部分目下依然被玄虚化,要点转化到了易用性、互操作性和其他纠正上
4. 数据工程师的头衔和职责将发生的变化
4.1. 好多数据科学家是通过一个有机的过程更正为数据工程师的
4.2. 这类跨脚色但专注于机器学习的新工程师将了解算法、机器学习时候、模子优化、模子监控和数据监控
4.3. 主要任务将是创建或诳骗自动西宾模子的系统、监控性能,并将家喻户晓的模子类型变为整套可运作的机器学习经由
4.4. 可能改变的职位发生在软件工程和数据工程的交叉点上
4.4.1. 软件工程师将需要对数据工程有更深刻的了解,学习如流处理、数据管说念、数据建模和数据质地等方面的专科常识
5. 迈向及时数据栈
5.1. 当代数据栈(Modern Data Stack,MDS)并不那么当代
5.1.1. MDS基本上是当代云和SaaS时候对旧数据仓库实践的再行包装
5.1.2. MDS是围绕云数据仓库范式成立的,因此它与下一代及时数据应用表率的后劲比拟有一些严重的阻挡
5.1.3. 践诺的需求正在特出基于数据仓库的里面分析和数据科学,需要用下一代及时数据库为通盘企业和应用表率提供及时复古
5.1.4. MDS将我方阻挡在视数据为有界的批处理时候上
5.2. 目下大多数看板和报表在恢复“是什么”和“什么时期”
5.2.1. 若是平直知说念如何作念了,为什么还要再看报表呢?
5.2.1.1. “作念什么”就不错自动化了
5.3. 信得过的及时数据应用表率,在点击按钮时提供所需要的行为,同期在幕后进行极其复杂但快速的数据处理和机器学习
5.3.1. ELT、云数据仓库和SaaS数据管说念的玄虚无疑改变了好多公司的游戏要领,为BI、分析和数据科学开辟了新的力量
5.4. 实经常候的民主化将指令咱们走向MDS的续集:及时数据栈的上市和普及
5.4.1. 将通过流时候将及时刻析和机器学习和会到应用表率中,涵盖从应用表率源系统到数据处理再到机器学习的通盘数据人命周期,月盈则食
5.4.2. 将企业里面的数据仓库和管说念时候带给人人一样,及时数据栈将精英科技公司使用的及时数据应用表率时候看成易于使用的云家具提供给各式规模的公司
5.5. 及时数据应用表率将数据视为无界的、一语气的流
5.5.1. 流式管说念和及时刻析数据库看成两个中枢时候,将促进MDS到及时数据栈的更正
5.5.2. 流数据将用其更多业务用途发挥这种预期
5.5.3. 流式传输将从根蒂上改变组织时候和业务经由
5.6. 及时刻析数据库不错罢了对这些数据的快速赢得和亚秒级的查询
5.6.1. 数据不错被推行或与历史数据集相市欢
5.6.2. 当与流式管说念和自动化相市欢时,或者与及时刻析的边幅板市欢时,一个全新的可能性就出现了
5.6.2.1. 将不再受制于运行迟缓的ELT经由、拒绝15分钟的更新,或其他要恭候的要津,数据酿成了一语气流动的
5.7. 跟着流式赢得变得越来越广泛,批量赢得将越来越少
5.7.1. 将从ELT(也等于数据库内调治)更正为更像ETL的东西
5.7.2. 在流的语境下数据抽取是一个合手续的、一语气的过程
5.7.3. 批量调治不会全齐隐藏
5.7.3.1. 批处理关于模子西宾、季度报表等仍将非凡有用
5.7.4. 流式调治将成为常态
5.8. 数据仓库和数据湖关于容纳大齐的数据和实施点对点查询是很好的,但它们关于低蔓延的数据赢得或对快速传输的数据的查询却莫得那么好的优化
5.9. 及时数据栈将由成心为流而盘算的OLAP数据库驱动
5.9.1. 像Druid、ClickHouse、Rockset和Firebolt这么的数据库在为下一代数据应用的后端赋能方面处于进局势位
5.10. ⑩数据与应用表率的和会
5.10.1. 应用表率栈将成为数据栈,反之亦然
5.10.2. 应用表率将集成及时自动化和方案,由流式管说念和机器学习驱动
5.10.3. 数据工程人命周期不一定会改变,但人命周期各阶段之间的时期将大幅训斥
5.11. ⑾应用表率和机器学习之间的缜密反映轮回
5.11.1. 应用表率和机器学习的和会
5.11.2. 当下,应用表率和机器学习是不相干的系统,就像应用表率和分析那样是分裂开的
5.11.2.1. 软件工程师、数据科学家和机器学习工程师相互独处责任
5.11.3. 机器学习非凡适用于那些数据生成的速率和数目惊东说念主到无法手动处理的场景
5.11.4. 跟着数据规模和速率的增长,机器学习会变得适用于总计场景
5.11.5. 大齐快速移动的数据,加上复杂的责任流和门径,能让机器学习一展技艺
5.11.6. 跟着数据反映回路的训斥,咱们预测大多数应用表率齐能集成机器学习
5.11.6.1. 跟着数据的快速移动,应用表率和机器学习之间的反映轮回将变得缜密
5.11.6.2. 及时数据栈中的应用表率应当是智能的,并随机及时相宜数据的变化
5.12. ⑿电子表格
5.12.1. 电子表格的用户群在7亿~20亿东说念主之间
5.12.2. 电子表格是数据宇宙的“暗物资”
5.12.3. 大齐的数据分析齐是在电子表格中运行的,从不属于咱们在本书中刻画的复杂的数据系统
5.12.4. 电子表格是一种复古复杂分析的交互式数据应用表率
5.12.5. 与pandas(Python数据分析库)等地说念的基于代码的器具不同,电子表格不错被各式用户使用,从那些只知说念如何掀开文献和看报表的用户到不错编写复杂的表率性数据处理的高等用户