发布时间:2023-08-21 14:30
1:基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一致的数据湖。
2:业务与数据双驱动,加强数据联接建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求。
3:针对汇聚的海量内外部数据,能够确保数据安全合规。
4:不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入。
1)数据源:业务数字化是数据工作的前提,通过业务对象、规则与过程数字化,不断提升数据质量,建立清洁、可靠的数据源。
2)数据湖:基于“统筹推动、以用促建”的建设策略,严格按六项标准,通过物理与虚拟两种入湖方式,汇聚华为内部和外部的海量数据,形成清洁、完整、一致的数据湖。
3)数据主题联接:通过五种数据联接方式,规划和需求双驱动,建立数据主题联接,并通过服务支撑数据消费。
4)数据消费:对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需求。
5)数据治理:为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系、数据分类、数据感知、数据质量、安全与隐私等。数据体系建设的整体框架,基于统一的规则与平台,以业务数字化为前提,数据入湖为基础,通过数据主题联接并提供服务,支撑业务数字化运营
第一条:所有关键数据必须认证数据源。关键数据是指影响公司经营、运营报告的数据,在公司范围内统一发布。
第二条:数据管理专业组织为关键数据指定源头,数据源必须遵从信息架构和标准,经信息架构专家委员会认证后成为数据源。
第三条:所有关键数据仅能在数据源录入、修改,全流程共享,其他调用系统不能修改。下游环节发现的数据源质量问题,应当在数据源进行修正。
第四条:所有应用系统必须从数据源或数据源镜像获取关键数据。
第五条:数据Owner确保数据源的数据质量,对不符合数据质量标准的数据源,必须限期整改。
随着业务对大数据分析的需求日益增长,非结构化数据的管理逐渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格文件,较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。
相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。
为了更好地识别、管理数据在流程和IT系统间的流动,可以通过信息链、数据流来进行描述,体现某一数据在流程或应用系统中是如何被创建(Create)、读取(Read)、更新(Update)、删除(Delete)的。
原则一:业务对象是指企业运作和管理中不 可缺少的重要人、事、物。
原则二:业务对象有唯一身份标识信息。
原则三:业务对象相对独立并有属性描述。
原则四:业务对象可实例化。
传统信息架构向业务数字化扩展:对象、 过程、规则
在业务执行中存在大量规则,但绝大部分规则都缺乏有效管理,往往只能通过文件和文档管理,即使有部分规则固化到了IT系统中,也是无法灵活调整的。例如,有业务人员经常抱怨,由于每年都会发布一些文件来制订业务规范,因此自己不知道哪些是最新的,以及多个历史规范之间是否有重叠和矛盾;另外,如果想基于业务变化对规则进行刷新,但这些规则都固定在IT代码中,IT系统动辄需要数个月才能完成修改,而此时业务可能又发生了新的变化。
规则数字化的目的是把复杂场景下的复杂规则用数字化手段进行管理。良好的规则数字化管理,应该能实现业务规则与IT应用解耦,所有关键业务规则数据要实现可配置,能够根据业务的变化灵活调整。
对数据源的文件内容进行文本解析、拆分后入湖。入湖的过程中,原始文件仍存储在源系统,数据湖中仅存储解析后的内容增强元数据。内容解析入湖需同时满足如下条件。
已经确定解析后的内容对应的Owner、密级和使用的范围。
已经获取了解析前对应原始文件的基本特征元数据。
已经确定了内容解析后的存储位置,并保证至少一年内不会迁移。
标签是根据业务场景的需求,通过对目标对象(含静态、动态特性)运用抽象、归纳、推理等算法得到的高度精练的特征标识,用于差异化管理与决策。标签由标签和标签值组成,打在目标对象上。
标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。标签分为事实标签、规则标签和模型标签。
事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。
数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来 提供,以满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。
数据服务和传统集成方式有很大区别,数据的使用方(不仅仅是IT系统人员,也可以是具体业务人员)不再需要点对点地寻找数据来源,再点对点地进行数据集成,从而形成错综复杂的集成关系,而是通过公共数据服务按需获取各类数据
1)保障“数出一孔”,提升数据的一致性。通过服务获取数据的方式类似于“阅后即焚”,大部分情况下数据并不会在使用方的系统中落地,因此减少了数据“搬家”,而一旦数据的使用方并不拥有数据,就减少了向下游二次传递所造成的数据不一致问题。
2)数据消费者不用关注技术细节,可以满足不同类型的数据服务需求。对于数据消费者而言,不用再关心“我要的数据在哪里”,例如用户不需要知道这些数据来自哪个系统、哪个数据库、哪个物理表,只需要清楚自身的数据需求,就能找到对应的数据服务,进而获取数据。
2)提升数据敏捷响应能力。数据服务一旦建设完成,并不需要按使用者重复构建集成通道,而是通过“订阅”该数据服务快速获取数据。
4)满足用户灵活多样的消费诉求。数据服务的提供者并不需要关心用户怎么“消费”数据,避免了供应方持续开发却满足不了消费方灵活多变的数据使用诉求的问题。
5)兼顾数据安全。所有数据服务的使用都可管理,数据供应方能够准确、及时地了解“谁”使用了自己的数据,并且可以在数据服务建设中落实各种安全措施,确保数据使用的合规。
数据地图(DMAP)是面向数据的最终消费用户针对数据“找得到”“读得懂”的需求而设计的,基于元数据应用,以数据搜索为核心,通过可视化方式,综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系,让用户高效率地找到数据,读懂数据,支撑数据消费。数据地图作为数据治理成果的集散地,需要提供多种数据,满足多类用户、多样场景的数据消费需求,所以华为公司结合实际业务制定了如图所示的数据地图框架。
数据搜索可以提高用户的搜索准确度,使用户能快速理解搜索出来的数据内容,通过组合搜索、筛选分类,数据标签等持续提升用户体验。
通过界面封装搜索引擎,只向用户暴露单一的搜索栏,通过搜索栏的单一或者组合搜索,发现数据。以图为例,当用户搜索“数据标准”时,既可以精确匹配名称的资产,通过关联搜索带出完全匹配的资产并进行展示,也可以在输入的关键词无法直接匹配逻辑实体或者物理表名称的情况下,执行模糊逻辑搜索,对所涉及的前分词、后分词、中间分词进行匹配,除了逻辑实体名称,也会涉及属性名称、业务描述等更多内容的匹配。当没有完全匹配的直接资产时(如“人员”),会根据前后分词进行搜索,这样整体的结果记录会比较多,并会涵盖搜索属性名称或者业务定义中的“人员”关键词。
排序推荐能让用户更容易地找到高质量、可消费的数据资产,缩小搜索结果集范围,减少数据识别和判断的时间,最终目标是让用户实现“所搜即所得”的效果。对应搜索结果的推荐排序,主要在功能侧提供了两类服务,以便用户通过被动式和主动式的办法管理搜索结果。
随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。数据感知能力架构如图所示。
数据感知可分为“硬感知”和“软感知”,面向不同场景。“硬感知”主要利用设备或装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而“软感知”使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖物理设备进行收集。
埋点
埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获。埋点的主要作用是能够帮助业务和数据分析人员打通固有信息墙,为了解用户交互行为、扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活跃用户数等。这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营状况,通过分析埋点获取的数据,制定产品改进策略。埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求,匹配使用。
代码埋点是目前比较主流的埋点方式,业务人员根据自己的统计需求选择需要埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在想要获取数据的统计点上。可视化埋点通过可视化页面设定埋点区域和事件ID,从而在用户操作时记录操作行为。全埋点是在SDK部署时做统一的埋点,将App或应用程序的操作尽量多地采集下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生的信息全采集下来。
日志数据采集
日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目的是识别运行错误、配置错误、入侵尝试、策略违反或安全问题。在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。操作日志,指系统用户使用系统过程中的一系列的操作记录。此日志有利于备查及提供相关安全审计的资料。运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。安全日志,用于记录在设备侧发生的安全事件,如登录、权限等。
网络爬虫
网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规则自动抓取网页信息的程序或者脚本。搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的发展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最佳实践。Python、Java、PHP、C#、Go等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及,也促成了政府、企业界、个人对信息安全和隐私的关注。
作为数据资产管理的核心,感知元数据管理应该包含两个方面的内容
数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。
1)完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
2)及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
3)准确性:指真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息保持一致。
4)一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
5)唯一性:指同一数据只能有唯一的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。
6)有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。
异常数据是不满足数据标准、不符合业务实质的客观存在的数据,如某位员工的国籍信息错误、某位客户的客户名称信息错误等。
华为结合ISO8000数据质量标准、数据质量控制与评估原则(国标SY/T 7005—2014),共设计了15类规则,具体如图所示。
规则分类内容及示例