笔者正在由电商产品经理转型数据产品经理,为了提升自己学习的效率,尝试以这种输出驱动输入的模式,将自己学习的思路和学习内容分享给大家,也希望可以与其他数据产品经理多多交流。
本文尝试凭借笔者的理解构建一套数据产品经理能力模型,作为自己未来学习的方向。
本文共分四个部分:
- 第一部分,从招聘市场需求入手,看市场上的招聘高级数据产品经理都需要掌握哪些硬实力;
- 第二部分,结合一些数据产品经理的分享,梳理数据产品经理的朋友圈,因为沟通者一定程度决定了需要掌握多少“共通语言”;
- 第三部分,构建数据产品经理能力模型;
- 第四部分,详解一些数据产品常常接触的概念和系统。
一、从招聘要求看能力要求
笔者在拉勾网和猎聘网上搜索数据产品经理和高级数据产品经理,将岗位职责汇总整理,招聘方对于数据产品经理的需求如下所示:
1、熟练使用MySQL,SQL、Hive等语言;
2、熟悉数据生产加工流程;
3、对主流大数据产品、BI产品;
4、对数据仓库技术及理论有基本的了解,并对其发展趋势有深入了解;
5、了解数据分析,数据建模和数据挖掘技术及理论;
6、能很好地掌握产品思路、技术方案、商务策略等,驱动各角色解决问题 ,具有良好的商业洞察与判断,很强的逻辑思维能力、产品策划、品牌包装与宣传能力,对数据和业务敏感,有一定技术背景优先考虑。
从上面的企业招聘需求可以看出,数据产品经理除了需要具备一些普通产品经理基础能力外,对数据分析,商业智能,数据挖掘等技能有着非常高的专业门槛。虽然数据产品经理也细分出应用方向,大数挖掘方向,数据分析方向,但为了更加有效的共同,还是有必要补全知识结构。数据产品经理多是数据分析师和数据开发通过内部转岗完成的,笔者属于电商产品转应用方向数据产品,在发挥业务理解优势的同时,需要快速补全数据分析相关知识,便于与对接同事高效协作。
二、数据产品经理的朋友圈
曾经分析过AI产品经理模型,也是从产品经理的朋友圈说起,因为产品经理很多时候承担着协调推进角色,也承担了部分”翻译官“的觉,将业务需求转化成不同的语言表达,找老板要资源,请开发写代码,叙述清楚页面设计要求,这个时候就需要产品掌握不同分科中的一些”黑话“,让对方感觉你是自己人,数据产品经理也是同样的,我们来看看数据产品经理的朋友圈,也有助于进一步理解数据产品能力模型。
图片源于《阿里巴巴数据产品经理工作(总结篇)》
数据产品经理本质是互联网产品经理的一个细分领域,其产品的用户是公司内部,外部客户等,其目标是通过数据分析和挖掘,辅助其发现问题,提高决策准确性,而为了完成这类产品,我们不单要与传统的开发,交互,设计,用研,客户,测试同学打交道,还需要与数据分析师,数据科学家,AI工程师,数据仓库管理员等同学沟通,为了可以保证沟通中的效率,我们需要清楚沟通时可能会涉及到哪些专业名词,技术实现边界,行业发展情况,竞品实现逻辑,笔者将尝试在后续文章中梳理总结。
三、能力模型构建
数据产品经理是产品经理岗位的一个细分领域,其能力模型可以理解为一般产品经理能力模型+专业能力补充模型。下图是腾讯产品经理能力模型体系,清晰界定了不同等级产品经理19个能力侧重方向,整体来看学习能力,执行力,沟通能力,市场/用户调研与分析是最核心能力。
以上19个基础能力模型中,数据产品经理在技术知识模块和市场分析能力/前瞻性需要了解/熟悉/掌握如下知识和技能:
1、计算机语言层面:熟练使用MySQL,SQL、Hive等语言;
2、熟悉数据生产加工流程:数据采集,数据预处理,数据存储,数据分析,数据挖掘,数据可视化,数据服务产品化;
3、需要了解的各类技术理论及发展趋势
了解主流大数据产品及分布式大数据技术,如Hadoop(HDFS和MapReduce),Hive等;
了解主流大数据编程语言,如python、R、mongodb等、
了解主流BI产品,如Tableau、saiku、kylin、BDP、growingIO、神策等、
了解数据仓库技术及理论,并对其发展趋势有深入了解;
了解数据分析,数据建模和数据挖掘技术及理论;
四、数据产品经理经常面对的基础概念
1. 可能接触到的英文缩写
数据仓库 Data Warehouse
数据集市 Data Mart
数据挖掘 Data Mining
DBMS:Database Management System数据库管理系统
DBA: Database Administrator数据库管理员
RDBMS:Relational Database Management System关系数据库管理系统
OLAP:(On-Line Analytical Processing)联机分析处理。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP:(On-Line Transaction Processing)联机事务处理。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
BI: Business Intelligence 商业智能
KDD:knowledge discovery in databases 数据库知识发现
2. 数据分析,数据建模和数据挖掘的定义和区别
(1)数据分析
Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision-making.[源于wikipedia]
可以看出,数据分析强调使用统计学方法,发现有用信息,支持决策,构造建设性结论。
(2)数据挖掘
Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. It is an interdisciplinary subfield of computer science. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.[源于wikipedia]
数据挖掘与大数据关联性更加密切,利用人工智能,机器学习,统计学等知识,对于大型数据集进行分析,发现规律,预测未来,辅助决策。
(3)数据建模
Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.[源于wikipedia]
数据建模是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。 建模过程中的主要活动包括:确定数据及其相关过程;定义数据;确保数据的完整性;定义操作过程;选择数据存储技术。数据建模大致分为三个阶段,概念建模阶段,逻辑建模阶段和物理建模阶段。其中概念建模和逻辑建模阶段与数据库厂商毫无关系,换言之,与MySQL,SQL Server,Oracle没有关系。
数据分析和数据挖掘的关系:从数据量级来看,一般情况下,数据分析的数据量可能并不大,而数据挖掘的数据量极大。从建模条件来看,数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。从分析对象来看,数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据。
从结果来看,数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。数据挖掘与数据分析两者紧密相连,具有循环递归的关系
3. 数据库,数据仓库和数据集市的定义和区别
(1)数据库
数据库是指长期存储在计算机内有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。数据库理论的研究主要集中于关系的规范化理论、关系数据理论等。近年来,随着人工智能与数据库理论的结合及并行计算机的发展,数据库逻辑演绎和知识推理、并行算法等理论研究,以及演绎数据库系统、知识库系统和数据仓库的研制都已成为新的研究方向。
(2)数据仓库
数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。首先,数据仓库用于支持决策,面向分析型数据处理,其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
(3)数据集市
为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS(关系数据库管理系统Relational Database Management System) 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。
(4)数据库和数据仓库的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。从时间属性来看,数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。
4. 商务智能与大数据的概念及发展概况
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。而这些数据可能来自企业的CRM、SCM等业务系统。
主流商业智能产品:Tableau、saiku、kylin、BDP、growingIO、神策、阿里数加等。笔者正在阅读阿里巴巴的 《大数据之路》,后续将结合阿里数加产品整理阅读心得。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。
大数据的发展趋势:数据资源化,大数据与云计算深度结合,科学理论的突破,数据科学和数据联盟的成立,数据泄露泛滥,数据管理成为核心竞争力,数据质量是BI成功的关键,数据生态系统复合化程度加强。
5. 数据处理流程
需求分析,数据采集,数据预处理,数据分析,数据挖掘,数据可视化,数据服务产品化(模板化)。
- 数据产品需求分析:向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务,同时结合平台已有能力,确定数据分析或挖掘方案。
- 数据采集:第一步需要定义数据源选择,DBA可以基于数据分析需要,找到相关数据,建立一张数据宽表,将数据仓库的数据引入到这张宽表当中,基于一定的逻辑关系进行汇总计算。这张宽表作为数据分析的基础,然后再依据数据分析需要衍生出一些不同的表单,为数据分析提供干净全面的数据源;
- 数据预处理:需要完成数据类型选择,缺失值处理和异常值检测和处理,实现数据标准化;
- 数据分析:详见下文,常见数据分析分析方法应用场景和概念;
- 数据挖掘:详见下文,结合机器学习的数据挖掘概述;
- 数据可视化:详见下文;
- 数据服务产品化:将结合阿里巴巴产品做细致分析。
后续笔者将梳理数据产品设计结构,从数据驱动产品设计,数据分析常用方法,数据分析工具的使用等,感兴趣的朋友可以添加关注。