数据分析师的流程与知识结构数据分析师的流程与知识结构在互联网高速发展的今天,大数据依然渗透到我们的生活和工作,企业要想在未来获得更多的价值,大数据和数据分析师是非常有必要的。但是作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1、数据采集了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题。同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。 2、数据存储无论数据存储于云端,还是本地,数据的存储不只是我们看到的数据库那么简单。比如:数据存储系统是MySql、Oracle、SQLServer,还是其他系统;数据仓库结构及各库表如何关联,星型、雪花型,还是其他;生产数据库接收数据时是否有一定规则,比如只接收特定类型字段;生产数据库面对异常值如何处理,强制转换、留空,还是返回错误;生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么;接触到的数据是原始数据,还是ETL后的数据,ETL规则是什么;数据仓库数据的更新机制是什么,全量更新,还是增量更新; 不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的…在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。 3、数据提取数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取,从哪取:数据来源,不同的数据源得到的数据结果未必一致;何时取:提取时间,不同时间取出来的数据结果未必一致;如何取:提取规则,不同提取规则下的数据结果很难一致。在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的SelectFrom语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次,第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。 4、数据挖掘数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则,没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性;没有一种算法能解决所有问题,但精通一门算法可以解决很多问题
数据分析师的流程与知识结构 来自淘豆网m.daumloan.com转载请标明出处.