2023年6月21日发(作者:)
PythonvsRvsSQL,数据预处理从⼊门到实战作者:阳哥来源:Python数据之道⼤家好,我是 阳哥 (昵称:Lemon)。今天,阳哥跟⼤家介绍⼀本专门针对数据预处理的书籍,书名是《数据预处理从⼊门到实战:基于SQL、R、Python》。在运营「Python数据之道」的这些年,经常收到不少数据分析朋友的吐槽和抱怨:Title 是数据分析,结果天天做着提数的⼯作,没有技术含量;分析结论都是运营和产品向⽼板汇报,没⾃⼰什么事;别⼈家的数据分析都是各种算法和模型,为什么到了⾃⼰就是提数和提数;……类似的问题很多。可见,在成为数据分析师、数据挖掘⼯程师、数据科学家等职业的路上,数据清洗、数据预处理等基础前置操作,始终是企业和⼀线员⼯需要⾯临的实际问题。有同学笑称,数据预处理的⼯作占数据分析任务的 80% 以上,⾜见其繁琐之处。之前,阳哥在「Python数据之道」跟⼤家分享了 、 、 等书。今天介绍的这本书的作者是⼀位⽇本⼈,名字叫本桥智光,这本书主要针对数据预处理进⾏介绍,并同时介绍 SQL、R 和 Python 3种语⾔在数据预处理⽅⾯的对照使⽤,在不同的场景下,会根据案例来分析使⽤哪种语⾔更⽅便。对于想同时熟悉和使⽤这3中语⾔的同学来说,这本书提供了⼀个实践的案例。这本书中,SQL的版本为 Redshift SQL, Python的版本为 3.6, R 的版本为 3.4 。本书的框架内容如下:数据类型在 IT 领域,常见的数据类型主要包括以下 3 种:1. 由数值和字符等构成的记录数据;2. 图⽚、语⾳和视频等多媒体数据3. 表⽰数据之间关联的图数据。记录数据和多媒体数据,⼤家都容易理解。这⾥阳哥稍微跟⼤家介绍下图数据。图数据由两个元素组成:节点和关系。每个节点代表⼀个实体(⼈,地,事物,类别或其他数据),每个关系代表两个节点的关联⽅式。这种通⽤结构可以对各种场景进⾏建模。存储图数据的数据库,⼀般称为图数据库,属于 NoSQL数据库的⼀种。NoSQL数据库⼤致可以分为四类:1. 键值(key/value)数据库2. 列存储数据库3. ⽂档型数据库4. 图数据库(Graph DB)NoSQL数据库类型图数据库使⽤的领域很多,⽐如:社交领域:Facebook, Twitter,Linkedin⽤它来管理社交关系,实现好友推荐零售领域:eBay,沃尔玛使⽤它实现商品实时推荐,给买家更好的购物体验⾦融领域:摩根⼤通,花旗和瑞银等银⾏在⽤图数据库做风控处理汽车制造领域:沃尔沃,戴姆勒和丰⽥等顶级汽车制造商依靠图数据库推动创新制造解决⽅案电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理⽹络,控制访问并⽀持客户360酒店领域:万豪和雅⾼酒店等顶级酒店公司依使⽤图数据库来管理复杂且快速变化的库存阳哥在⽹上找了两张使⽤图数据的场景:⾦融反欺诈分析模型⾦融反欺诈分析模型企业关系图谱企业关系图谱在本书中,作者主要是针对记录数据的预处理进⾏讨论的。数据预处理概述简单地说,数据分析的预处理就是为数据分析进⾏的准备⼯作。数据分析⼤致分为 3 种类型:1. 创建特征、表和图;2. ⽆监督学习的机器学习;3. 有监督学习的机器学习。针对⽆监督学习和有监督学习,在书中进⾏了简短的描述:数据预处理,主要也是针对上述三种类型展开:⽤于 “创建特征、表和图”的预处理⽤于 “⽆监督学习”的预处理⽤于 “有监督学习”的预处理⼀般的预处理步骤如下:在书中,会同时⽤到 SQL、 Python 和 R 三种编程语⾔,为了使读者能够更好的使⽤,作者也对三种语⾔的使⽤提供了⼀些建议:1. R 和 Python最多只能处理内存⼤⼩的数据,⽽SQL能够借助数据库资源处理超过内存⼤⼩的数据。因此,在针对⼤批量数据执⾏提取操作时,只⽤ SQL⽐较好;2. 在将数据从纵向转换为横向时,如果使⽤SQL,代码会变得冗长,⽽如果使⽤ R 或 Python,在会⽐较简洁;3. R适⽤于即时分析,Python借助Jupyter Notebook 也可以实现;4. 当需要系统地进⾏预处理时,由于 SQL 和 Python 的系统化环境⽐较丰富,和其他系统的兼容性更强,所以通常选择这两种语⾔。在书中 R语⾔中⽤于数据分析的库 tidyverse包集合中的 dplyr 包, Python语⾔中⽤于数据分析的库主要是 numpy 和 pandas本书的特点习题式结构,带着问题思考、学习,效果更好本书采⽤问题驱动式结构,先抛出常见预处理问题,引导读者思考如何实现。对⽐3中不同语⾔的实现,把握每种语⾔的特长⽤SQL、R和Python对⽐解决相同的案例问题,可以让读者了解各语⾔在处理各种预处理问题时有哪些优缺点,从⽽根据情况选择合适的语⾔,提升效率。同时给出⼀般代码与理想代码,优化处理的关键⼀⽬了然对于案例讲解,书中提供了详细的⽰意图⼩结对于想从SQL、R和Python 三种语⾔中选择合适⼯具来进⾏数据预处理的同学来说,本书提供了⼀个良好的开始。如果你觉得这本书不错,可以去购买⼀本,仔细阅读下。今⽇福利赠送 6 本书籍,书籍由图灵出版社赞助,书籍列表附后,书籍任选。参与⽅式1:通过在本⽂留⾔参与,赠送5本,留⾔的主题如下:1. 聊聊你对数据处理的理解?或2. 推荐⼀本书你读过的,觉得不错的书籍,并⽤⼀句话来描述你推荐的原因。参与⽅式:在公众号「Python数据之道」的本篇⽂章底部点击「在看」+「留⾔」,优质留⾔才可上墙!留⾔点赞数量最多的「前5位」读者将获得书籍,截⽌时间「3⽉14号20点」,最终获赠者通过微信联系我(微信ID:LemonDT2069)。参与⽅式2:在下⾯公号后台回复 “随机” ,通过抽奖的⽅式,赠送1本。开奖时间,3⽉14号20点PS:禁⽌恶意刷赞!发现后将进⼊⿊名单,取消上墙资格。可选书籍列表
2023年6月21日发(作者:)
PythonvsRvsSQL,数据预处理从⼊门到实战作者:阳哥来源:Python数据之道⼤家好,我是 阳哥 (昵称:Lemon)。今天,阳哥跟⼤家介绍⼀本专门针对数据预处理的书籍,书名是《数据预处理从⼊门到实战:基于SQL、R、Python》。在运营「Python数据之道」的这些年,经常收到不少数据分析朋友的吐槽和抱怨:Title 是数据分析,结果天天做着提数的⼯作,没有技术含量;分析结论都是运营和产品向⽼板汇报,没⾃⼰什么事;别⼈家的数据分析都是各种算法和模型,为什么到了⾃⼰就是提数和提数;……类似的问题很多。可见,在成为数据分析师、数据挖掘⼯程师、数据科学家等职业的路上,数据清洗、数据预处理等基础前置操作,始终是企业和⼀线员⼯需要⾯临的实际问题。有同学笑称,数据预处理的⼯作占数据分析任务的 80% 以上,⾜见其繁琐之处。之前,阳哥在「Python数据之道」跟⼤家分享了 、 、 等书。今天介绍的这本书的作者是⼀位⽇本⼈,名字叫本桥智光,这本书主要针对数据预处理进⾏介绍,并同时介绍 SQL、R 和 Python 3种语⾔在数据预处理⽅⾯的对照使⽤,在不同的场景下,会根据案例来分析使⽤哪种语⾔更⽅便。对于想同时熟悉和使⽤这3中语⾔的同学来说,这本书提供了⼀个实践的案例。这本书中,SQL的版本为 Redshift SQL, Python的版本为 3.6, R 的版本为 3.4 。本书的框架内容如下:数据类型在 IT 领域,常见的数据类型主要包括以下 3 种:1. 由数值和字符等构成的记录数据;2. 图⽚、语⾳和视频等多媒体数据3. 表⽰数据之间关联的图数据。记录数据和多媒体数据,⼤家都容易理解。这⾥阳哥稍微跟⼤家介绍下图数据。图数据由两个元素组成:节点和关系。每个节点代表⼀个实体(⼈,地,事物,类别或其他数据),每个关系代表两个节点的关联⽅式。这种通⽤结构可以对各种场景进⾏建模。存储图数据的数据库,⼀般称为图数据库,属于 NoSQL数据库的⼀种。NoSQL数据库⼤致可以分为四类:1. 键值(key/value)数据库2. 列存储数据库3. ⽂档型数据库4. 图数据库(Graph DB)NoSQL数据库类型图数据库使⽤的领域很多,⽐如:社交领域:Facebook, Twitter,Linkedin⽤它来管理社交关系,实现好友推荐零售领域:eBay,沃尔玛使⽤它实现商品实时推荐,给买家更好的购物体验⾦融领域:摩根⼤通,花旗和瑞银等银⾏在⽤图数据库做风控处理汽车制造领域:沃尔沃,戴姆勒和丰⽥等顶级汽车制造商依靠图数据库推动创新制造解决⽅案电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理⽹络,控制访问并⽀持客户360酒店领域:万豪和雅⾼酒店等顶级酒店公司依使⽤图数据库来管理复杂且快速变化的库存阳哥在⽹上找了两张使⽤图数据的场景:⾦融反欺诈分析模型⾦融反欺诈分析模型企业关系图谱企业关系图谱在本书中,作者主要是针对记录数据的预处理进⾏讨论的。数据预处理概述简单地说,数据分析的预处理就是为数据分析进⾏的准备⼯作。数据分析⼤致分为 3 种类型:1. 创建特征、表和图;2. ⽆监督学习的机器学习;3. 有监督学习的机器学习。针对⽆监督学习和有监督学习,在书中进⾏了简短的描述:数据预处理,主要也是针对上述三种类型展开:⽤于 “创建特征、表和图”的预处理⽤于 “⽆监督学习”的预处理⽤于 “有监督学习”的预处理⼀般的预处理步骤如下:在书中,会同时⽤到 SQL、 Python 和 R 三种编程语⾔,为了使读者能够更好的使⽤,作者也对三种语⾔的使⽤提供了⼀些建议:1. R 和 Python最多只能处理内存⼤⼩的数据,⽽SQL能够借助数据库资源处理超过内存⼤⼩的数据。因此,在针对⼤批量数据执⾏提取操作时,只⽤ SQL⽐较好;2. 在将数据从纵向转换为横向时,如果使⽤SQL,代码会变得冗长,⽽如果使⽤ R 或 Python,在会⽐较简洁;3. R适⽤于即时分析,Python借助Jupyter Notebook 也可以实现;4. 当需要系统地进⾏预处理时,由于 SQL 和 Python 的系统化环境⽐较丰富,和其他系统的兼容性更强,所以通常选择这两种语⾔。在书中 R语⾔中⽤于数据分析的库 tidyverse包集合中的 dplyr 包, Python语⾔中⽤于数据分析的库主要是 numpy 和 pandas本书的特点习题式结构,带着问题思考、学习,效果更好本书采⽤问题驱动式结构,先抛出常见预处理问题,引导读者思考如何实现。对⽐3中不同语⾔的实现,把握每种语⾔的特长⽤SQL、R和Python对⽐解决相同的案例问题,可以让读者了解各语⾔在处理各种预处理问题时有哪些优缺点,从⽽根据情况选择合适的语⾔,提升效率。同时给出⼀般代码与理想代码,优化处理的关键⼀⽬了然对于案例讲解,书中提供了详细的⽰意图⼩结对于想从SQL、R和Python 三种语⾔中选择合适⼯具来进⾏数据预处理的同学来说,本书提供了⼀个良好的开始。如果你觉得这本书不错,可以去购买⼀本,仔细阅读下。今⽇福利赠送 6 本书籍,书籍由图灵出版社赞助,书籍列表附后,书籍任选。参与⽅式1:通过在本⽂留⾔参与,赠送5本,留⾔的主题如下:1. 聊聊你对数据处理的理解?或2. 推荐⼀本书你读过的,觉得不错的书籍,并⽤⼀句话来描述你推荐的原因。参与⽅式:在公众号「Python数据之道」的本篇⽂章底部点击「在看」+「留⾔」,优质留⾔才可上墙!留⾔点赞数量最多的「前5位」读者将获得书籍,截⽌时间「3⽉14号20点」,最终获赠者通过微信联系我(微信ID:LemonDT2069)。参与⽅式2:在下⾯公号后台回复 “随机” ,通过抽奖的⽅式,赠送1本。开奖时间,3⽉14号20点PS:禁⽌恶意刷赞!发现后将进⼊⿊名单,取消上墙资格。可选书籍列表
发布评论