分类: 数据分析

3 篇文章

利用Spark Streaming、Kafka进行实时数据分析——以淘宝双11数据为例
环境部署 相关环境部署的笔记如下: zookeeper和spark安装:在zookeeper上搭建Spark集群的小笔记 kafka安装和使用:kafka学习笔记 sbt下载和安装:Linux无坑安装sbt 项目主要架构 数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态…
简单讲讲Mapreduce的Shuffle过程
引言 虽然我们编写Mapreduce程序只需着眼于编写Map端的map函数和Reduce端的reduce函数,但Shuffle过程是Mapreduce工作流程的核心环节,理解Shuffle过程是我们理解Mapreduce工作流程的核心关键。 Mapreduce的简要工作流程可看下图 从图中我们可以看出Mapreduce的工作流程分为Map、Shuf…
基于ALS的音乐分析及离线推荐系统的设计与实现
摘要 在互联网时代,各类的音乐网站提供了成千上万的需求,满足了人们对于音乐的需求,让我们在通勤出行或者闲暇之余可以听到各种不同类型的音乐。而通过分析挖掘海量的历史音乐欣赏记录和用户数据,我们得以窥见消费者选择音乐背后的动机,并可以揭示特定人群的“音乐DNA”。这能够启发强大的营销战略,能够给音乐运营商带来极富价值的数据。而数字音乐的迅速发展造成了音…