数据分析 – 哈利波坨

利用Spark Streaming、Kafka进行实时数据分析——以淘宝双11数据为例

环境部署相关环境部署的笔记如下： zookeeper和spark安装：在zookeeper上搭建Spark集群的小笔记 kafka安装和使用：kafka学习笔记 sbt下载和安装：Linux无坑安装sbt 项目主要架构数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态…

数据分析

|

2025-5-30 22:00

|

549

|

0

3299 字

|

49 分钟

简单讲讲Mapreduce的Shuffle过程

引言虽然我们编写Mapreduce程序只需着眼于编写Map端的map函数和Reduce端的reduce函数，但Shuffle过程是Mapreduce工作流程的核心环节，理解Shuffle过程是我们理解Mapreduce工作流程的核心关键。 Mapreduce的简要工作流程可看下图从图中我们可以看出Mapreduce的工作流程分为Map、Shuf…

数据分析

|

2025-5-30 21:12

|

578

|

0

1368 字

|

6 分钟

基于ALS的音乐分析及离线推荐系统的设计与实现

摘要在互联网时代，各类的音乐网站提供了成千上万的需求，满足了人们对于音乐的需求，让我们在通勤出行或者闲暇之余可以听到各种不同类型的音乐。而通过分析挖掘海量的历史音乐欣赏记录和用户数据，我们得以窥见消费者选择音乐背后的动机，并可以揭示特定人群的“音乐DNA”。这能够启发强大的营销战略，能够给音乐运营商带来极富价值的数据。而数字音乐的迅速发展造成了音…

数据分析

|

2025-3-16 23:22

|

670

|

0

7497 字

|

1.3 小时

分类： 数据分析

分类：数据分析