这里分享一些自己学习过程中觉得不错的资料和开发工具。

emoji objects:book 经典书籍

emoji objects:computer 官方文档

上面的书籍我都列出了出版日期,可以看到大部分书籍的出版时间都比较久远了,虽然这些书籍比较经典,但是很多书籍在软件版本上已经滞后了很多。所以推荐优先选择各个框架的官方文档作为学习资料。大数据框架的官方文档都很全面,并且对知识点的讲解都做到了简明扼要。这里以 Spark RDD 官方文档 为例,你会发现不仅清晰的知识点导航,而且所有示例都给出了 Java,Scala,Python 三种语言的版本,除了官方文档,其他书籍很少能够做到这一点。

emoji objects:orange_book 优秀博客

  • 有态度的 HBase/Spark/BigData:http://hbasefly.com/
  • 深入 Apache Spark 的设计和实现原理 : https://github.com/JerryLead/SparkInternals
  • Jark's Blog - Flink 系列文章:http://wuchong.me/categories/Flink/

emoji objects:triangular_ruler开发工具

1. VirtualBox

一款开源、免费的虚拟机管理软件,虽然是轻量级软件,但功能很丰富,基本能够满足全部的使用需求。

官方网站:https://www.virtualbox.org/

2. MobaXterm

大数据的框架通常都部署在服务器上,这里推荐使用 MobaXterm 进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展。

官方网站:https://mobaxterm.mobatek.net/

3. Translate Man

Translate Man 是一款浏览器上的翻译插件 (谷歌和火狐均支持)。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。

4. ProcessOn

ProcessOn 式一个在线绘图平台,使用起来非常便捷,可以用于笔记或者博客配图的绘制。

官方网站:https://www.processon.com/


书籍推荐