Skip to main content

📚 专栏简介

在学习大数据的路上,想必很多人都有同样的感受,就是大数据领域里需要学习的知识实在是太多了。

基础方面,数据结构、分布式理论、网络编程、并发编程是必不可少的。在此之上,大数据领域当前的根基,Hadoop、HDFS 也是必须掌握的内容。此外,还需要学习 Zookeeper、Kafka、ElasticSearch 等常见分布式组件。然后,根据个人的喜好和发展方向,可能还有以下侧重点。在数据采集方面,需要学习 Canal、Storm、Flume 等采集组件;在数据计算方面,有 Spark、Flink 等计算框架。至于数据库层面,那更是五花八门了,有 HBase、Kudu、Druid、ClickHouse 等等。如果想彻底弄清楚这些组件的底层原理,除了学习 Java 和 Scala,还需要去学习 C、C++,甚至还需要深入到操作系统乃至硬件底层。

要学习的知识这么多,自然会引来一个问题,即学习的过程中会接触到大量风格迥异的学习资料。这对于学习效率而言,是不利的。一方面,学习者难以对这些学习资料加以归类、收藏;另一方面,风格迥异的文风、排版、图表,有时候也会混淆学习者对某些概念的理解。

为了解决这些问题,笔者有一个野心,希望能编写一个大数据专栏,尽可能地囊括大数据的核心知识与组件,以凝练自身的知识体系。这便是本专栏诞生的原因。当然,受限于笔者能力,专栏中不可避免地会出现一些错误,若有幸被您发现,欢迎您将指导信息反馈到笔者邮箱:pentaxie@qq.com

🐼 关于作者

笔名 Panda,毕业于厦门大学管理学院管理科学系,一个转行的卑微码畜。现就职于腾讯 CSIG 云与智慧产业事业群,从事大数据相关工作,目标是成为架构师。

🔔 友情提示

1. 本专栏内容大部分属于原创或翻译自官方文档,如有少部分内容侵权,请及时联系笔者标注出处。

2. 本着开源精神,本专栏不设任何限制,如有拷贝,烦请注明出处,尊重一下作者的劳动成果,切不可将本专栏内容用于商业用途。