软件工程 版本管理工具: Git, SVNBug跟踪工具: Bugzilla基本的Java概念常用数据结构常用算法性能分析 (渐近分析, 硬件局限, 索引, etc.)常用设计模式
Linux系统使用 基本的Shell命令管道和定向输出基本概念 探索 (head, tail, more, less, grep)转换 (sed, awk, cut, tr, sort, join)任务安排 (cron, watch)可视化 (gnuplot) 正则表达式
大数据 MapReduce原理(Hadoop)分布式数据存储(HDFS, Cassandra, HBase)Hadoop Ecosysytem (Pig, Hive, HBase, Flume, Sqoop, etc.)实时数据处理(Spark, Storm, Shark)分布式机器学习Hadoop集群部署管理JVM优化
网络基础 HTTP, APIs, and Rest Parsing HTML and XMLJSONPDFCSS and XPath
数据存储 SQL (Postgres, MySQL)NoSQL 文档类(MongoDB, CouchDB)图类(Neo4j)Key-Value (Redis, Voldemort)文件系统和文本
统计学与概率学 R语言数据抓取技术描述性统计 (mean, mode, variance, etc.)估计 (confidence intervals, sampling, etc.)相关性 (covariance, causation, etc.)分布意义 (Hypothesis testing, ANOVA, etc.)条件概率数据挖掘
可视化 语法图形(ggplot2, Bokeh)交互性(Javascript, D3.js, HTML)地理和地图图表和图形(matplotlib)