AI-docs/README.md at master · fzylx/AI-docs · GitHub

Spark & Hadoop基础

(必读)Spark官方文档
(必读)Spark ML 官方文档
(必读)Spark参数配置官方文档
 Spark在美团的实践
 Spark核心技术与实践
 spark机器学习算法研究和源码分析
 Apache Spark 内存管理详解
 Spark入门实战系列--9.Spark GraphX介绍及实例
 HDFS NameNode内存全景
 HDFS NameNode内存详解
 Spark机器学习库（MLlib）指南
 大数据学习——Spark Structured Streaming入门编程指南
 Databricks孟祥瑞：ALS 在 Spark MLlib 中的实现
(必读)Spark性能优化指南——基础篇
(必读)Spark性能优化指南——高级篇
 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势
 Spark的性能调优
 Spark性能优化——和shuffle搏斗
 Spark 性能相关参数配置详解－shuffle篇
 Hadoop YARN在异构环境下应用与实践-Hulu大数据架构组负责人董西成
 GC调优在Spark应用中的实践
 Spark On YARN内存分配
 Apache Spark探秘：实现Map-side Join和Reduce-side Join
spark 应用程序性能优化|12 个优化方法
 Apache Spark Jobs 性能调优（二）
Spark Streaming + Elasticsearch构建App异常监控平台
 使用基于Apache Spark的随机森林方法预测贷款风险
 DataBricks: Apache® Spark™ MLlib 2.x: How to Productionize your Machine Learning Models
Using Apache Spark for large-scale language model training
Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop
Processing a Trillion Rows Per Second on a Single Machine: How Can Nested Loop Joins be this Fast?
Recommending items to more than a billion people
Apache Spark Scale: A 60 TB+ production use case
Accelerating Apache Spark MLlib with Intel® Math Kernel Library (Intel® MKL)
Spark Job执行流程源码解析
(实用)万亿级数据规模下的倾斜调优

xgboost

xgboost原理及应用
 xgboost入门与实战（原理篇）
XGboost: A Scalable Tree Boosting System论文及源码导读
 XGboost核心源码阅读
 Introduction to Boosted Trees
Introduction to Boosted Trees
XGBoost 与 Boosted Tree(xgboost作者文章)
xgboost之spark上运行-scala接口
 xgboost原理
 Complete Guide to Parameter Tuning in XGBoost (with codes in Python) xgboost参数调优
 大杀器xgboost指南
 xgboost: 速度快效果好的boosting模型

随机森林

(必读)随机森林算法主页
(讲的很清楚)随机森林

word2vec & embeddings

(必读)word2vec官网
 Distributed Representations of Words and Phrases and their Compositionality
Efficient Estimation of Word Representations in Vector Space
Exploiting Similarities among Languages for Machine Translation
词向量之Word2vector原理浅析
 word2vector学习笔记（一）
(必读)Deep Learning实战之word2vec
(必读)word2vec 中的数学原理详解
 word2vec 入门基础
 Deep Learning in NLP （一）词向量和语言模型
(必读)《How to Generate a Good Word Embedding?》导读
 机器学习必须熟悉的算法之word2vector（一）
机器学习必须熟悉的算法之word2vector（二）
机器学习算法实现解析——word2vec源码解析
 word2vec原理推导与代码分析
(必读,CBOW和Skip-gram讲的很通俗易懂)深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析
(必读,几种句向量方法介绍)An Overview of Sentence Embedding Methods

NLP

推荐系统候选池的两种去重策略
 机器学习 | 八大步骤解决90%的NLP问题
 基于局部敏感哈希的协同过滤算法之simHash算法
 .NET下文本相似度算法余弦定理和SimHash浅析及应用
 浅谈simhash及其python实现
 简单易懂讲解simhash算法 hash 哈希
 使用SimHash进行海量文本去重
 局部敏感哈希算法(Locality Sensitive Hashing)
中文文档simhash值计算
 simhash算法原理及实现
 基于 TWE 模型的关键词提取
 Topical Word Embeddings
【论文阅读】Topical Word Embeddings
[CODE]topical_word_embeddings
深度学习解决NLP问题：语义相似度计算
 语义文本相似度研究进展
(必读)句子相似度算法比较 Comparing Sentence Similarity Methods
TF-IDF简介
 idf逆文档频率为什么要用log?

LDA

Latent Dirichlet Allocation原始论文
 LDA
通俗理解LDA主题模型
 LDA漫游指南
(必读)LDA数学八卦
 LDA工程实践之算法篇-1.算法实现正确性验证
 LDA工程实践之算法篇-2.SparseLDA算法主题模型算法
 Spark LDA文档

SVD

We Recommend a Singular Value Decomposition
奇异值分解

Machine Learing & Deep Learning

浅谈机器学习基础（上）
(入门必读，讲清了很多基础概念)零基础入门深度学习
(必读)系列教程：动手学深度学习-使用MXNet
(必读)系列教程：机器学习速成课程-使用TensorFlow(google出品)
(必读)pytorch官方教程:一系列入门示例
(必读)pytorch官方教程:使用RNN进行名字分类
 pytorch官方教程配套源码
 莫烦的机器学习专栏：机器学习本来可以很简单
 深度炼丹专栏:分享在深度学习的一些项目实践与经验
(入门必读)莫烦的pytorch视频教程
 Understanding LSTM Networks
[译] 理解 LSTM 网络
 用于文本分类的RNN-Attention网络
 深度学习在文本分类中的应用
 用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
 PyTorch快速入门教程七（RNN做自然语言处理
 PyTorch快速入门教程八（使用word embedding做自然语言处理的词语预测）
PyTorch快速入门教程九（使用LSTM来做判别每个词的词性）
Text-CNN 文本分类
 Convolutional Neural Networks for Sentence Classification
人工智障的深度瞎学之路:知乎看山杯夺冠记
 Text Classification, Part 2 - sentence level Attentional RNN
Deep Learning for NLP Best Practices(深度学习中NLP的最佳实践)
基于pytorch的CNN、LSTM神经网络模型调参小结
 The Unreasonable Effectiveness of Recurrent Neural Networks
序列模型和基于LSTM的循环神经网络
 卷积神经网络(CNN)防止过拟合的方法

数学

(必读)极大似然估计详解

其他

Kaggle 首战拿银总结 | 入门指导 (长文、干货）
斗鱼大数据的玩法
 Storm 的可靠性保证测试
 Scaling Apache Giraph to a trillion edges
Large-scale graph partitioning with Apache Giraph
逻辑回归算法