ChineseTextClassification

中文文本分类传统机器学习+深度学习

目录及文件说明

bert_pretrain存放bert预训练的参数及模型

models存放深度学习对应的模型定义

News文件夹存放中文文本数据，数据处理结果及模型运行结果.其中data文件夹下为文本数据，默认为word级，即文件夹下的数据分好词以空格分割；char文件夹下则不需要分词。

pytorch_pretrained为官方定义的加载bert需要的模块

使用了三种传统机器学习方法朴素贝叶斯逻辑斯蒂回归 lightGBM

各方法定义见对应的py文件

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.idea		.idea
News		News
models		models
pytorch_pretrained		pytorch_pretrained
LightGBM.py		LightGBM.py
README.md		README.md
UI_main.py		UI_main.py
feature_words.npy		feature_words.npy
logistic.py		logistic.py
naive_bayes.py		naive_bayes.py
pic.png		pic.png
result.png		result.png
run.py		run.py
run_bert.py		run_bert.py
stopwords_cn.txt		stopwords_cn.txt
test.py		test.py
toutiao.txt		toutiao.txt
train_eval.py		train_eval.py
train_eval_bert.py		train_eval_bert.py
utils.py		utils.py
utils_bert.py		utils_bert.py