Differentiate ChatGPT-generated and Human-written Medical Texts

Data Description

This paper involves two datasets: medical abstract (in data/medical_text) and radiology report (in data/MiMic) datasets.

all_ Data.csv contains all human-written data and ChatGPT-generated data

prompt*_seed*_train.csv, prompt*_seed*_val.csv, prompt*_seed*_test.csv is the training set, validation set, and testing set for different groups.

pip install -r requirements.txt

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
.DS_Store		.DS_Store
BERT_cls.py		BERT_cls.py
CART_cls.py		CART_cls.py
PPL_distribution.py		PPL_distribution.py
dependency_analysis.py		dependency_analysis.py
pos_analysis.py		pos_analysis.py
ppl_cls.py		ppl_cls.py
readme.md		readme.md
requirements.txt		requirements.txt
sentiment_analysis.py		sentiment_analysis.py
word_count.py		word_count.py
xgboost_cls.py		xgboost_cls.py