Learning to Tokenize for Generative Retrieval

Code of the paper Learning to Tokenize for Generative Retrieval.

Environment

pytorch, transformers, accelerate, faiss, k_means_constrained

Dataset

NQ320K: unzip dataset/nq320k.zip

Other datasets coming soon.

Training and Evaluation

Code for GenRet on NQ320K:

python run.py --model_name t5-base --code_num 512 --max_length 3 --train_data dataset/nq320k/train.json --dev_data dataset/nq320k/dev.json --corpus_data dataset/nq320k/corpus_lite.json --save_path out/model

Code for generative retrieval baselines: baseline.py

Code for dense retrieval baselines: dpr.py

Cite

@article{Sun2023LearningTT,
  title={Learning to Tokenize for Generative Retrieval},
  author={Weiwei Sun and Lingyong Yan and Zheng Chen and Shuaiqiang Wang and Haichao Zhu and Pengjie Ren and Zhumin Chen and Dawei Yin and M. de Rijke and Zhaochun Ren},
  journal={ArXiv},
  year={2023},
  volume={abs/2304.04171},
}

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
assets		assets
dataset		dataset
utils		utils
README.md		README.md
baseline.py		baseline.py
dpr.py		dpr.py
eval.py		eval.py
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Learning to Tokenize for Generative Retrieval

Environment

Dataset

Training and Evaluation

Cite

About

Releases

Packages

Languages

sunnweiwei/GenRet

Folders and files

Latest commit

History

Repository files navigation

Learning to Tokenize for Generative Retrieval

Environment

Dataset

Training and Evaluation

Cite

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages