better-chatbot-than-chatgpt

Brainstorm possible research/engineering candidates that could let us train better chatbots than ChatGPT/GPT4 in selected aspects.

Slides as of 2023/05/21

Solid foundation pretrained models
- Llama & ChatGLM
- MPT-7b & RedPajama?
Get close to ChatGPT by “behavioral cloning” or self-align?
- Alpaca
- Vicuna
- Dromedary
More [sub-domain] knowledge than ChatGPT?
- Domain specific pretraining: e.g. codex, Minerva
- Retrieval in LM training: WebGPT and Sparrow
- Augmented LM (retrieval outside LM training)
  - E.g. Langchain, or DPR
Longer context than GPT4?
- AliBi
- HWFA (chinese only, by Su Jianlin)
Lower cost of training and inference?
- Multi-query attention
- FlashAttention
- FastTranformer
- PEFT by HuggingFace
- DeepSpeedChat
Better reward model and RL?
More modalities than GPT4?
Very very important, evaluation!

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
README.md		README.md
brainstorm_better_chatbot_than_chatgpt_v1.pdf		brainstorm_better_chatbot_than_chatgpt_v1.pdf