Skip to content

This project aims to develop a bilingual foundation model with both language and multimodal capabilities. The objective is to enhance an existing open-source English model, optimizing it for the Vietnamese 🇻🇳 language.

License

Notifications You must be signed in to change notification settings

VietnamAIHub/GPTViet

Repository files navigation

GPTViet - Advancing Foundation Models

This project aims to develop a multilingual foundation model both language and multimodal capabilities. The objective is to enhance an existing Open-source English based model, optimizing it for the Vietnamese and others language.

GPTViet - Target Development

💡 Get help - Q&A or Discord 💬

1. Roadmap Development of GPTViet's Language Foundation Model:

Demo Language Model:

Watch/Xem GPTViet Assistant Demo

Performance Benchmarks on Multiple Task:

  • Comprehensive and Advanced Vietnamese Benchmark for Language Model
Benchmark Category Benchmark Task Description Metric Number of Samples
General Knowledge
Vietnamese Exam (Từ lớp 6->12,& THPT) Đánh giá Tổng hợp bộ câu hỏi trắc nghiệm cho các bộ môn (Toán, Lý, Hoá, Anh, Sinh vv..) dựa trên các bộ đề thi ở Việt nam từ lớp 6 đến lớp 12 và bao gồm thi Trung học phổ thông quốc gia Prefix Match (Accuracy) 33, 000
VMLU Vietnamese Multitask Language Understanding Đánh giá dựa trên câu hỏi trắc nghiệm bao gồm 58 chủ đề khác nhau, được phân bố qua bốn lĩnh vực chính: STEM, Nhân văn, Khoa học Xã hội, và hơn thế nữa. Nó bao trùm nhiều cấp độ khó khác nhau, từ trình độ cơ bản đến chuyên môn nâng cao, thách thức các mô hình nền tảng trong cả kiến thức chung và giải quyết vấn đề phức tạp. Prefix Match (Accuracy) 10,880
Summarization (Short & Long)
BìnhNews (ROUGH_1,2) Tóm tắt các ý chính quan trọng của một đoạn văn ROUGH_1,2 & Embedding Similarity
VietNews (ROUGH_1,2) Tóm tắt Văn bản dựa trên một câu chính để mô tả nội dung của đoạn văn ROUGH_1,2 Embedding Similarity 2,800
Translation
Flore 101 (EN2Vi & Vi2EN) Bảng đánh giá Flores-101 bao gồm 3001 câu được trích xuất từ Wikipedia tiếng Anh sang các Ngôn ngữ khác và bao gồm một loạt các chủ đề và lĩnh vực khác nhau. (BLEU)& Embedding Similarity 3001
Human Benchmark
SeaBench (Realworld_Test) đánh giá các Mô hình Ngôn ngữ LLMs như các trợ lý hữu ích, bao gồm các loại hướng dẫn đa dạng để đánh giá các mô hình, như mô tả sau đây: Giải quyết vấn đề: Đánh giá 1. khả năng xử lý ngôn ngữ tự nhiên thông qua các nhiệm vụ như tóm tắt và dịch. 2. Suy luận toán học: Đánh giá kỹ năng suy luận toán học và logic. 3.Dữ liệu hướng dẫn tổng quát: Kiểm tra kiến thức tổng quát và kỹ năng viết, bao gồm tạo ra các ý tưởng sáng tạo và phản hồi yêu cầu của người dùng. 4. NaturalQA: Phân tích phản ứng với ngôn ngữ tự nhiên và ngữ cảnh địa phương từ các truy vấn thực tế của người dùng. 5. An toàn: Đảm bảo sự hiểu biết về các quy tắc và quy định an toàn, bao gồm ngữ cảnh. Human/GPT4 as a Judge 130
Benchmark Category Benchmark Task Description Metric Number of Samples
General Knowledge
Vietnamese Exam (From grade 6->12 & High School) Comprehensive evaluation of multiple-choice questions for various subjects (Math, Physics, Chemistry, English, Biology, etc.) based on exam sets in Vietnam from grade 6 to grade 12 and including the national high school graduation exam Prefix Match (Accuracy) 33,000
VMLU Vietnamese Multitask Language Understanding Evaluation based on multiple-choice questions covering 58 different topics, distributed across four main areas: STEM, Humanities, Social Sciences, and more. It encompasses various difficulty levels, from basic to advanced specialized knowledge, challenging models in both general knowledge and complex problem-solving. Prefix Match (Accuracy) 10,880
Summarization (Short & Long)
BìnhNews (ROUGE_1,2) Summarize the main important points of a paragraph ROUGE_1,2 & Embedding Similarity
VietNews (ROUGE_1,2) Text summarization based on one main sentence to describe the content of a paragraph ROUGE_1,2 Embedding Similarity 2,800
Translation
Flore 101 (EN2Vi & Vi2EN) The Flores-101 evaluation set includes 3001 sentences extracted from English Wikipedia to other languages and covers a wide range of topics and domains. (BLEU) & Embedding Similarity 3001
Human Benchmark
SeaBench (Realworld_Test) Evaluates Language Models (LLMs) as helpful assistants, including various types of instructions to assess models, as described below: Problem-solving: Evaluates 1. natural language processing capabilities through tasks such as summarization and translation. 2. Mathematical reasoning: Assesses mathematical and logical reasoning skills. 3. General instruction data: Tests general knowledge and writing skills, including generating creative ideas and responding to user requests. 4. NaturalQA: Analyzes reactions to natural language and local context from real-world user queries. 5. Safety: Ensures understanding of safety rules and regulations, including context. Human/GPT4 as a Judge 130
  • Access Benchmark Performance Setting

Multi Domains – General Knowledge Understanding Viet Exam (Lớp 6 -> THPT) & VLMU Benchmark

  • Viet Exam: Collection of 10k Questions and answers across all Subjects from Vietnamese Exam from 6 to 12 Grades.
  • The VMLU Dataset: Comprises 58 distinct subjects. These subjects are systematically categorized into four primary domains: STEM, Humanities, Social Sciences, and a broad category designated as 'Others.'
LLM Model Việt Exam (10,000 Questions) Prefix Match Accuracy VLMU (Val+Dev) (1048 Questions) Prefix Match Accuracy
GPTViet 8B (2024-05-Version) 39.28% 48.04%
GPTViet 70 (2024-06-Version) 53.80% 70.20%
Llama 3 70 Instruct (Meta) 50.50% 51.58%
Llama 3 8B Instruct (Meta) 32.07% 23.59%
GPT-3.5 (OpenAI) --% --%
GPT-4 (Turbo) (OpenAI) --% --%

Vietnamese-English Translation Flores 101 Benchmark

Flores-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia to Other Languages and covering a variety of different topics and domains.

LLM Model Translation Vietnamese--English Translation English--Vietnamese
BLEU Score ROUGH-1 ROUGH-2 BLEU Score ROUGH-1 ROUGH-2
GPTViet 8B (2024-05-Version) 21.8% 56.03% 31.42% 26.0% 59.65% 36.14%
GPTViet 70 (2024-06-Version) 27.6% 61.15% 37.39% 33.3% 67.08% 43.97%
Llama 3 70 Instruct (Meta) 25.0% 58.14% 35.02% 33.0% 66.56% 43.63%
Llama 3 8B Instruct (Meta) 19.3% 51.62% 28.15% 9.8% 24.16% 13.92%
GPT-3.5 (OpenAI) 28.1% 62.05% 38.14% 34.0% 67.0% 44.63%
GPT-4 (Turbo) (OpenAI) --% --% --% --% --% --%

Download & Get Latest Version GPTViet:

  • Assistant Language Model (GPTViet Beta 1.0 Small & Large GPTViet Assistant )

    • Websearch Assistant Model
    • ChatDocument Assistant Model
    • Custom Service Assistant Model
  • Translation Langauge Model from GPTViet Branch Beta 1.0 Small & Large

    • VietTranslate English->Vietnamese , Vietnamese -> English
  • Medical Langauge Model from GPTViet Branch Beta 1.0 Small & Large

    • VietMed trợ lý sức khoẻ

Kết Nối Với GPTViet Team (Contact to GPTViet TEAM)

Bạn có thể kết nối trực tiếp với GPTViet Foundation Team: http://www.gptviet.ioit.ac.vn Team member Nguyễn Trường Thắng [email] : [email protected] Trần Nhiệm [email]: [email protected] Bùi Kiên [email]: [email protected] Trương Thị Minh Ngọc: [email protected]

About

This project aims to develop a bilingual foundation model with both language and multimodal capabilities. The objective is to enhance an existing open-source English model, optimizing it for the Vietnamese 🇻🇳 language.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published