This project aims to develop a multilingual foundation model both language and multimodal capabilities. The objective is to enhance an existing Open-source English based model, optimizing it for the Vietnamese and others language.
- GPTViet 8B Demo Chat & Websearch Integration
- GPTViet 70B Demo Coming Soon
- GPTViet Document Chat Demo Coming Soon
- Comprehensive and Advanced Vietnamese Benchmark for Language Model
Benchmark Category | Benchmark Task Description | Metric | Number of Samples |
---|---|---|---|
General Knowledge | |||
Vietnamese Exam (Từ lớp 6->12,& THPT) | Đánh giá Tổng hợp bộ câu hỏi trắc nghiệm cho các bộ môn (Toán, Lý, Hoá, Anh, Sinh vv..) dựa trên các bộ đề thi ở Việt nam từ lớp 6 đến lớp 12 và bao gồm thi Trung học phổ thông quốc gia | Prefix Match (Accuracy) | 33, 000 |
VMLU Vietnamese Multitask Language Understanding | Đánh giá dựa trên câu hỏi trắc nghiệm bao gồm 58 chủ đề khác nhau, được phân bố qua bốn lĩnh vực chính: STEM, Nhân văn, Khoa học Xã hội, và hơn thế nữa. Nó bao trùm nhiều cấp độ khó khác nhau, từ trình độ cơ bản đến chuyên môn nâng cao, thách thức các mô hình nền tảng trong cả kiến thức chung và giải quyết vấn đề phức tạp. | Prefix Match (Accuracy) | 10,880 |
Summarization (Short & Long) | |||
BìnhNews (ROUGH_1,2) | Tóm tắt các ý chính quan trọng của một đoạn văn | ROUGH_1,2 & Embedding Similarity | |
VietNews (ROUGH_1,2) | Tóm tắt Văn bản dựa trên một câu chính để mô tả nội dung của đoạn văn | ROUGH_1,2 Embedding Similarity | 2,800 |
Translation | |||
Flore 101 (EN2Vi & Vi2EN) | Bảng đánh giá Flores-101 bao gồm 3001 câu được trích xuất từ Wikipedia tiếng Anh sang các Ngôn ngữ khác và bao gồm một loạt các chủ đề và lĩnh vực khác nhau. | (BLEU)& Embedding Similarity | 3001 |
Human Benchmark | |||
SeaBench (Realworld_Test) | đánh giá các Mô hình Ngôn ngữ LLMs như các trợ lý hữu ích, bao gồm các loại hướng dẫn đa dạng để đánh giá các mô hình, như mô tả sau đây: Giải quyết vấn đề: Đánh giá 1. khả năng xử lý ngôn ngữ tự nhiên thông qua các nhiệm vụ như tóm tắt và dịch. 2. Suy luận toán học: Đánh giá kỹ năng suy luận toán học và logic. 3.Dữ liệu hướng dẫn tổng quát: Kiểm tra kiến thức tổng quát và kỹ năng viết, bao gồm tạo ra các ý tưởng sáng tạo và phản hồi yêu cầu của người dùng. 4. NaturalQA: Phân tích phản ứng với ngôn ngữ tự nhiên và ngữ cảnh địa phương từ các truy vấn thực tế của người dùng. 5. An toàn: Đảm bảo sự hiểu biết về các quy tắc và quy định an toàn, bao gồm ngữ cảnh. | Human/GPT4 as a Judge | 130 |
Benchmark Category | Benchmark Task Description | Metric | Number of Samples |
---|---|---|---|
General Knowledge | |||
Vietnamese Exam (From grade 6->12 & High School) | Comprehensive evaluation of multiple-choice questions for various subjects (Math, Physics, Chemistry, English, Biology, etc.) based on exam sets in Vietnam from grade 6 to grade 12 and including the national high school graduation exam | Prefix Match (Accuracy) | 33,000 |
VMLU Vietnamese Multitask Language Understanding | Evaluation based on multiple-choice questions covering 58 different topics, distributed across four main areas: STEM, Humanities, Social Sciences, and more. It encompasses various difficulty levels, from basic to advanced specialized knowledge, challenging models in both general knowledge and complex problem-solving. | Prefix Match (Accuracy) | 10,880 |
Summarization (Short & Long) | |||
BìnhNews (ROUGE_1,2) | Summarize the main important points of a paragraph | ROUGE_1,2 & Embedding Similarity | |
VietNews (ROUGE_1,2) | Text summarization based on one main sentence to describe the content of a paragraph | ROUGE_1,2 Embedding Similarity | 2,800 |
Translation | |||
Flore 101 (EN2Vi & Vi2EN) | The Flores-101 evaluation set includes 3001 sentences extracted from English Wikipedia to other languages and covers a wide range of topics and domains. | (BLEU) & Embedding Similarity | 3001 |
Human Benchmark | |||
SeaBench (Realworld_Test) | Evaluates Language Models (LLMs) as helpful assistants, including various types of instructions to assess models, as described below: Problem-solving: Evaluates 1. natural language processing capabilities through tasks such as summarization and translation. 2. Mathematical reasoning: Assesses mathematical and logical reasoning skills. 3. General instruction data: Tests general knowledge and writing skills, including generating creative ideas and responding to user requests. 4. NaturalQA: Analyzes reactions to natural language and local context from real-world user queries. 5. Safety: Ensures understanding of safety rules and regulations, including context. | Human/GPT4 as a Judge | 130 |
- Access Benchmark Performance Setting
- Viet Exam: Collection of 10k Questions and answers across all Subjects from Vietnamese Exam from 6 to 12 Grades.
- The VMLU Dataset: Comprises 58 distinct subjects. These subjects are systematically categorized into four primary domains: STEM, Humanities, Social Sciences, and a broad category designated as 'Others.'
LLM Model | Việt Exam (10,000 Questions) Prefix Match Accuracy | VLMU (Val+Dev) (1048 Questions) Prefix Match Accuracy |
---|---|---|
GPTViet 8B (2024-05-Version) | 39.28% | 48.04% |
GPTViet 70 (2024-06-Version) | 53.80% | 70.20% |
Llama 3 70 Instruct (Meta) | 50.50% | 51.58% |
Llama 3 8B Instruct (Meta) | 32.07% | 23.59% |
GPT-3.5 (OpenAI) | --% | --% |
GPT-4 (Turbo) (OpenAI) | --% | --% |
Flores-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia to Other Languages and covering a variety of different topics and domains.
LLM Model | Translation Vietnamese--English | Translation English--Vietnamese | ||||
---|---|---|---|---|---|---|
BLEU Score | ROUGH-1 | ROUGH-2 | BLEU Score | ROUGH-1 | ROUGH-2 | |
GPTViet 8B (2024-05-Version) | 21.8% | 56.03% | 31.42% | 26.0% | 59.65% | 36.14% |
GPTViet 70 (2024-06-Version) | 27.6% | 61.15% | 37.39% | 33.3% | 67.08% | 43.97% |
Llama 3 70 Instruct (Meta) | 25.0% | 58.14% | 35.02% | 33.0% | 66.56% | 43.63% |
Llama 3 8B Instruct (Meta) | 19.3% | 51.62% | 28.15% | 9.8% | 24.16% | 13.92% |
GPT-3.5 (OpenAI) | 28.1% | 62.05% | 38.14% | 34.0% | 67.0% | 44.63% |
GPT-4 (Turbo) (OpenAI) | --% | --% | --% | --% | --% | --% |
-
Assistant Language Model (GPTViet Beta 1.0 Small & Large GPTViet Assistant )
- Websearch Assistant Model
- ChatDocument Assistant Model
- Custom Service Assistant Model
-
Translation Langauge Model from GPTViet Branch Beta 1.0 Small & Large
- VietTranslate English->Vietnamese , Vietnamese -> English
-
Medical Langauge Model from GPTViet Branch Beta 1.0 Small & Large
- VietMed trợ lý sức khoẻ
Bạn có thể kết nối trực tiếp với GPTViet Foundation Team: http://www.gptviet.ioit.ac.vn Team member Nguyễn Trường Thắng [email] : [email protected] Trần Nhiệm [email]: [email protected] Bùi Kiên [email]: [email protected] Trương Thị Minh Ngọc: [email protected]