PhoGPT Là Gì? Chatbot Dành Cho Người Việt của Vingroup

11988228 Lượt xem

Dự án chatbot PhoGPT trên GitHub là một bước tiến quan trọng trong việc đưa trí tuệ nhân tạo tiến xa hơn trong cộng đồng người Việt. Được phát triển bởi VinAI Research. Một tổ chức hàng đầu trong lĩnh vực trí tuệ nhân tạo tại Việt Nam. Dự án này đại diện cho sự cam kết vững mạnh trong việc tạo ra các giải pháp công nghệ tiên tiến để phục vụ cộng đồng và thúc đẩy sự phát triển của ngôn ngữ và trí tuệ nhân tạo trong nước.

Viện trí tuệ nhân tạo của Vingroup vừa công bố chatbot dành cho người Việt có tên rất “nhạy cảm”.

PhoGPT Là Gì

VinAI Reseach, Viện nghiên cứu trí tuệ nhân tạo thuộc Vingroup vừa chia sẻ trên Github dự án chatbot PhoGPT dành cho người Việt.

Theo giới thiệu trên Github, kho lưu trữ mã nguồn Git dựa trên nền web cho các dự án phát triển phần mềm, PhoGPT là mô hình dựa trên bộ giải mã Transformer, kết hợp Triton và ALiBi để ngoại suy độ dài ngữ cảnh. Bằng cách sử dụng thư viện llm-foundry của Mosaicml llm, VinAI đào tạo trước PhoGPT từ đầu trên kho văn bản tiếng Việt đào tạo trước 41GB. Kho dữ liệu đào tạo trước này bao gồm 1GB văn bản Wikipedia và một biến thể 40GB được loại bỏ trùng lặp của tập dữ liệu tin tức (phiên bản 21/05/2021).

PhoGPT - Chatbot cho người Việt

Các nhà nghiên cứu VinAI tinh chỉnh PhoGPT được đào tạo trước để hướng dẫn tiếp theo, sử dụng bộ dữ liệu bao gồm 150K cặp câu lệnh và phản hồi bằng tiếng Việt. Bộ dữ liệu này được xây dựng bằng cách ghép các nguồn sau:

(i) 67K cặp từ tập con tiếng Việt của Bactrian-X ;

(ii) 40K cặp ShareGPT không có mã và toán, dịch từ tiếng Anh sang tiếng Việt bằng VinAI Translate;

(iii) 40K lời nhắc bao gồm nhận thức về sự căm ghét, xúc phạm, độc hại và an toàn, phần lớn bao gồm cả những lời nhắc được dịch sang tiếng Việt; và

(iv) 1000 cặp để trả lời câu hỏi dựa trên ngữ cảnh, 500 để viết thơ, 500 cho viết luận, 500 cho sửa lỗi chính tả và 500 cho tóm tắt từng tài liệu.

Kết quả cho thấy PhoGPT chỉ thua ChatGPT trong hầu hết các trường hợp, còn lại cao hơn các LLMA khác.

Tuy nhiên, nhà phát triển cho biết PhoGPT có những hạn chế nhất định. Ví dụ, nó không giỏi trong các nhiệm vụ liên quan đến lý luận, mã hóa hoặc toán học. PhoGPT đôi khi có thể tạo ra lời nói có hại, căm thù, phản hồi thiên vị hoặc trả lời các câu hỏi không an toàn.Họ khuyến cáo người dùng nên thận trọng khi tương tác với PhoGPT vì có thể tạo ra kết quả đầu ra không chính xác.

Tìm hiểu chi tiết PhoGPT trên Github: Tại Đây

PhoGPT không chỉ đơn giản là một chatbot thông thường, mà còn mang trong mình sức mạnh của mô hình ngôn ngữ đa dạng và mạnh mẽ. Được đào tạo trên lượng dữ liệu lớn để hiểu và tương tác với người Việt một cách tự nhiên và thông minh. Với khả năng này, dự án mở ra nhiều cơ hội hứa hẹn trong việc giải quyết các vấn đề thực tế và cung cấp giải pháp trí tuệ nhân tạo cao cấp cho các lĩnh vực khác nhau.

5/5 - (1 bình chọn)

Bài viết liên quan