Tiếp nối thành công của UIT Data Science Challenge 2025 cùng kinh nghiệm từ các cuộc thi học thuật uy tín như SemEval, VLSP Shared Tasks, UIT Data Science Challenge 2025 mang đến một thử thách đột phá: làm sao để các mô hình ngôn ngữ lớn (LLM)của chúng ta thực sự đáng tin cậy? Cụ thể hơn, chúng ta sẽ cùng nhau tìm cách giúp LLM“chống nhiễu” và “giảm thiểu ảo giác” (hallucination) trong bối cảnh AI ngày càng len lỏi vào mọi ngóc ngách của cuộc sống.
Trong khuôn khổ cuộc thi, “chống nhiễu” được hiểu là khả năng của mô hình AI duy trì hiệu suất ổn định khi đối mặt với các đầu vào không hoàn hảo, chẳng hạn như dữ liệu bị sai chính tả/ngữ pháp, những câu hỏi có vẻ hơi sai lệch, hoặc thậm chí là các prompt adversarial được thiết kế để “đánh lừa” mô hình. Trong khi đó, “giảm thiểu ảo giác” (hallucination) là việc hạn chế tối đa việc LLM tự “sáng tạo” ra những thông tin sai lệch, không có căn cứ từ dữ liệu đầu vào.
Thử thách này đặc biệt tập trung vào việc xây dựng những hệ thống AI kiên cường, có thể xử lý tốt các đầu vào không hoàn hảo. Mục tiêu cuối cùng không chỉ là thúc đẩy nghiên cứu ứng dụng LLM cho tiếng Việt mà còn là tạo ra một sân chơi để các nhà Khoa học Dữ liệu cùng nhau giải quyết một vấn đề cốt lõi: làm thế nào để nâng cao độ tin cậy của AI trong thực tế, đặc biệt là trong lĩnh vực kiểm chứng thông tin (Fact-checking).
Nhiệm vụ chính của các đội thi là phát triển giải pháp để LLM duy trì hiệu suất (robustness) và hạn chế việc tự “sáng tạo” thông tin sai lệch (hallucination) khi thực hiện các tác vụ Hỏi-Đáp (QA) và Đối thoại. Các bạn sẽ được cung cấp một bộ dữ liệu từ Ban Tổ chức và tự do áp dụng các kỹ thuật tiên tiến nhằm tối ưu hóa khả năng của các LLM mã nguồn mở. Ban tổ chức sẽ đánh giá các giải pháp dựa trên độ đo chính là Macro-F1. Macro-F1 là trung bình của F1-score trên ba nhãn: no, intrinsic, và extrinsic.