Back
Thông tin Bảng B
5/7/2024
7 cover-image

Tiếp nối thành công của UIT Data Science Challenge 2024 cùng kinh nghiệm từ các cuộc thi học thuật uy tín như SemEval, VLSP Shared Tasks, UIT Data Science Challenge 2025 mang đến một thử thách đột phá: làm sao để các mô hình ngôn ngữ lớn (LLM) của chúng ta thực sự đáng tin cậy? Cụ thể hơn, chúng ta sẽ cùng nhau tìm cách giúp LLM “chống nhiễu” và “giảm thiểu ảo giác” (hallucination) trong bối cảnh AI ngày càng len lỏi vào mọi ngóc ngách của cuộc sống.

Trong khuôn khổ cuộc thi, “chống nhiễu” được hiểu là khả năng của mô hình AI duy trì hiệu suất ổn định khi đối mặt với các đầu vào không hoàn hảo, chẳng hạn như dữ liệu bị sai chính tả/ngữ pháp, những câu hỏi có vẻ hơi sai lệch, hoặc thậm chí là các prompt adversarial được thiết kế để “đánh lừa” mô hình. Trong khi đó, “giảm thiểu ảo giác” (hallucination) là việc hạn chế tối đa việc LLM tự “sáng tạo” ra những thông tin sai lệch, không có căn cứ từ dữ liệu đầu vào.

Thử thách này đặc biệt tập trung vào việc xây dựng những hệ thống AI kiên cường, có thể xử lý tốt các đầu vào không hoàn hảo. Mục tiêu cuối cùng không chỉ là thúc đẩy nghiên cứu ứng dụng LLM cho tiếng Việt mà còn là tạo ra một sân chơi để các nhà Khoa học Dữ liệu cùng nhau giải quyết một vấn đề cốt lõi: làm thế nào để nâng cao độ tin cậy của AI trong thực tế, đặc biệt là trong lĩnh vực kiểm chứng thông tin (Fact-checking).

Nhiệm vụ chính của các đội thi là phát triển giải pháp để LLM duy trì hiệu suất (robustness) và hạn chế việc tự “sáng tạo” thông tin sai lệch (hallucination) khi thực hiện các tác vụ Hỏi-Đáp (QA) và Đối thoại. Các bạn sẽ được cung cấp một bộ dữ liệu từ Ban Tổ chức và tự do áp dụng các kỹ thuật tiên tiến nhằm tối ưu hóa khả năng của các LLM mã nguồn mở. Ban tổ chức sẽ đánh giá các giải pháp dựa trên độ đo chính là Macro-F1. Macro-F1 là trung bình của F1-score trên ba nhãn: no, intrinsic, và extrinsic.


Timeline

timeline-B
Thể lệ cuộc thi

  • Các nhóm đăng ký tham gia phải ghi đầy đủ thông tin của các thành viên theo hướng dẫn của form đăng ký. Mỗi nhóm đăng ký tham gia không quá 05 thành viên. Thông tin quan trọng cần điền bao gồm Họ tên, MSSV, ngành học, khoa, trường đại học và tên nhóm. Nhóm trưởng đại diện nhóm đăng ký điền thông tin cho các thành viên và phải sử dụng tài khoản sinh viên do trường đại học cấp. Việc thay đổi số lượng thành viên của nhóm hoặc thông tin của các thành viên sau khi đóng đơn đăng ký tham gia cần được thông báo đến BTC qua địa chỉ email dsc@uit.edu.vn và chỉ được thay đổi khi BTC cho phép. Tên nhóm tham gia sẽ được sử dụng làm cơ sở để BTC duyệt quyền tham gia vào cuộc thi trên CodaLab.
  • Tài khoản và thông tin của nhóm trưởng (bao gồm ngành học, khoa và trường) được sử dụng để BTC liên lạc, gửi các thông báo liên quan đến cuộc thi, đại diện nhóm nộp sản phẩm về BTC, thông tin trao giải và vinh danh đơn vị có nhóm sinh viên đạt giải thưởng.
  • Các nhóm cần sử dụng email đăng ký cuộc thi để tạo tài khoản trên CodaLab cũng như đặt tên nhóm theo tên nhóm đã đăng ký để được cấp quyền truy cập vào CodaLab của cuộc thi.
  • Các đội đăng ký tham gia sẽ được nhận đường dẫn đến trang CodaLab để tham gia vào cuộc thi thông qua email của các nhóm trưởng.
  • Các đội chỉ được sử dụng bộ dữ liệu do BTC cung cấp trong suốt quá trình tham gia cuộc thi, không gán nhãn thủ công trên tập public test và private test cũng như sử dụng các phương pháp tăng cường dữ liệu.
  • Các đội chỉ sử dụng các mô hình ngôn ngữ tiền huấn luyện đã được BTC thông qua. Các đội thi sử dụng bộ dữ liệu khác cũng như mô hình ngôn ngữ tiền huấn luyện không được BTC thông qua sẽ không được công nhận kết quả trong cuộc thi.
  • Ở vòng private test, tất cả các đội tham gia chỉ được submit tối đa 03 lần trong 01 ngày. Kết quả sẽ được lấy từ phương pháp cho kết quả cao nhất trên tập private test.
  • Các đội top 5 cần công khai source code cho BTC để BTC kiểm định kết quả trên private test.
  • Các đội top 3 cần báo cáo kỹ thuật trong buổi lễ Tổng kết và Trao giải của cuộc thi.
  • Mỗi nhóm tham gia cần nộp lệ phí tham gia 50,000 VNĐ.

Tiêu chí đánh giá

Bài toán của bảng B cuộc thi UIT Data Science Challenge 2025 yêu cầu các phương pháp từ các đội thực hiện 01 tác vụ Phát hiện Hiện tượng ảo giác thông tin trong Mô hình Ngôn ngữ lớn bằng cách phân loại các phản hồi về 03 nhãn: NO, INTRINSIC, EXTRINSIC.

Thông số đánh giá sẽ được trình bày chi tiết ở trang CodaLab của cuộc thi.


Giải thưởng

awards-B
uit-dsc-logo

DSC@UIT được tổ chức thường niên nhằm thúc đẩy và phát triển Khoa học dữ liệu Việt Nam, nâng cao trải nghiệm, nghiên cứu và ứng dụng Khoa học dữ liệu của sinh viên Việt Nam.

DSC@UIT mang tầm nhìn trở thành cuộc thi Khoa học Dữ liệu uy tín và hàng đầu tại Việt Nam.

Thông tin liên hệ:
Địa chỉ: Trường Đại học Công nghệ Thông tin
Website: dsc.uit.edu.vn
Email: dsc@uit.edu.vn
Facebook

© Copyright Cuộc thi Khoa học Dữ liệu UIT – Bộ môn Khoa học Dữ liệu, Khoa Khoa học và Kỹ thuật Thông tin, Trường Đại học Công nghệ Thông tin , ĐHQG-HCM