BKAI-NAVER Challenge 2022 - Vietnamese Scene Text Detection and Recognition

Organized by sangdv - Current server time: Oct. 30, 2025, 6:23 p.m. UTC

First phase

Public Test

April 1, 2022, midnight UTC

End

Competition Ends

May 22, 2022, 1 a.m. UTC

Overview
Evaluation
Terms and Conditions
Submission
Update

Giới thiệu chung

Trang chủ cuộc thi: https://bkai.ai/thong-bao-cuoc-thi-bkai-naver-challenge-2022

Chủ đề. Cuộc thi Vietnamese Scene Text Detection And Recognition tập trung vào giải quyết bài toán "Phát hiện và nhận diện văn bản Tiếng Việt trong ảnh khung cảnh".

Nhiệm vụ. Cuộc thi gồm hai nội dung: phát hiện văn bản (Text detection) và nhận diện (Text recognition) chữ viết tiếng Việt trong các ảnh có ngữ cảnh. Kết quả đầu ra là tọa độ của các bounding box xung quanh text và nhãn của text.

Dữ liệu

Dữ liệu được cung cấp bởi ban tổ chức gồm 3 tập như sau:
- Training data: là tập dữ liệu thật có gán nhãn, dùng để huấn luyện mô hình. Tập này gồm 2500 ảnh (trong đó 500 ảnh được cung cấp bởi BKAI và 2000 ảnh được lấy từ tập dữ liệu cung cấp bởi VinAI [1]).
- Public test: là tập dữ liệu kiểm thử công khai, dùng trong vòng sơ khảo. Tập dữ liệu này gồm 235 ảnh thật có gán nhãn.
- Private test: là tập dữ liệu kiểm thử dùng trong vòng chung kết. Tập này gồm 300 ảnh thật.
Đầu vào cho mô hình là các ảnh thô chưa được gán nhãn. Tệp nhãn là các file định dạng .txt. Mỗi dòng của tệp nhãn chứa thông tin tọa độ của bounding box (tọa độ 4 đỉnh) và nhãn của văn bản chứa trong bounding box đó. Định dạng như sau:
- x1,y1,x2,y2,x3,y3,x4,y4,Nhãn
Với mỗi ảnh tên img_{num}.jpg, đội thi cần xuất kết ra file .txt tương ứng. Tên file .txt sẽ có định dạng res_img_{num}.txt, trong đó, num là số thứ tự của ảnh. Ví dụ: với ảnh đầu vào là img_1.jpg thì cần xuất kết quả ra tệp kết quả với tên là res_img_1.txt. Tất cả file res_img_{num}.txt sẽ được nén thành file prediction.zip và nộp lên hệ thống (Chi tiết xem tại phần Submission).

Tiêu chí đánh giá. Tiêu chí đánh giá là chỉ số CER, đại diện cho phần trăm ký tự trong văn bản của tệp nhãn bị dự đoán không chính xác. CER càng thấp thì mô hình nhận diện càng chính xác (Chi tiết xem tại phần Evaluation).

Quy định

Các đội thi cần tuân thủ các quy định chung của BK-NAVER Challenge 2022.
Bên cạnh đó, đối với task OCR, các đội tham gia được sử dụng pre-trained model được huấn luyện với mục đích chung, nhưng không được sử dụng các pre-trained model được huấn luyện cho bài toán phát hiện và nhận diện tiếng Việt. Ví dụ: Có thể sử dụng pre-trained model để phát hiện và nhận diện tiếng Anh.

Vietnamese Scene Text Detection And Recognition Challenge sẽ được diễn ra với 2 giai đoạn: giai đoạn Public Test và giai đoạn Private Test:

Giai đoạn Public Test (01/04/2022 - 15/05/2022): nhằm lan tỏa thông tin tới toàn bộ cộng đồng IT & AI tại Việt Nam, từ đó giúp cộng đồng có thời gian tiếp cận với các hướng xử lý bài toán. Đồng thời, trong thời gian này, các đội thi sẽ được tiếp cận với dữ liệu thực tế, huấn luyện mô hình và đánh giá mô hình thông qua hệ thống đánh giá tự động. Số lần nộp bài tối đa là 10 lần trong 1 ngày.
Dữ liệu trong vòng Public Test bao gồm 235 ảnh để đánh giá.

Giai đoạn Private Test (21/05/2022 - 22/05/2022): diễn ra trong vòng 01 ngày. Trong giai đoạn này, các đội thi sẽ nộp kết quả cuối cùng sử dụng mô hình đã được huấn luyện sẵn ở giai đoạn Public Test. Số lần nộp bài tối đa là 5 lần.

Trích dẫn và tài liệu tham khảo

[1] N. Nguyen et al., "Dictionary-guided Scene Text Recognition," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 7379-7388, doi: 10.1109/CVPR46437.2021.00730.

Lưu ý:

- Đối với tập training data, các đội được phép sửa nhãn do BTC cung cấp hoặc gán thêm nhãn mới. Không được phép can thiệp hay sử dụng public test hay private test trong quá trình huấn luyện dưới bất kỳ hình thức nào.

- Các đội được dùng pretrained model cho ngôn ngữ không phải tiếng Việt, được sử dụng dữ liệu tổng hợp (synthetic data) và dữ liệu tăng cường augmented data

Tiêu chí đánh giá

Kết quả sẽ được đánh giá dựa trên chỉ số CER (Character Error Rate). CER đại diện cho phần trăm ký tự trong văn bản của tệp grouth truth bị dự đoán không chính xác. CER càng thấp thì mô hình nhận diện càng chính xác.

Trong đó, nhãn được tạo nên với các tiêu chí như sau:

Nhãn được tạo trên mức từ đơn của Tiếng Việt
Nhãn có phân biệt ký tự hoa và ký tự thường
Nhãn bao gồm các ký tự đặc biệt như dấu ".", ":", "-",…
Ví dụ:
- Thiết bị vệ sinh - Phòng tắm - Nhà bếp sẽ được gán thành "Thiết", "bị", "vệ", "sinh", "-", "Phòng, "tắm", "-", "Nhà", "bếp"
- ĐT: 012345678 sẽ được gán thành "ĐT:" và "012345678"

CER được tính theo công thức:

trong đó S: số ký tự của prediciton bị sai so với groundtruth, D: số ký tự của prediction bị thiếu so với groudtruth, I: số ký tự của prediction cần thêm vào so với groundtruth, N: số ký tự của groundtruth

Ví dụ:

Ta có groundtruth là "ncmd" (index tương ứng là 0, 1, 2, 3) và prediction là "anbm" (index tương ứng là 0, 1, 2, 3) Ta cần thực hiện 3 bước để chuyển từ prediction về groundtruth:

Bước 1: Xóa kí tự "a" tại vị trí 0 trong prediction, ta thu được kí tự "n" tại vị trí 0 trong groundtruth => D = 1
Bước 2: Thay thế kí tự "b" tại vị trí 2 trong prediciton thành "c", ta thu được kí tự "c" tại vị trí 1 trong groundtruth => S = 1
Bước 3: Thêm kí tự "d" tại vị trí 4 trong prediction, ta thu được kí tự "d" tại vị trí 3 trong groundtruth => I = 1

Do đó: CER = (1+1+1)/4 = 3/4. Các đội thi có thể tự sử dụng thư viện python-Levenshtein và tìm đọc về thuật toán để hiểu rõ hơn về cách tính S, D, I, từ đó tính ra được CER.

Điểm số cuối cùng sau khi các đội thi nộp kết quả lên hệ thống là:

Trong đó:

n là số file .txt (tương ứng với số ảnh đầu vào cần nhận diện),
m_i là số văn bản (số dòng) nằm trong file .txt thứ i,

Tuy nhiên, để tính CER cho từng văn bản, ta cần tìm đúng văn bản đang được nhận diện tương ứng văn bản nhãn nào. Trước khi nhận diện văn bản, mô hình cần phát hiện đâu là văn bản bằng việc vẽ bounding box xung quanh (Polygon 4 cạnh cho mỗi văn bản). Hai văn bản được xác định là cùng một vị trí khi bounding box của hai văn bản có chỉ số IOU>=0.5. Dù vậy, hệ thống sẽ tự động tìm đúng văn bản cần nhận diện và văn bản nhãn tương ứng với nhau nếu định dạng kết quả là hợp lệ. Các đội thi không cần quan tới thứ tự nhận diện văn bản nào trước, văn bản nào sau. Các đội thi cần xem chi tiết nộp bài tại Submission.

Quy định chung

Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.
Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các kỷ yếu liên quan theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.
Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.
Giải thưởng được trao dựa trên sự xem xét và xác minh của Ban tổ chức cuộc thi về tính đủ điều kiện của người dự thi và tuân thủ các quy tắc này cũng như tuân thủ các yêu cầu dành cho đội thắng cuộc.
Người tham gia trao cho Ban tổ chức cuộc thi quyền sử dụng các bài dự thi của bạn cũng như mã nguồn và dữ liệu được tạo và sử dụng để tạo bài dự thi cho bất kỳ mục đích nào và không cần phê duyệt thêm.

Điều kiện tham dự

Mỗi người tham gia phải tạo một tài khoản CodaLab để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.
Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.
Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.

Quản lý đội tham gia

Những người tham gia được phép thành lập đội. Số lượng người tham gia trong nhóm tối đa là 5 người.
Bạn không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản CodaLab riêng biệt.
Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm. Yêu cầu hợp nhất nhóm sẽ không được phép sau "Thời hạn sáp nhập nhóm".
Để hợp nhất, nhóm được kết hợp phải có tổng số lần gửi nhỏ hơn hoặc bằng số lượng tối đa được phép cho một nhóm tính đến ngày hợp nhất. Mức tối đa được phép là số lần gửi mỗi ngày cho mỗi giai đoạn nhân với số ngày cuộc thi đã diễn ra.
Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.

Thể lệ nộp bài

Số lần gửi tối đa trong mỗi giai đoạn:

Giai đoạn 1 - Khởi động:

Public Test: 10 bài / ngày / đội

Giai đoạn 2 - Về đích:

Private Test: 05 bài / ngày / đội

Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:

Thí sinh KHôNG được sử dụng dữ liệu khác ngoài tập dữ liệu được cung cấp bởi cuộc thi.
Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.
Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.
Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.
Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.

Định dạng của dữ liệu

Với mỗi ảnh tên img_{num}.jpg, đội thi cần xuất kết ra file .txt. Tên file .txt sẽ có định dạng res_img_{num}.txt trong đó num là số thứ tự của ảnh.

Ví dụ: ảnh img_1.jpg thì cần xuất kết quả ra tệp res_img_1.txt

Mỗi dòng của tệp kết quả .txt sẽ biểu diễn cho một bounding box (tọa độ 4 điểm) và nhãn của chữ chứa trong bounding box đó. Định dạng như sau:

x1,y1,x2,y2,x3,y3,x4,y4,Nhãn

Trong đó: tọa độ 4 điểm của bounding box được xếp theo chiều kinh đồng hồ với:

(x1,y1) là tọa độ của điểm top-left,
(x2,y2) là tọa độ của điểm top-right,
(x3,y3) là tọa độ của điểm bottom-right,
(x4,y4) là tọa độ của điểm bottom-left.

Ví dụ: 344,232,443,239,440,288,341,280,PHúC

Sau đó tất cả file res_img_{num}.txt sẽ được nén thành file prediction.zip và nộp lên thệ thống. Các file kết quả trong file .zip không được nằm trong thư mục cha nào.

Ngày 19/4/2022: Cập nhật trong phần Lưu ý cuối Overview

Ngày 13/4/2022: Cập nhật mô tả các đại lượng S, D, I trong công thức tính CER ở phần Evaluation.

Public Test

Start: April 1, 2022, midnight

Private Test

Start: May 15, 2022, 4:59 p.m.

Competition Ends

May 22, 2022, 1 a.m.

You must be logged in to participate in competitions.