GÁN NHÃN DỮ LIỆU VÀ NHỮNG TRƯỜNG HỢP THƯỜNG GẶP

Gán nhãn dữ liệu là quá trình gắn trường ý nghĩa cho các loại dữ liệu kỹ thuật số khác nhau như tệp âm thanh, văn bản, hình ảnh, video và nhiều nữa.

Đó là một quá trình mất nhiều thời gian, vì nó liên quan đến sự tương tác của con người để có kết quả chính xác nhất.

Cùng tìm hiểu một số trường hợp thường gặp về Gán nhãn dữ liệu:

Gán nhãn từ loại (POS tagging)

Chức năng của gán nhãn từ loại là xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác.

Một từ có thể có nhiều chức năng ngữ pháp, ví dụ như: trong câu “con ngựa đá con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất giữ chức năng ngữ pháp là động từ, nhưng từ thứ hai lại là danh từ trong câu.

Gán nhãn từ loại được xem là cơ sở phục vụ cho các bài toán về ngữ nghĩa cao hơn.

Gán nhãn tên thực thể (Named-Entity recognition)

Gán nhãn tên thực thể có giá trị về mặt ngữ nghĩa ở mức trung bình, thường được dùng để phân lớp văn bản.

Ví dụ: bà ba [CON NGUOI] bán bánh mì [THUC PHAM] ở phường mười ba [DIA DIEM].

Dịch máy (Machine translation)

Cách thức của dịch máy hiểu đơn giản nghĩa là đầu vào là một câu của ngôn ngữ A, đầu ra là câu của ngôn ngữ B tương ứng.

Bài toán này từng rất cấp thiết trong chiến tranh thế giới thứ 2, khi mà thông tin tình báo của địch cần được dịch trong thời gian ngắn nhất, giúp cho các lãnh đạo có thể đưa ra những chiến lược cấp thiết.

Nhận diện tiếng nói (Speech recognition)

Như tên bài toán Gán nhãn này được đặt, đầu vào sẽ là âm thanh tiếng nói, đầu ra là câu dạng văn bản.

Ngày nay, theo thống kê của Apple, người dùng thích sử dụng tiếng nói của mình để nhập văn bản hơn là cách nhập dữ liệu bằng bàn phím như truyền thống, đồng thời tương tác giữa người và máy theo cách này có tốc độ nhập liệu nhanh hơn.

Tuy vẫn còn có những hạn chế khó khăn nhất định, nhưng với công nghệ ngày càng tân tiến, bài toán Gán nhãn này đang được dần hoàn thiện và phát triển hơn

Ngày nay, cùng với sự phát triển của công nghệ số, các dịch vụ Gán nhãn dữ liệu trở nên phổ biến và cần thiết hơn.