Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”
Trong khuôn khổ chuỗi hoạt động học thuật thường kỳ, chiều ngày 21/5/2025, Trường Công nghệ thông tin và Truyền thông (SICT) đã tổ chức buổi seminar của ThS. Đỗ Mạnh Quang - giảng viên Khoa Khoa học máy tính. Với chuyên đề “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”, thu hút sự quan tâm của đông đảo giảng viên, nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo và Thị giác máy tính.
TS. Đặng Trọng Hợp - Hiệu trưởng Trường SICT phát biểu khai mạc hội thảo.
ThS. Đỗ Mạnh Quang - Giảng viên Khoa Khoa học máy tính trình bày trong buổi hội thảo.
OCR – Một công nghệ nền tảng trong thị giác máy tính
Nhận dạng ký tự quang học (OCR – Optical Character Recognition) là một trong những ứng dụng đầu tiên và quan trọng nhất của thị giác máy tính, cho phép máy tính "đọc hiểu" nội dung văn bản từ hình ảnh hoặc tài liệu được quét. Buổi seminar mở đầu bằng việc điểm lại hành trình phát triển của OCR từ những ngày đầu sơ khai. Với lối trình bày khoa học và trực quan, diễn giả đã đưa người nghe quay ngược dòng thời gian, tìm hiểu các phương pháp OCR cổ điển dựa trên đặc trưng thủ công (hand-crafted features) và các thuật toán thống kê như SVM (Support Vector Machine), k-NN (k-Nearest Neighbors), HMM (Hidden Markov Models). Mặc dù còn hạn chế về độ chính xác và khả năng xử lý văn bản phức tạp, những nền tảng này đã đặt viên gạch đầu tiên cho sự phát triển của OCR hiện đại.
Từ mạng nơ-ron đến Vision Transformer – Cú nhảy vọt trong kỷ nguyên AI
Tiếp nối hành trình đó là sự xuất hiện của các mô hình học sâu (deep learning), đặc biệt là các mạng nơ-ron tích chập (CNN), mạng hồi tiếp (RNN, LSTM) – mang đến bước đột phá trong việc xử lý dữ liệu ảnh và chuỗi ký tự. Những hệ thống OCR hiện đại không chỉ có khả năng nhận dạng chữ in, chữ viết tay với độ chính xác cao, mà còn hiểu được cấu trúc và ngữ cảnh của tài liệu. Đáng chú ý, seminar đã giới thiệu về các kiến trúc tiên tiến nhất hiện nay như Vision Transformer (ViT) – một xu hướng đang chiếm lĩnh lĩnh vực thị giác máy tính. Với khả năng học ngữ cảnh sâu và biểu diễn toàn cục, ViT đã giúp OCR mở rộng phạm vi ứng dụng sang các loại tài liệu phức tạp, văn bản không theo cấu trúc và môi trường nhiễu loạn.
Sức mạnh của AI thế hệ mới: LLMs & Multimodal
Một điểm nhấn đặc biệt của buổi seminar là phần trình bày về ảnh hưởng của các mô hình trí tuệ nhân tạo thế hệ mới, đặc biệt là mô hình ngôn ngữ lớn (LLMs) như GPT-4, và mô hình đa phương thức (multimodal) như Flamingo, Kosmos-2… Những mô hình này không chỉ hỗ trợ nhận dạng văn bản, mà còn có thể hiểu và phân tích ngữ nghĩa, giúp trích xuất thông tin sâu hơn từ hình ảnh tài liệu. Khả năng liên kết giữa ngôn ngữ tự nhiên và dữ liệu thị giác đã tạo ra những ứng dụng mạnh mẽ trong các lĩnh vực như:
Số hóa tài liệu lưu trữ, hồ sơ hành chính.
Tự động hóa quy trình xử lý văn bản và biểu mẫu.
Phát triển hệ thống trợ lý ảo thông minh xử lý ngôn ngữ và hình ảnh.
Công cụ và thư viện OCR mã nguồn mở – Cánh tay nối dài của nhà phát triển
Seminar cũng dành thời lượng giới thiệu và demo trực tiếp các thư viện OCR mã nguồn mở hiện đại như:
Các công cụ này kết hợp cùng với sức mạnh của mô hình AI đã và đang được ứng dụng rộng rãi trong thực tế, từ doanh nghiệp đến cơ quan nhà nước, trường học và tổ chức nghiên cứu. Trong khuôn khổ buổi seminar chuyên đề OCR, hai nhóm sinh viên đã có những bài trình bày ấn tượng, xoay quanh các chủ đề nghiên cứu và ứng dụng trong lĩnh vực học máy và thị giác máy tính.
Topic 1: HAutoML: Open-Source for Automated Machine Learning
Nhóm thứ nhất giới thiệu về HAutoML – một nền tảng mã nguồn mở hỗ trợ tự động hóa quá trình xây dựng mô hình học máy. Nội dung bài trình bày bao gồm:
Topic 2: MEPC: Multi-level Product Category Recognition Image Dataset
Nhóm đầu tiên giới thiệu về bộ dữ liệu MEPC – một bộ dữ liệu hình ảnh được xây dựng nhằm phục vụ cho bài toán nhận dạng danh mục sản phẩm ở nhiều cấp độ. Bài trình bày tập trung vào các điểm chính sau:
Một bước tiến trên hành trình kết nối tri thức và ứng dụng AI
Buổi seminar “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI” không chỉ mang đến cái nhìn toàn diện về quá trình phát triển của công nghệ OCR, mà còn là diễn đàn học thuật giàu giá trị, khơi dậy đam mê nghiên cứu và khám phá ứng dụng AI trong xử lý ngôn ngữ và thị giác máy tính. Thông qua những phân tích chuyên sâu và minh họa thực tế, người tham dự đã có cơ hội cập nhật kiến thức mới, khám phá tiềm năng ứng dụng và mở rộng định hướng nghiên cứu trong tương lai.
Trường Công nghệ thông tin và Truyền thông (SICT) sẽ tiếp tục tổ chức nhiều seminar chuyên đề hấp dẫn về AI, Machine Learning, Robotics và các công nghệ tương lai – là cầu nối học thuật hiệu quả giữa sinh viên, giảng viên và các chuyên gia đầu ngành.
Thứ Năm, 11:02 22/05/2025
Copyright © 2025 School of Information and Communications Technology