Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

Trong khuôn khổ chuỗi hoạt động học thuật thường kỳ, chiều ngày 21/5/2025, Trường Công nghệ thông tin và Truyền thông (SICT) đã tổ chức buổi seminar của ThS. Đỗ Mạnh Quang - giảng viên Khoa Khoa học máy tính. Với chuyên đề “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”, thu hút sự quan tâm của đông đảo giảng viên, nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo và Thị giác máy tính.

Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

TS. Đặng Trọng Hợp - Hiệu trưởng Trường SICT phát biểu khai mạc hội thảo.

Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

ThS. Đỗ Mạnh Quang - Giảng viên Khoa Khoa học máy tính trình bày trong buổi hội thảo.

OCR – Một công nghệ nền tảng trong thị giác máy tính

Nhận dạng ký tự quang học (OCR – Optical Character Recognition) là một trong những ứng dụng đầu tiên và quan trọng nhất của thị giác máy tính, cho phép máy tính "đọc hiểu" nội dung văn bản từ hình ảnh hoặc tài liệu được quét. Buổi seminar mở đầu bằng việc điểm lại hành trình phát triển của OCR từ những ngày đầu sơ khai. Với lối trình bày khoa học và trực quan, diễn giả đã đưa người nghe quay ngược dòng thời gian, tìm hiểu các phương pháp OCR cổ điển dựa trên đặc trưng thủ công (hand-crafted features) và các thuật toán thống kê như SVM (Support Vector Machine), k-NN (k-Nearest Neighbors), HMM (Hidden Markov Models). Mặc dù còn hạn chế về độ chính xác và khả năng xử lý văn bản phức tạp, những nền tảng này đã đặt viên gạch đầu tiên cho sự phát triển của OCR hiện đại.

Từ mạng nơ-ron đến Vision Transformer – Cú nhảy vọt trong kỷ nguyên AI

Tiếp nối hành trình đó là sự xuất hiện của các mô hình học sâu (deep learning), đặc biệt là các mạng nơ-ron tích chập (CNN), mạng hồi tiếp (RNN, LSTM) – mang đến bước đột phá trong việc xử lý dữ liệu ảnh và chuỗi ký tự. Những hệ thống OCR hiện đại không chỉ có khả năng nhận dạng chữ in, chữ viết tay với độ chính xác cao, mà còn hiểu được cấu trúc và ngữ cảnh của tài liệu. Đáng chú ý, seminar đã giới thiệu về các kiến trúc tiên tiến nhất hiện nay như Vision Transformer (ViT) – một xu hướng đang chiếm lĩnh lĩnh vực thị giác máy tính. Với khả năng học ngữ cảnh sâu và biểu diễn toàn cục, ViT đã giúp OCR mở rộng phạm vi ứng dụng sang các loại tài liệu phức tạp, văn bản không theo cấu trúc và môi trường nhiễu loạn.

Sức mạnh của AI thế hệ mới: LLMs & Multimodal

Một điểm nhấn đặc biệt của buổi seminar là phần trình bày về ảnh hưởng của các mô hình trí tuệ nhân tạo thế hệ mới, đặc biệt là mô hình ngôn ngữ lớn (LLMs) như GPT-4, và mô hình đa phương thức (multimodal) như Flamingo, Kosmos-2… Những mô hình này không chỉ hỗ trợ nhận dạng văn bản, mà còn có thể hiểu và phân tích ngữ nghĩa, giúp trích xuất thông tin sâu hơn từ hình ảnh tài liệu. Khả năng liên kết giữa ngôn ngữ tự nhiên và dữ liệu thị giác đã tạo ra những ứng dụng mạnh mẽ trong các lĩnh vực như:

Số hóa tài liệu lưu trữ, hồ sơ hành chính.

Tự động hóa quy trình xử lý văn bản và biểu mẫu.

Phát triển hệ thống trợ lý ảo thông minh xử lý ngôn ngữ và hình ảnh.

Công cụ và thư viện OCR mã nguồn mở – Cánh tay nối dài của nhà phát triển

Seminar cũng dành thời lượng giới thiệu và demo trực tiếp các thư viện OCR mã nguồn mở hiện đại như:

  • Tesseract – công cụ OCR phổ biến do Google phát triển.
  • EasyOCR – hỗ trợ nhiều ngôn ngữ và dễ tích hợp.
  • PaddleOCR – mạnh mẽ với khả năng nhận dạng chữ viết tay và tài liệu đa ngôn ngữ.
  • DTrOCR – Mô hình OCR hiện đại được đề xuất bởi M. Fujitake (WACV 2024), sử dụng kiến trúc Decoder-only Transformer – không cần encoder hình ảnh riêng biệt, giúp đơn giản hóa pipeline và cải thiện hiệu quả nhận dạng trực tiếp từ ảnh đầu vào.
  • DLORA-TrOCR – Phiên bản cải tiến của TrOCR tích hợp kỹ thuật Low-Rank Adaptation (LoRA), cho phép tinh chỉnh mô hình một cách hiệu quả với chi phí tính toán thấp, phù hợp để tùy biến trong các ứng dụng OCR đặc thù.

Các công cụ này kết hợp cùng với sức mạnh của mô hình AI đã và đang được ứng dụng rộng rãi trong thực tế, từ doanh nghiệp đến cơ quan nhà nước, trường học và tổ chức nghiên cứu. Trong khuôn khổ buổi seminar chuyên đề OCR, hai nhóm sinh viên đã có những bài trình bày ấn tượng, xoay quanh các chủ đề nghiên cứu và ứng dụng trong lĩnh vực học máy và thị giác máy tính.

Topic 1: HAutoML: Open-Source for Automated Machine Learning

Nhóm thứ nhất giới thiệu về HAutoML – một nền tảng mã nguồn mở hỗ trợ tự động hóa quá trình xây dựng mô hình học máy. Nội dung bài trình bày bao gồm:

  • Tổng quan về khái niệm AutoML và vai trò của nó trong việc đơn giản hóa quá trình triển khai mô hình ML cho người dùng không chuyên.
  • Cấu trúc và thành phần của HAutoML: từ tiền xử lý dữ liệu, lựa chọn mô hình, tối ưu siêu tham số đến đánh giá và triển khai.
  • Điểm nổi bật của HAutoML là khả năng mở rộng và tích hợp linh hoạt với các thư viện như scikit-learn, LightGBM, XGBoost.
  • Trình bày ví dụ minh họa với một bài toán thực tế (phân loại hoặc hồi quy), thể hiện khả năng chọn pipeline tối ưu chỉ với vài dòng cấu hình.
  • Khả năng ứng dụng trong môi trường giáo dục, nghiên cứu và doanh nghiệp vừa và nhỏ, giúp tiết kiệm thời gian và nguồn lực khi triển khai các giải pháp ML.

Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

Topic 2: MEPC: Multi-level Product Category Recognition Image Dataset

Nhóm đầu tiên giới thiệu về bộ dữ liệu MEPC – một bộ dữ liệu hình ảnh được xây dựng nhằm phục vụ cho bài toán nhận dạng danh mục sản phẩm ở nhiều cấp độ. Bài trình bày tập trung vào các điểm chính sau:

  • Mục tiêu của bộ dữ liệu là hỗ trợ mô hình học sâu trong việc phân loại sản phẩm theo cấu trúc phân cấp (ví dụ: Điện tử > Laptop > Laptop chơi game).
  • Phương pháp thu thập và gán nhãn dữ liệu, đảm bảo độ đa dạng về hình ảnh và tính nhất quán trong phân loại.
  • Những thách thức gặp phải trong quá trình xây dựng bộ dữ liệu như: sự đa dạng hình ảnh, các danh mục chồng chéo, và độ sâu của cây phân loại.
  • Kết quả thử nghiệm sơ bộ với các mô hình học sâu phổ biến như ResNet, EfficientNet, và việc áp dụng loss function phù hợp với cấu trúc phân cấp.
  • Ứng dụng tiềm năng của MEPC trong các hệ thống thương mại điện tử, giúp cải thiện hiệu quả truy vấn và đề xuất sản phẩm.

Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

Một bước tiến trên hành trình kết nối tri thức và ứng dụng AI

Buổi seminar “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI” không chỉ mang đến cái nhìn toàn diện về quá trình phát triển của công nghệ OCR, mà còn là diễn đàn học thuật giàu giá trị, khơi dậy đam mê nghiên cứu và khám phá ứng dụng AI trong xử lý ngôn ngữ và thị giác máy tính. Thông qua những phân tích chuyên sâu và minh họa thực tế, người tham dự đã có cơ hội cập nhật kiến thức mới, khám phá tiềm năng ứng dụng và mở rộng định hướng nghiên cứu trong tương lai.

Seminar chuyên đề: “OCR từ cổ điển đến hiện tại – Hành trình phát triển trong kỷ nguyên AI”

Trường Công nghệ thông tin và Truyền thông (SICT) sẽ tiếp tục tổ chức nhiều seminar chuyên đề hấp dẫn về AI, Machine Learning, Robotics và các công nghệ tương lai – là cầu nối học thuật hiệu quả giữa sinh viên, giảng viên và các chuyên gia đầu ngành.

  • Thứ Năm, 11:02 22/05/2025

Tin tiêu điểm

Sinh viên Khóa 19 Khoa Công nghệ thông tin đạt Học bổng HaUI 100% toàn khóa học.

Sinh viên Khóa 19 Khoa Công nghệ thông tin đạt Học bổng HaUI 100% toàn khóa học.

Thứ Sáu, 11:07 20/09/2024
Đội bóng khoa Công nghệ thông tin cùng những trận cầu đáng nhớ

Đội bóng khoa Công nghệ thông tin cùng những trận cầu đáng nhớ

Thứ Bảy, 10:00 23/07/2022
Đại hội đại biểu Liên chi Đoàn khoa Công nghệ thông tin lần thứ X, nhiệm kỳ 2022 - 2024

Đại hội đại biểu Liên chi Đoàn khoa Công nghệ thông tin lần thứ X, nhiệm kỳ 2022 - 2024

Thứ Hai, 15:00 18/04/2022
Gặp mặt tân Sinh viên K15 khoa Công nghệ thông tin

Gặp mặt tân Sinh viên K15 khoa Công nghệ thông tin

Thứ Tư, 08:17 28/10/2020
Chương trình thực tập tại SVMC "SVMC Internship Program 2020"

Chương trình thực tập tại SVMC "SVMC Internship Program 2020"

Thứ Sáu, 14:02 22/05/2020

Các bài đã đăng

Hội thảo “Hành trang Cử nhân Công nghệ thông tin cho thị trường Hàn Quốc” – Cơ hội và định hướng nghề nghiệp quốc tế cho sinh viên SICT

Hội thảo “Hành trang Cử nhân Công nghệ thông tin cho thị trường Hàn Quốc” – Cơ hội và định hướng nghề nghiệp quốc tế cho sinh viên SICT

Thứ Sáu, 10:28 30/05/2025
Xét tuyển Nghiên cứu sinh đợt 2 năm 2025 – Ngành Hệ thống thông tin: Định hướng nghiên cứu hiện đại, đa dạng và đầy tiềm năng

Xét tuyển Nghiên cứu sinh đợt 2 năm 2025 – Ngành Hệ thống thông tin: Định hướng nghiên cứu hiện đại, đa dạng và đầy tiềm năng

Thứ Tư, 15:48 28/05/2025
Tư vấn tuyển sinh 2025 tại Đài Truyền hình Việt Nam: “Khủng hoảng kinh tế – Những ngành nghề nào lên ngôi?”

Tư vấn tuyển sinh 2025 tại Đài Truyền hình Việt Nam: “Khủng hoảng kinh tế – Những ngành nghề nào lên ngôi?”

Chủ Nhật, 10:36 25/05/2025
Trường Công nghệ thông tin và Truyền thông tổ chức thành công Lễ bảo vệ luận văn thạc sĩ Hệ thống thông tin khóa 13.2 đợt 2

Trường Công nghệ thông tin và Truyền thông tổ chức thành công Lễ bảo vệ luận văn thạc sĩ Hệ thống thông tin khóa 13.2 đợt 2

Thứ Tư, 14:02 21/05/2025
Tổ chức sinh hoạt chuyên đề tháng 5/2025: "Hành trình Quảng Ninh - Tiếp lửa truyền thống, dựng xây tương lai"

Tổ chức sinh hoạt chuyên đề tháng 5/2025: "Hành trình Quảng Ninh - Tiếp lửa truyền thống, dựng xây tương lai"

Thứ Ba, 16:13 20/05/2025
Thăm quan doanh nghiệp LG CNS - Cơ hội vàng cho sinh viên khám phá công nghệ tại Keangnam Landmark 72

Thăm quan doanh nghiệp LG CNS - Cơ hội vàng cho sinh viên khám phá công nghệ tại Keangnam Landmark 72

Thứ Ba, 13:45 20/05/2025
Trường Đại học Công nghiệp Hà Nội triển khai chương trình truyền thông – tư vấn tuyển sinh năm 2025 tại Đài Truyền hình Việt Nam

Trường Đại học Công nghiệp Hà Nội triển khai chương trình truyền thông – tư vấn tuyển sinh năm 2025 tại Đài Truyền hình Việt Nam

Thứ Hai, 15:24 19/05/2025
Giảng viên Trần Phương Nhung – Người truyền cảm hứng từ giảng đường đến sân khấu âm nhạc

Giảng viên Trần Phương Nhung – Người truyền cảm hứng từ giảng đường đến sân khấu âm nhạc

Thứ Hai, 10:23 19/05/2025

Video giới thiệu