[Ôn tập phỏng vấn]

Toán học: Bạn hãy giải thích ý nghĩa của Gradient Descent trong việc huấn luyện mạng Neural. Tại sao chúng ta cần các hàm kích hoạt (Activation Functions) phi tuyến tính như ReLU hay Sigmoid?

Giải thích hiện tượng Vanishing Gradient (Biến mất đạo hàm). Tại sao các kiến trúc như ResNet (với Residual Connection) hoặc việc sử dụng hàm ReLU lại giúp giải quyết vấn đề này?

Nâng cao: So sánh Batch NormalizationLayer Normalization. Tại sao trong các mô hình CNN người ta ưu tiên Batch Norm, còn trong các mô hình Transformer (NLP) người ta lại dùng Layer Norm?

Cơ bản: Trong kiến trúc CNN, vai trò của Pooling layer là gì? Tại sao xu hướng gần đây (như trong các phiên bản YOLO mới) người ta thường thay thế Pooling bằng các lớp Convolution với stride > 1?

Cấu trúc dữ liệu: Trong các bài toán xử lý video thời gian thực, việc quản lý hàng đợi (queue) các frame ảnh là rất quan trọng. Bạn sẽ sử dụng cấu trúc dữ liệu nào để tối ưu bộ nhớ và tốc độ?

Trung bình: Thuật toán Non-Maximum Suppression (NMS) hoạt động như thế nào? Trong trường hợp các đối tượng nằm quá sát nhau hoặc đè lên nhau, NMS có nhược điểm gì và bạn sẽ khắc phục ra sao (ví dụ: Soft-NMS)?

Nâng cao: Bạn hiểu thế nào về Receptive Field (trường thụ cảm)? Làm thế nào để tăng Receptive Field mà không làm tăng quá nhiều tham số của mô hình (Gợi ý: Dilated Convolution)?


Thuật toán: Giả sử bạn cần tìm kiếm các vector đặc trưng (embeddings) tương đồng trong một tập dữ liệu hàng triệu ảnh (cho bài toán Re-identification), bạn sẽ sử dụng phương pháp hoặc thuật toán nào để tăng tốc độ tìm kiếm thay vì so sánh tuyến tính?

Object Detection: Sự khác biệt giữa các dòng model One-stage (như YOLO, SSD) và Two-stage (như Faster R-CNN) là gì? Trong trường hợp nào bạn sẽ ưu tiên dùng One-stage?

Tracking: Bạn có biết sự khác biệt giữa Single-Object Tracking (SOT)Multi-Object Tracking (MOT) không? Giải thích cơ chế hoạt động của một thuật toán tracking phổ biến (ví dụ: SORT hoặc DeepSORT).

Multi-camera Tracking: Thử thách lớn nhất khi thực hiện tracking một đối tượng đi qua nhiều camera không có vùng quan sát chồng lấn (non-overlapping) là gì? Bạn sẽ giải quyết bài toán "nhận diện lại" (Re-ID) đó như thế nào?

Loss Functions: Với bài toán Person Re-identification, tại sao Triplet Loss thường được sử dụng hiệu quả hơn Softmax Loss thông thường?

Message Brokers: Tại sao trong một hệ thống phân tích video lớn, chúng ta lại cần đến RabbitMQ hoặc Redis thay vì gửi dữ liệu trực tiếp giữa các module?

Database: Khi lưu trữ hàng triệu vector đặc trưng của khuôn mặt hoặc người, bạn sẽ chọn loại database nào (Relational hay NoSQL/Vector Database)? Tại sao?

"Nếu hệ thống Unmanned Shopping (mua sắm không người bán) của chúng ta gặp tình trạng nhận diện nhầm sản phẩm do khách hàng cầm che khuất một phần, bạn sẽ đề xuất hướng tiếp cận nào để cải thiện độ chính xác?"


Nhận xét

Bài đăng phổ biến từ blog này

TÚM CÁI VÁY

Kì 2023.2 ở HUST

Học quân sự ở HUST có gì vui ?