[Ôn tập phỏng vấn]
Toán học: Bạn hãy giải thích ý nghĩa của Gradient Descent trong việc huấn luyện mạng Neural. Tại sao chúng ta cần các hàm kích hoạt (Activation Functions) phi tuyến tính như ReLU hay Sigmoid? Giải thích hiện tượng Vanishing Gradient (Biến mất đạo hàm). Tại sao các kiến trúc như ResNet (với Residual Connection) hoặc việc sử dụng hàm ReLU lại giúp giải quyết vấn đề này? Nâng cao: So sánh Batch Normalization và Layer Normalization . Tại sao trong các mô hình CNN người ta ưu tiên Batch Norm, còn trong các mô hình Transformer (NLP) người ta lại dùng Layer Norm? Cơ bản: Trong kiến trúc CNN, vai trò của Pooling layer là gì? Tại sao xu hướng gần đây (như trong các phiên bản YOLO mới) người ta thường thay thế Pooling bằng các lớp Convolution với stride > 1 ? Cấu trúc dữ liệu: Trong các bài toán xử lý video thời gian thực, việc quản lý hàng đợi (queue) các frame ảnh là rất quan trọng. Bạn sẽ sử dụng cấu trúc dữ liệu nào để tối ưu bộ nhớ và tốc độ? Trung bình: Thuật toán Non-Maximum S...