Nguyễn Tự Tùng
Vị trí ứng tuyển: Data Scientist

tutung13579@gmail.com | +84-842-013-095 | github.com/cedarnguyen

Giới thiệu
Thạc sĩ Data Mining for IoT với nền tảng vững chắc về học máy, học sâu và phân tích dựa trên dữ
liệu. Có kinh nghiệm thiết kế và triển khai các pipeline dữ liệu end-to-end sử dụng Python, PyTorch,
TensorFlow và Scikit-learn. Thành thạo mô hình thống kê, kỹ thuật đặc trưng, giải thích mô hình
(explainability) và triển khai hệ thống dự đoán. Có tư duy nghiên cứu và ứng dụng AI,
Kỹ năng & Chuyên môn
• Ngôn ngữ: Python, Bash, Shell
• Frameworks & Thư viện: PyTorch, TensorFlow, Scikit-learn, Keras, NumPy, Torchvision,
SHAP
• Mô hình Học sâu: CNN, ResNet, CASER, FaceNet
• Hệ thống gợi ý: Lọc cộng tác, Lọc theo nội dung, Mô hình lai
• Kỹ thuật ML: Hồi quy, Phân loại, Gom cụm, PCA, AI có thể giải thích (XAI)
• Thị giác máy tính: OpenCV, Torchvision Transforms
• Công cụ: Google Colab, CUDA, Kaggle, Visual Studio
• Hệ điều hành: Linux, Windows
Học vấn
Thạc sĩ Data Mining for IoT 2023 –  
Trường Đại học Khoa học và Công nghệ Hà Nội / INP Toulouse
Cử nhân CNTT & Truyền thông 2019 – 2022
Trường Đại học Khoa học và Công nghệ Hà Nội, Việt Nam
Dự án tiêu biểu
Phát hiện Email Lừa Đảo (Phishing) bằng Mô hình Transformer BERT
09/2025 – 10/2025
Công nghệ: Python, PyTorch, Hugging Face Transformers, Scikit-learn, Pandas
• Thu thập và tiền xử lý dữ liệu từ bộ CEAS (bao gồm tiêu đề, nội dung và thông tin người gửi)
để huấn luyện mô hình.
• Ứng dụng mô hình ngôn ngữ BERT (bidirectional transformer) để học biểu diễn ngữ cảnh và
phân loại email lừa đảo / hợp lệ.
• Thực hiện fine-tuning mô hình BERT trên dữ liệu email, sử dụng kỹ thuật tokenization và
attention mask để xử lý đầu vào, tối ưu hàm mất mát bằng Cross-Entropy.
• Đánh giá mô hình đạt hiệu quả phân loại cao (90%) và khả năng tổng quát tốt trên tập kiểm
thử.
• Quy mô nhóm: 1
Phân loại bệnh lá có thể giải thích với SHAP và Grad-CAM (Master Project)
04/2025 – 09/2025

1

Công nghệ: Python, PyTorch, SHAP, Grad-CAM, OpenCV, Matplotlib
• Phát triển pipeline có thể giải thích cho ResNet18 và DenseNet sử dụng SHAP và Grad-CAM.
• Chỉnh sửa kiến trúc ResNet18 và so sánh với DenseNet để đánh giá độ chính xác phân loại.
• Phân tích lỗi chi tiết bằng cách khảo sát các dự đoán sai có độ tin cậy cao và dự đoán đúng có
độ tin cậy thấp.
• Tích hợp bounding box và heatmap để làm rõ lý do và đặc trưng quan trọng mà mô hình sử
dụng.
• Kết quả: Đánh giá hiệu suất mô hình, so sánh đầu ra XAI với ground truth và phân tích các
trường hợp sai để hiểu nguyên nhân.
• Quy mô nhóm: 1

Dự đoán biến động thị trường với MoLE, XGBoost, Random Forest & CNN-
BiLSTM và Hồi quy Bayes

06/2025 – 08/2025
Công nghệ: Python, PyTorch, XGBoost, SHAP, Scikit-learn
• Xây dựng và so sánh mô hình MoLE, Hồi quy Bayes và các mô hình khác để dự đoán biến động
giá VN30F1M và chọn ra mô hình phù hợp.
• Tích hợp XGBoost + SHAP để chọn đặc trưng và cải thiện khả năng giải thích.
• Xử lý dữ liệu chuỗi thời gian, huấn luyện mô hình, tinh chỉnh siêu tham số và trực quan hóa
kết quả.
• Kết quả: Tối đa precision qua việc tăng threshold đạt được 52% precision với recall ổn định
trong tháng 6/2025, hỗ trợ giảm rủi ro đồng thời giữ khả năng sinh lợi.
Hệ thống gợi ý sử dụng CASER
04/2024 – 08/2024
Công nghệ: Python, PyTorch, CASER, Pandas
• Thiết kế và triển khai hệ thống gợi ý tuần tự bằng CASER để dự đoán mục kế tiếp.
• Xây dựng pipeline đầy đủ: tiền xử lý, sinh embedding, huấn luyện và đánh giá mô hình.
• So sánh CASER với FP-Growth để đánh giá hiệu suất trong bài toán gợi ý tuần tự.
• Kết quả: So sánh hiệu quả giữa phương pháp mới và truyền thống.
• Quy mô nhóm: 1
Dự án bổ sung
Tích hợp Oracle Database & Giám sát cảm biến
02/2025 – 04/2025
Công nghệ: Oracle 19c, Python, Arduino, Pandas
• Cài đặt và cấu hình Oracle 19c trên Linux, bao gồm tablespace, schema và quản lý người dùng.
• Thiết kế schema cho dữ liệu IoT chuỗi thời gian với indexing tối ưu để truy vấn nhanh.
• Mô phỏng và sinh dữ liệu cảm biến IoT bằng Python, chèn vào Oracle DB.
• Tích hợp CSDL với API của thành viên nhóm để thu thập dữ liệu thời gian thực.
• Kết quả: Đạt hiệu suất ổn định với độ trễ truy vấn thấp khi dữ liệu cảm biến liên tục đổ về.
• Quy mô nhóm: 2
Triển khai cụm Hadoop-Spark tự động với Ansible
02/2025 – 04/2025

2

Công nghệ: Ansible, Hadoop, Spark, Bash, Ubuntu
• Phát triển playbook Ansible có thể tái sử dụng để tự động triển khai cụm Hadoop-Spark 3 node.
• Cấu hình xác thực bằng SSH key và sudo cho điều phối an toàn.
• Tự động cài đặt Hadoop & Spark với cấu hình đồng bộ trên toàn bộ node.
• Kiểm thử chức năng cụm thông qua nộp và chạy job.
• Kết quả: Hoàn thiện giải pháp Ansible để tự động hóa toàn bộ triển khai cụm Hadoop–Spark.
• Quy mô nhóm: 1
Kinh nghiệm làm việc
AI Engineer – Goline
06/2025 – 09/2025
Công nghệ: Python, PyTorch, TensorFlow, XGBoost, Scikit-learn
• Nghiên cứu và xây dựng các mô hình AI cho giao dịch định lượng (quantitative trading).
• Phân tích dữ liệu chuỗi thời gian tài chính để tìm các mẫu dự đoán và tín hiệu giao dịch.
• Phát triển, thử nghiệm và đánh giá nhiều mô hình (XGBoost, LSTM, Bayesian...) kết hợp với
kỹ thuật giải thích mô hình (SHAP).
• Thử nghiệm các mô hình kết hợp (ensemble, hybrid) để nâng cao độ ổn định và khả năng sinh
lợi.
• Kết quả: Hoàn thiện các nguyên mẫu mô hình giao dịch với độ chính xác và khả năng quản lý
rủi ro cân bằng.
Database Administrator – MPS (Myanmar Platinum Solution)                                                                            
05/2023 – 03/2025
Công nghệ: Oracle DBs, Data Guard (DG), Real Application Clusters (RAC), Linux
Kiểm tra hệ thống cơ sở dữ liệu Oracle cho khách hàng trong và ngoài nước, đảm bảo tính sẵn
sàng và hiệu suất ổn định.