Học Bổng Ctdb Hcmus Là Gi 2023 Ranking Master Data Science
Học bổng Thạc sĩ NUS Master Scholarship Program Đại học Quốc gia Singapore
Đội ngũ đánh giá và thẩm định chương trình:
TS. ĐẶNG HOÀNG VŨ Tiến sỹ Toán Đại học Cambridge, Anh Giám đốc Khoa học FPT TS. TRẦN THẾ TRUNG Viện trưởng Viện CNTT, Đại học FPT
Cấu trúc chương trình học khoá học Data Science
Môn học này giới thiệu cho người học các khái niệm cơ bản trong khoa học dữ liệu (Data Science) bao gồm data science là gì, các chủ đề và thuật toán trong Data Science và ứng dụng trong thực tế. Ngoài ra môn học giới thiệu phương pháp luận sử dụng trong khoa học dữ liệu, vòng đời dự án Data Science. Học viên cũng được dạy về lập trình Python cơ bản và ôn tập lại về xác suất thống kê.
Rất nhiều dữ liệu trên thế giới hiện nay được lưu trên cơ sở dữ liệu, kiến thức về cơ sở dữ liệu và ngôn ngữ SQL rất cần thiết để trở thành nhà khoa học dữ liệu. Môn học cung cấp kiến thức về các khái niệm cơ sở dữ liệu quan hệ, thực hành các câu lệnh query sử dụng ngôn ngữ SQL và Python. Học viên học làm việc sâu với Pandas, Numpy để khám phá nhiều dạng dữ liệu, làm sạch dữ liệu, xử lý dữ liệu bị thiếu. Môn học dạy cách biểu diễn dữ liệu để hiểu sâu hơn về dữ liệu, giúp đưa ra các quyết định hiệu quả.
Học viên được dạy mục đích của học máy và các ứng dụng trong thực tế. Môn học trang bị các thuật toán trong học máy: regression, classification, clustering, recommender system.
(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học).
Mục tiêu của khóa học này là cung cấp cho người học sự hiểu biết cơ bản về các neural network hiện đại và các ứng dụng của chúng trong thị giác máy tính và nghiên cứu ngôn ngữ tự nhiên. Sau khi đã tìm hiểu các mô hình tuyến tính, gradient descent và đi sâu hơn vào các phương pháp tối ưu, điển hình cho việc huấn luyện deep neural networks, chúng ta sẽ tiếp tục với các lớp phổ biến nhất của neural network là lớp fully connected (phân loại), lớp convolution (thị giác máy tính) và các lớp recurrent (xử lý ngôn ngữ tự nhiên). Sau đó, bạn sẽ sử dụng các lớp này để xây dựng các mô hình DNN đầy đủ sử dụng các framework Tensorflow và Keras. Trong các dự án trong khóa học, bạn sẽ giải quyết vấn đề nhận diện khuôn mặt đeo khẩu trang và phân loại văn bản độc hại bằng cách sử dụng Keras.
Nắm được khái niệm cơ bản, ứng dụng và vai trò của Deep Learning hiện nay trong thị giác máy tính và xử lý ngôn ngữ tự nhiên.
Nắm được các ứng dụng của DL vào trong thị giác máy tính thông qua kiến trúc mạng CNN (CNN, VGG, Resnet, Inception, MobileNet, EfficientNet): Bài toán phân loại hình ảnh, nhận diện vật thể, phân vùng theo nhóm, nhận diện khuôn mặt.
Nắm được ứng dụng của DL vào trong xử lý ngôn ngữ tự nhiên thông qua các kiến trúc mạng về RNN (RNN, LSTM, GRU, Attention và Transformation): Nhận diện cảm xúc thông qua văn bản, dịch máy, xây dựng và sử dụng Word Embedding.
Sử dụng được Tensorflow để xây dựng một dự án hoàn chỉnh về Machine Learning và Deep Learning.
Có năng lực về chuẩn hóa dữ liệu, xây dựng và đánh giá, phân tích lỗi, cải thiện và tối ưu model trong các dự án ML/DL.
Power BI đang nhanh chóng trở thành nền tảng BI (kinh doanh thông minh) mạnh mẽ nhất trên thế giới và là một trong những công cụ rất hữu ích cho cả các chuyên gia dữ liệu cũng như những người mới bắt đầu tìm hiểu về phân tích dữ liệu. Với Power BI, bạn có thể kết nối với hàng trăm nguồn dữ liệu, xây dựng các mô hình phức tạp bằng các công cụ đơn giản và trực quan, đồng thời thiết kế các bảng báo cáo và điều khiển tương tác tuyệt đẹp.
Trong khóa học này, bạn sẽ đóng vai trò là Nhà phân tích kinh doanh của Adventure Work Cycles, một công ty sản xuất toàn cầu. Nhiệm vụ của bạn sẽ là thiết kế và cung cấp một giải pháp kinh doanh thông minh đầu cuối, chất lượng và chuyên nghiệp thông qua Power BI với đầu vào là các tệp dữ liệu thô.
Chúng ta sẽ được hướng dẫn chi tiết cách sử dụng Power BI Desktop để thực thi nhiệm vụ trên. Bên cạnh đó, môn học sẽ cung cấp cho bạn các giải thích rõ ràng cũng như các kỹ thuật chuyên nghiệp hữu ích trong từng quá trình thực hiện. Chúng ta sẽ đi theo một tiến trình ổn định, có hệ thống để hoàn thành được một dự án hoàn chỉnh về Power BI.
Hiểu về lợi ích của Business Intelligence đối với doanh nghiệp.
Cài đặt và làm quen với giao diện của Power BI Desktop.
Xử lý, chuyển đổi và tích hợp được dữ liệu thô vào Power BI.
Xây dựng mô hình dữ liệu quan hệ với các bảng dữ liệu và quan hệ dữ liệu.
Sử dụng DAX để tính toán, trích xuất và phân tích dữ liệu.
Xây dựng được các báo cáo Power BI đẹp mắt, có thể tương tác với người dùng.
Thiết kế, xây dựng và triển khai được một quy trình BI hoàn chỉnh trên Power BI từ dữ liệu thô với các báo cáo và dashboard chất lượng.
Đăng nhập và làm quen với Power BI Service.
Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một đề xuất giải pháp công nghệ và xây dựng được tài liệu nghiệp vụ liên quan đến giải pháp đó.
Học viên có thể chọn 1 trong 2 option sau:
Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.
Option 2: Đi thực tập doanh nghiệp
Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập. Nếu được doanh
Chương trình có đề bài thực hành giúp học viên rèn luyện khả năng lập trình bám theo các bài lý thuyết đã được dạy.
Assignment 1: Phương pháp luận Khoa học dữ liệu
Chủ đề: Bạn có thể áp dụng những kiến thức đã học để giải quyết một trong các vấn đề sau với vai trò của một khách hàng cũng như một nhà khoa học dữ liệu. Đầu tiên, bạn cần chọn một chủ đề mà bạn quan tâm. Sau đó, hãy thực hiện theo các giai đoạn (stages) của Phương pháp luận Khoa học Dữ liệu và mô tả những việc cần làm để giải quyết vấn đề đó.
Mục tiêu: Bài tập cung cấp cho học viên một kĩ năng thực tế để làm việc với phương pháp luận khoa học dữ liệu. Học viên sẽ áp dụng các quy tắc phương pháp luận để tìm ra hướng giải quyết cho vấn đề của bạn..
Assignment 2: Tính toán và phân tích điểm thi (Test Grade Calculator)
Chủ đề: Trong bài tập lớn này, bạn cần viết một chương trình để tính toán điểm thi cho nhiều lớp với sĩ số hàng nghìn học sinh. Mục đích của chương trình giúp giảm thời gian chấm điểm.
Mục tiêu: Bạn sẽ học cách viết một chương trình Python tập trung vào lập trình cơ bản, sử dụng list, function và xử lý với chuỗi. Hơn nữa, bạn sẽ biết cách truy cập file để đọc dữ liệu và ghi kết quả thống kê được.
Yêu cầu: Bài tập này cung cấp cho học viên một nguồn dữ liệu thực tế. Các bạn sẽ thực hành sử dụng các hàm khác nhau trong Python để giải quyết một bài toán cụ thể.
Assignment 1: Truy xuất và phân tích dữ liệu bóng đá châu Âu
Chủ đề: Bạn nhận được Cơ sở dữ liệu bóng đá châu Âu có hơn 25.000 trận đấu và hơn 10.000 cầu thủ cho các mùa bóng đá chuyên nghiệp châu Âu từ 2008 đến 2016. Mục tiêu là bạn xem qua cơ sở dữ liệu này và thực hiện phân tích, bao gồm một số bước khám phá dữ liệu, thống kê cơ bản và sau đó trực quan hoá kết quả. Để hoàn thành tất cả các bước, bạn cần truy vấn dữ liệu trong cơ sở dữ liệu bằng cách sử dụng câu lệnh SQL. Thông qua dự án này, ban có thể thực hành viết lệnh SQL để lấy dữ liệu về và trích xuất nó.
Mục tiêu: Đề tài này cung cấp một cơ sở dữ liệu thực tế và bạn sẽ thực hành tất cả các câu lệnh SQL trong bài học.
Assignment 2: Phân tích dữ liệu Covid-19
Chủ đề: Coronavirus là một họ virus được đặt theo tên của chủng Virus coronavirus mới, còn được gọi là SARS-CoV-2, là một loại virus lây truyền qua đường hô hấp lần đầu tiên được phát hiện ở Vũ Hán, Trung Quốc. Vào ngày 2/11/2020, Tổ chức Y tế Thế giới đã chỉ định tên COVID-19 cho bệnh do coronavirus mới gây ra. Dự án này nhằm mục đích tìm hiểu COVID-19 thông qua phân tích dữ liệu và dự báo.
Mục tiêu: Bạn sẽ học cách viết chương trình Python để tải dữ liệu từ file bằng cách sử dụng gói DataFrame trong Pandas và sử dụng Thống kê mô tả để hiểu dữ liệu của bạn. Ngoài ra, bạn sẽ thực hành xử lý các giá trị bị thiếu và chuyển đổi lại một số trường trước khi phân tích đặc trưng riêng lẻ. Trong bước phân tích, bạn sẽ bắt đầu bằng cách nêu ra một số câu hỏi, sau đó khám phá dữ liệu và áp dụng các kỹ năng trực quan hóa dữ liệu bằng Matplotlib, Seaborn, Folium, Bokeh, v.v. để minh họa kết quả. Cuối cùng bạn sẽ chọn các đặc trưng phù hợp nhất giúp bạn dự đoán thời gian di chuyển.
Assignment 1: Dự đoán số người trúng tuyển American College
Chủ đề: Dự án này liên quan đến tập dữ liệu College, trong tệp College.csv thuộc thư mục dữ liệu. Nó chứa một số biến cho 777 trường đại học và cao đẳng khác nhau ở Mỹ.
Mục tiêu: Sau đây là một số câu hỏi mà bạn sẽ gặp phải trong quá trình học:
Sẽ không có một câu trả lời đúng duy nhất cho mỗi câu hỏi trên. Khi thực hiện dự án này, hãy làm việc với các mentors, tiếp thu các ý kiến nhận xét, đánh giá, từ đó phát triển câu trả lời cho những câu hỏi này.
Yêu cầu: Chúng ta sẽ phải phân tích dữ liệu, thực hiện các bước chuyển đổi và tiêu chuẩn hóa cần thiết, áp dụng thuật toán học máy, huấn luyện mô hình, kiểm tra hiệu suất của mô hình được huấn luyện và lặp lại cho đến khi tìm thấy hiệu suất cao nhất cho loại dữ liệu của mình.
Assignment 2: Dự đoán khả năng mắc bệnh tiểu đường loại 2 tại Arizona
Chủ đề: Pima là một nhóm người Mỹ bản địa sống ở Arizona. Nhờ yếu tố di truyền mà nhóm người này có thể tồn tại bình thường với chế độ ăn ít carbohydrate trong nhiều năm. Trong những năm gần đây, sự thay đổi đột ngột từ cây nông nghiệp truyền thống sang thực phẩm chế biến sẵn, cùng với việc giảm các hoạt động thể chất, đã khiến tỷ lệ mắc bệnh tiểu đường loại 2 tăng cao. Và vì lý do này, họ thành đối tượng của nhiều cuộc nghiên cứu. Loại dữ liệu và bài toán là một phân loại nhị phân có giám sát. Cho một số yếu tố, tất cả đều có các đặc điểm (đặc tính) nhất định, chúng tôi muốn xây dựng một mô hình học máy để xác định những người bị ảnh hưởng bởi bệnh tiểu đường loại 2.
Mục tiêu: Sau đây là một số câu hỏi mà bạn sẽ gặp phải trong quá trình học tập:
Sẽ không có một câu trả lời đúng duy nhất cho mỗi câu hỏi trên. Khi thực hiện dự án này, hãy làm việc với các mentors, tiếp thu các ý kiến nhận xét, đánh giá, từ đó phát triển câu trả lời cho những câu hỏi này.
Yêu cầu: Chúng ta cố gắng thực hành tất cả các thuật toán phân loại đã học trong khóa học này: KNN, Hồi quy logistic, Cây quyết định, SVM và các phương pháp kết hợp.
Assignment 1: Phân loại gương mặt đeo khẩu trang
Chủ đề: Trong bối cảnh hiện nay, khi mà dịch bệnh Covid-19 vẫn còn là một vấn đề không của riêng cá nhân nào thì nhận diện gương mặt một lần nữa thể hiện tầm quan trọng và sự hữu ích của công nghệ này đối với việc ngăn ngừa sự lây lan của dịch bệnh. Bằng cách tự kết hợp một mô hình máy học nhận diện gương mặt và một mô hình phân loại thông qua các nguồn dữ liệu trên mạng, chúng ta sẽ phân loại xem một người trong bức ảnh hoặc camera có đang đeo khẩu trang hay không. Việc phát hiện sớm một người nào đó không đeo khẩu trang góp phần không nhỏ trong việc đẩy lùi và ngăn chặn dịch bệnh lây lan trong cộng đồng, qua đó cải thiện cuộc sống xã hội hiện nay.
Assignment 2: Phân loại bình luận độc hại
Chủ đề: Chúng ta sẽ phát triển các mô hình xác định và gắn cờ các câu hỏi không thành thật bằng cách Deep Learning. Với sự giúp đỡ của bạn, họ có thể phát triển các phương pháp có thể mở rộng hơn để phát hiện nội dung độc hại và gây hiểu lầm.
Đồ án cuối khóa – Khoa học Dữ liệu
Chủ đề: Bài toán thực tế như sau: Đua ngựa là một môn thể thao lâu đời, vời hình thức thi đua khác nhau ở các quốc gia. Một cuộc đua cần xác định 2 hay nhiều chú ngựa là nhanh nhất trên một đường đua nhất định. Một quốc gia nhất định có dữ liệu từ 21.000 cuộc đua trên web.
Mục tiêu: Học viên được yêu cầu tìm kiếm thông tin từ những dữ liệu này và xây dựng một mô hình dự đoán ba chú ngựa nhanh nhất ứng dụng kỹ thuật phân tích dữ liệu và machine learning.
Học viên tự phát triển tiếp ý tưởng dựa trên dữ liệu đang có.
Khóa học được xây dựng và thẩm định bởi các chuyên gia hàng đầu về giảng dạy và làm việc trong lĩnh vực Data Science tại Việt Nam, bao gồm: