bức tranh tổng quan từ năm 2011 đã cho ra mắt apple siri, (tôi ko biết thời đấy như nào, nhưng cũng nói chút lịch sử về dạng voice như này, nó cũng rất thú vị (hiện tại tôi bắt chuyện siri bằng câu “hey siri”, nhưng ko biết hồi đó họ dùng câu nào
tiếp thoe là năm 2014 với con hàng alexa (tôi ko hiểu rõ cái cortana lắm)
tiếp theo là 2015 với sự xuất hiện của con hàng sora (tôi cũng ko biết con này)
2016 có google assistance
năm 2017, có con tts voice cloning, không biết nó có gây được địa chấn chính trị gì ko, nhưng tôi thấy ảnh obama ở đó 2020 có con hàng realtime speech speech translation -> cũng ứng dụng rộng rãi ngày nay như …
[slide 5]
đến năm xx gì đó, tôi ko biết có sự kiện chính trị gì xảy ra ko, nhưng thấy tiêu đề này “A New Era of Spoken Language Applications and Impact “ kết hợp với việc “Pakistan’s former prime minister is using an AI voice cline to campaign from prison”, có vẻ như đề cập đến cuộc vận động hay trannh cử gì đó trong tù thì phải
tiếp theo đến là “The Biden deepfake robocall is only the beginning”, có vẻ như giả giọng joe biden để khuyến khích cái gì đó, tôi ko giỏi tiếng anh phần này lắm
sau đó đến slide 8, nó nói về discussion gì đó “Discussion: Clone anyone’s voice with 5 seconds of sample audio Would you approve releasing this tool publicly? “
[slide 9] A new generation of spoken digital assistants
(tôi ko hiểu nó nói gì lắm)
…
cái tôi quan tâm chính chính là các phần giới thiệu đằng sau, như ASR, WER, CER gì đó (cũng nên giải thích rõ 1 chút), và các english task ở slide 29
slide từ [slide 19] đến slide còn lại rất quan trọng, mặc dù là bài mở đầu introduction nhưng cũng nên tạo được sự hứng thú khi học về bộ môn này, cũng ko cần phân tích quá sâu về kiến trúc (bạn cứ nói qua qua xong bảo phân tích sâu thì để các bài tiếp theo ấy)
quan trọng là define được các tasks, và cho biết lịch sử nó hình thành như nào, có ứng dụng và làm như nào (như giảng viên nói ở phần đầu ấy, sẽ tạo được cái nhìn big picture cho tôi
Dinh Truong