Chủ YếU Đổi Mới AI mới chuyển văn bản thành giọng nói của Google quá tốt. Chúng tôi cá rằng bạn không thể nói điều đó từ một con người thực sự

AI mới chuyển văn bản thành giọng nói của Google quá tốt. Chúng tôi cá rằng bạn không thể nói điều đó từ một con người thực sự

Tử Vi CủA BạN Cho Ngày Mai

Bạn có thể cho biết sự khác biệt giữa giọng nói máy tính do AI tạo ra và một con người thực, sống không? Có lẽ bạn đã luôn nghĩ rằng bạn có thể. Có thể bạn thích Alexa và Siri nhưng tin rằng bạn sẽ không bao giờ nhầm lẫn một trong hai người với một phụ nữ thực sự.

Mọi thứ sắp trở nên thú vị hơn rất nhiều. Các kỹ sư của Google đã làm việc chăm chỉ để tạo ra một hệ thống chuyển văn bản thành giọng nói có tên là Tacotron 2 . Theo một giấy họ đã xuất bản trong tháng này, hệ thống lần đầu tiên tạo ra một biểu đồ quang phổ của văn bản, một bản trình bày trực quan về cách phát âm của bài phát biểu. Hình ảnh đó được đưa vào thuật toán WaveNet hiện có của Google, thuật toán này sử dụng hình ảnh để tạo ra âm thanh giọng nói của con người cực kỳ tự nhiên.

Sử dụng phương pháp này, các nhà nghiên cứu báo cáo, 'Mô hình của chúng tôi đạt được điểm ý kiến ​​trung bình (MOS) là 4,53 so với MOS là 4,58 cho bài phát biểu được ghi âm chuyên nghiệp.' (Điểm ý kiến ​​trung bình là một thuật ngữ viễn thông để đo lường mức độ chân thực của một thứ gì đó ngoài đời thực.)

Như các mẫu âm thanh của Google chứng minh, Tacotron 2 có thể phát hiện sự khác biệt từ ngữ cảnh giữa danh từ 'sa mạc' và động từ 'sa mạc', cũng như danh từ 'hiện tại' và động từ 'hiện tại' và thay đổi cách phát âm của nó cho phù hợp. Nó có thể nhấn mạnh vào các từ viết hoa và áp dụng cách viết thích hợp khi đặt câu hỏi hơn là đưa ra một tuyên bố.

Và nó có thể tạo ra văn bản nghe giống với giọng nói của con người đến mức khó hoặc không thể biết được sự khác biệt. Nếu bạn muốn xem nó khó đến mức nào, hãy truy cập vào trang mẫu âm thanh và cuộn xuống bộ mẫu cuối cùng, có tiêu đề 'Tacotron 2 hay Con người?' Ở đó, bạn sẽ tìm thấy Tacotron 2 và một người thật nói những câu chẳng hạn như 'Cô gái đó đã làm một video về son môi của Chiến tranh giữa các vì sao.'

CẢNH BÁO SPOILER: Để tự kiểm tra, hãy nghe các mẫu và đoán xem mẫu nào trước khi đọc phần còn lại của cột này.

Vậy mẫu nào là chuyển văn bản thành giọng nói và mẫu nào là giọng người thật? Các kỹ sư của Google không nói nhưng họ đã để lại một manh mối rất lớn. Mỗi mẫu tệp .wav có tên tệp chứa thuật ngữ 'gen' hoặc 'gt.' Dựa trên bài báo, rất có thể 'gen' chỉ ra giọng nói do Tacotron 2 tạo ra và 'gt' là giọng nói của con người thực. ('GT' có thể là viết tắt của 'sự thật cơ bản', một thuật ngữ máy học về cơ bản có nghĩa là 'thỏa thuận thực sự.')

Giả sử điều này là chính xác, đây là câu trả lời cho bài kiểm tra:

'Cô gái đó đã làm một video về son môi trong Chiến tranh giữa các vì sao.'

Mẫu 1: Người thật

Mẫu 2: Tacotron 2

'Cô ấy lấy bằng tiến sĩ xã hội học tại Đại học Columbia.'

Mẫu 1: Tacotron 2

Mẫu 2: Người thật

'George Washington là Tổng thống đầu tiên của Hoa Kỳ.'

Mẫu 1: Tacotron 2

Mẫu 2: Người thật

'Tôi quá bận rộn cho chuyện tình cảm.'

Mẫu 1: Người thật

Mẫu 2: Tacotron 2

Bạn đã làm đúng bao nhiêu? Và bạn thực sự có thể nhận ra sự khác biệt, hay bạn chỉ cần phải đoán?