XUÂN TUYẾN Network


Góc lập trình

Chuyển văn bản thành giọng nói bằng ngôn ngữ lập trình Python với thư viện GoogleTTS

Công nghệ chuyển văn bản thành giọng nói (Text-to-Speech) là gì?

Text-to-Speech (TTS) là công nghệ hiểu văn bản và ngôn ngữ tự nhiên dựa trên nền tảng trí tuệ nhân tạo để tạo ra âm thanh tổng hợp hoàn chỉnh với nhịp điệu và ngữ điệu phù hợp.

Với công nghệ TTS, giao tiếp người và máy trở nên dễ dàng và tự nhiên hơn bao giờ hết. TTS có thể được ứng dụng trong các hệ thống tổng đài thông minh trả lời tự động, các hệ thống thông báo công cộng, trợ lý ảo (virtual assistant), báo nói, sách nói, thuyết minh phim,…

Lập trình chuyển văn bản thành giọng nói

Thư viện Google TTS là một công cụ rất thuận tiện khi cần chuyển văn bản thành giọng nói. Hôm nay, chúng ta sẽ tìm hiểu về thư viện này với ngôn ngữ lập trình Python.

Trước hết chúng ta cần cài đặt phần mềm soạn thảo Python (Python IDLE), và sau đó ta cài thư viện gTTS. Để cài đặt gTTS và sử dụng nó, chúng ta gõ lệnh dưới đây:

pip install gTTS

Sau khi hoàn tất việc này, ta cần cài đặt thư viện playsound để phát trực tiếp tập tin mp3/wav. Ta sử dụng câu lệnh sau để cài đặt thư viện này:

pip install playsound

Bây giờ mọi thứ đã sẵn sàng, bạn hãy nhập đoạn chương trình dưới đây vào trình soạn thảo Python IDLE:

from gtts import gTTS
from playsound import playsound
text = “This is in english language”
var = gTTS(text = text,lang = ‘en’)
var.save(“eng.mp3”)
playsound(“eng.mp3”)

Chúng ta có thể nhập trực tiếp chuỗi (văn bản) trong hàm gTTS! Có một vài tham số bổ sung mà chúng ta cần biết trong câu lệnh gTTS. Đó là:

slow (bool, optional)

Đọc văn bản với tốc độ chậm. Giá trị mặc định của tham số này là False.

lang_check (bool, optional)

Kiểm tra lỗi về ngôn ngữ. Nếu được đặt là True, một biến ValueError được trả về nếu ngôn ngữ được khai báo tại biến lang không tồn tại. Việc đặt giá trị cho lang_check là False sẽ bỏ qua quá trình xác thực và do đó sẽ làm gia tăng tốc độ xử lý của chương trình. Giá trị mặc định của tham số này là True.

lang (string, optional)

Ngôn ngữ dùng để đọc văn bản. Giá trị mặc định của tham số này là “en” (tiếng Anh), còn tiếng Việt là “vi”.

Thế là chúng ta đã hoàn tất chương trình chuyển văn bản thành giọng nói. Các bạn hãy bắt tay vào làm nhé!