🎤 ZipVoice – Zero-shot Vietnamese TTS

Upload một mẫu giọng + nhập nội dung → hệ thống sẽ bắt chước giọng nói và đọc đoạn text của bạn.

1️⃣ Tải giọng mẫu & nhập text

🔊 Sample Voice (upload hoặc kéo thả)

📝 Reference Text (optional)

📝 Text to Generate

⚡ Step (càng lớn, càng tốt, càng lâu)

8 64

2️⃣ Kết quả tổng hợp

🎧 Generated Audio

Bạn có thể tải file .wav về sau khi tạo.
Nếu nghe chưa ổn, hãy thử:
- Dùng **ref audio ngắn 3-8s, phát âm chuẩn hơn.

🎧 Demo có sẵn

Click vào một sample bên dưới để tự động nạp:

🔊 Giọng mẫu (ref voice)
📝 Reference text
📝 Text to generate
🎧 Output audio mẫu

Sample 1 – Kể chuyện

🔊 Reference Voice

0:00

📝 Reference Text

🎧 Generated Sample (TTS)

0:00

Text dùng để synth: Đêm nay trời nhiều mây, ánh trăng bị che khuất, chỉ còn lại một dải sáng yếu ớt rơi xuống con đường đất trải dài giữa cánh đồng. Cậu bé tên Tín đang dắt chiếc xe đạp cũ đi về nhà, bánh xe bị cán đinh nên lăn nặng và chậm như con trâu mệt nhọc sau vụ mùa. Gió thổi lạnh buốt, mùi bùn đất ngai ngái quấn lấy chân cậu. Tới đoạn rẽ dẫn vào xóm, Tín nghe tiếng nước chảy khe khẽ từ con mương bên đường. Tiếng ấy vẫn quen thuộc, nhưng tối nay lại vang khác lạ, như có giọng người đang hòa vào nhịp nước, lúc trầm lúc cao, nghe mơ hồ mà lạnh sống lưng. Cậu dừng lại, nghiêng tai lắng nghe, tim đập nhanh như muốn vượt khỏi lồng ngực.

Sample 2 – Nữ

🔊 Reference Voice

0:00

📝 Reference Text

🎧 Generated Sample (TTS)

0:00

Text dùng để synth: Từ các kết quả này, chúng tôi đề xuất rằng sự kết hợp nhuần nhuyễn giữa adaptive optimization, robust training pipelines và interpretable model design sẽ là chìa khóa để phát triển các hệ thống ây ai vừa mạnh mẽ vừa đáng tin cậy trong môi trường thực tế.

Sample 3 – English

🔊 Reference Voice

0:00

📝 Reference Text

🎧 Generated Sample (TTS)

0:00

Text dùng để synth: Recent experiments indicate that the current model architecture still exhibits significant overfitting, especially when evaluated on out of distribution samples. Although the training accuracy remains consistently high, the performance drops sharply when the model is exposed to noise perturbed inputs, suggesting limited robustness.

⚠️ Model Limitations

Có thể xử lý chưa tốt với số, ngày tháng, ký tự đặc biệt.
Nhịp điệu đôi khi chưa tự nhiên.
Chất lượng phụ thuộc khá nhiều vào chất lượng ref audio.