Alexandria: Yerel Olarak Çalışan Çok Sesli Sesli Kitap Üretici
Finrandojin adlı bir geliştirici, yerel olarak çalışan ve metin dosyalarından (TXT, MD, EPUB) sesli kitap üretebilen Alexandria adlı bir uygulama geliştirdi. Bu uygulama, Büyük Dil Modelleri (LLM) kullanarak metni karakterlere göre ayırıyor ve her satırı konuşma tonuyla birlikte etiketliyor. Ardından, Qwen3-TTS motoruyla yerel olarak profesyonel seslendirme sanatçıları gibi sesli kitap oluşturuyor. Alexandria, insan tarafından yapılan profesyonel kayıtlar kadar olmasa da oldukça temiz sonuçlar veriyor. LLM, LM Studio veya Ollama gibi yerel araçlarla ya da OpenAI gibi bulut tabanlı API'lerle entegre edilebiliyor. Uygulama, duygu ve ton kontrolü sunan 9 önceden eğitilmiş sesin yanı sıra, 5-15 saniyelik ses örneklerinden ses klonlama veya metin açıklamalarından yeni sesler üretme yeteneğine de sahip. Karakter seslerini otomatik olarak oluşturan 'persona' üretim özelliği de bulunuyor. Detaylı kullanıcılar için, her satırı ayrı ayrı yeniden üretebilen bir web düzenleyici, kalıcı sesler için LoRA eğitimi ve Audacity gibi araçlarda düzenlenebilecek MP3 veya bölümlenmiş M4B formatında dışa aktarma seçenekleri mevcut. Uygulama, Fransızca dahil birçok dilde çalışıyor ancak en az 8 GB VRAM'e sahip bir ekran kartı gerektiriyor.
Alexandria'nın geliştirilmesi, yapay zeka ve ses teknolojilerinin bireysel kullanıcılar için erişilebilirliğini artırma potansiyeli taşıyor. Özellikle, mevcut sesli kitap formatlarında bulunmayan veya erişimi zor olan içerikler için kişiselleştirilmiş çözümler sunması dikkat çekici. LLM'lerin metin analizi ve ses sentezi yeteneklerinin birleştirilmesi, sesli kitap üretim sürecini demokratikleştirme yolunda önemli bir adım. Ses klonlama ve sentetik ses üretimi gibi özellikler, etik ve telif hakları açısından dikkatli bir kullanım gerektirse de, yaratıcı projeler ve kişisel kullanım için yeni olanaklar sunuyor. Teknik gereksinimler (8GB VRAM) göz önüne alındığında, bu teknolojinin yaygınlaşması için donanım maliyetlerinin düşmesi gerekebilir. Ancak, gelecekte bu tür yerel ve kişiselleştirilmiş sesli içerik üretim araçlarının daha da yaygınlaşması bekleniyor.
📌 Kaynak
Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →