Новий відкритий штучний інтелект під назвою OpenVoice пропонує клонування голосу з безпрецедентною швидкістю та точністю.
OpenVoice, розроблений дослідниками Массачусетського технологічного інституту, Університету Цінхуа та канадського стартапу MyShell, використовує лише секунди аудіо для клонування голосу та дозволяє детально контролювати тон, емоції, акцент, ритм тощо.
MyShell оприлюднив OpenVoice у дописі цього тижня, посилаючись на попередньо перевірену дослідницьку статтю , що пояснює технологію, а також демонстраційні сайти на MyShell і HuggingFace, де користувачі можуть спробувати її.
Сьогодні ми з гордістю відкриваємо вихідний код нашого алгоритму OpenVoice, який підтримує наш основний дух – ШІ для всіх.
Відчуйте це зараз: https://t.co/zHJpeVpX3t . Клонуйте голоси з неперевершеною точністю, з детальним контролем тону, від емоцій до акценту, ритму, пауз та інтонації, використовуючи лише… pic.twitter.com/RwmYajpxOt— MyShell (@myshell_ai)2 січня 2024 р
Моделі з подвійним штучним інтелектом дозволяють миттєво клонувати голос
OpenVoice складається з двох моделей штучного інтелекту, які працюють разом для перетворення тексту в мову та клонування тону голосу.
Перша модель керує стилем мови, акцентами, емоціями та іншими моделями мовлення. Він був навчений на 30 000 аудіо зразків з різними емоціями від носіїв англійської, китайської та японської мов. Друга модель «перетворювача тонів» вивчала понад 300 000 семплів, що охоплювали 20 000 голосів.
Поєднуючи універсальну модель мовлення з наданим користувачем зразком голосу, OpenVoice може клонувати голоси з дуже невеликою кількістю даних. Це допомагає йому генерувати клоновану мову значно швидше, ніж альтернативи, такі як Voicebox від Meta.
Канадський стартап
OpenVoice походить від стартапу MyShell із Калгарі, заснованого у 2023 році. Маючи 5,6 мільйона доларів раннього фінансування та вже понад 400 000 користувачів, MyShell представляє себе як децентралізовану платформу для створення та відкриття програм ШІ.
На додаток до новаторського миттєвого клонування голосу, MyShell пропонує оригінальні текстові персонажі чат-ботів, генератори мемів, текстові RPG, створені користувачами, тощо. Деякий вміст заблоковано за платою за підписку. Компанія також стягує плату з творців ботів за просування своїх ботів на своїй платформі.
Завдяки відкритому коду можливостей клонування голосу через HuggingFace і монетизації своєї ширшої екосистеми додатків MyShell має намір збільшити кількість користувачів обох, одночасно просуваючи відкриту модель розробки ШІ.