Вийшла GPT-4o від OpenAI: На що вона здатна і як працює?

Минулого тижня ходили чутки, що GPT-4o запустять як пошукову систему, щоб кинути виклик Gemini AI від Google, але Reuters повідомили, що OpenAI відмовилась від цієї ідеї.

Буква «o» в назві означає «omni», і каліфорнійська компанія рекламує GPT-4o як щось для всіх, що має сенс, оскільки «omni» означає «все» – OpenAI хоче бути всюдисущим в нашому житті?

Зміст

Що таке GPT-4o?

GPT-4o — це оновлена версія базової технології великої мовної моделі, яка підтримує ChatGPT. GPT-4o, як говорить OpenAI, є їх «новою флагманською моделлю, яка може обговорювати аудіо, зображення та текст у режимі реального часу».

Коротша відповідь: це найшвидша модель штучного інтелекту OpenAI.

Назва «omni» означає «крок до більш природної взаємодії людини з комп’ютером», — йдеться в повідомленні OpenAI у блозі в понеділок.

Він також є мультимодальним, тобто може приймати будь-яку комбінацію тексту, аудіо та зображення як вхідні дані, а також генерувати будь-яку комбінацію виходів тексту, аудіо та зображень.

it is available to all ChatGPT users, including on the free plan! so far, GPT-4 class models have only been available to people who pay a monthly subscription. this is important to our mission; we want to put great AI tools in the hands of everyone.
— Sam Altman (@sama) May 13, 2024

Наскільки швидкий GPT-4o?

OpenAI стверджує, що GPT-4o може реагувати на аудіовхід всього за 232 мілісекунди, в середньому за 320 мілісекунд, що, згідно з кількома дослідженнями, схоже на час реакції людини під час розмови.

Отже, GPT-4o вимагає використання меншої кількості токенів у мовах, базовій одиниці ШІ, яка обчислює довжину тексту та може містити знаки пунктуації та пробіли. Кількість токенів відрізняється від однієї мови до іншої.

Серед мов, виділених OpenAI, які використовують менше токенів із GPT-4o, є арабська (від 53 до 26), гуджараті (145 до 33), гінді (90 до 31), корейська (від 45 до 27) і китайська (від 34 до 24).

Для перспективи ми можемо зробити деякі порівняння з дослідженням Роберта Міллера 1968 року « Час відгуку в розмовних транзакціях між людиною та комп’ютером», яке детально описує три величини чуйності комп’ютерного мейнфрейму.

Дослідження показало, що час відгуку в 100 мілісекунд сприймається як миттєвий, тоді як однієї секунди або менше достатньо, щоб користувачі відчули, що вони вільно взаємодіють з інформацією. Час відповіді більше 10 секунд повністю втрачає увагу користувача.

Як працює GPT-4o?

Найпростіша відповідь полягає в тому, що OpenAI спростили процес перетворення вхідних даних у вихідні.

У попередніх моделях штучного інтелекту OpenAI голосовий режим використовувався для спілкування з ChatGPT із затримкою в середньому 2,8 секунди (GPT-3,5) і 5,4 секунди (GPT-4). Голосовий режим використовує три окремі моделі: одна проста модель транскрибує аудіо в текст, GPT-3.5 або GPT-4 приймає та виводить текст, а третя проста версія перетворює цей текст назад в аудіо.

«Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації – він не може безпосередньо спостерігати тон, кілька динаміків або фонові шуми, і він не може виводити сміх, спів або виражати емоції»
сказали OpenAI.

Але за допомогою GPT-4o OpenAI зміг об’єднати всі ці функції в єдину модель із наскрізними можливостями для тексту, зображення та аудіо, що значно скоротило кількість споживаного часу та обробленої інформації.

«Усі вхідні та вихідні дані обробляються тією ж нейронною мережею»,
сказали OpenAI.

Нейронна мережа — це метод штучного інтелекту, який навчає комп’ютери обробляти дані так само, як людський мозок.

Тим не менш, OpenAI сказали, що «все ще лише дряпає поверхню» можливостей і обмежень GPT-4o, враховуючи, що це їхня перша модель, яка поєднує всі ці модальності.

Що не може робити GPT-4o ?

Говорячи про обмеження, OpenAI визнали «декілька» таких у моделі GPT-4o, включно з невідповідностями у відповідях, представлених у ролику ляпів. Це навіть продемонструвало, як GPT-4o може бути вправним у сарказмі.

Як втілює сарказм GPT-4o

Крім того, OpenAI заявили, що продовжують вдосконалювати поведінку моделі шляхом постнавчання, що має вирішальне значення для вирішення проблем безпеки, ключового питання спотикання в сучасному ШІ.

Компанія заявила, що створила нові системи безпеки, які слугуватимуть огорожею для голосових виводів, на додаток до тестування моделі з більш ніж 70 експертами в галузі соціальної психології, упередженості, справедливості та дезінформації для виявлення будь-яких ризиків, які можуть просочитися.

«Ми продовжуватимемо пом’якшувати нові ризики, коли вони будуть виявлені. Ми розуміємо, що аудіомодальності GPT-4o представляють цілий ряд нових ризиків»,
заявили в OpenAI.

Скільки коштує GPT-4o?

Хороші новини – вона безкоштовна для всіх користувачів, а платні користувачі користуються «у п’ять разів більшими обмеженнями ємності» своїх безкоштовних аналогів, сказала головний технічний директор OpenAI Міра Мураті під час презентації відкриття.

Однак, якщо ви не є платним користувачем OpenAI, це поверне вам 5 і 15 доларів США за один мільйон токенів введення та виведення відповідно.

Дозвіл на безкоштовне використання GPT-4o має добре служити OpenAI, що також доповнить інші платні пропозиції компанії.

У серпні OpenAI запустили свій місячний план ChatGPT Enterprise, ціна якого змінюється залежно від вимог користувачів. Це третій рівень після базової безкоштовної послуги та плану Plus за 20 доларів на місяць.

У січні компанія запустила свій онлайн-магазин ChatGPT, який надає користувачам доступ до понад трьох мільйонів власних версій GPT, розроблених партнерами OpenAI та його спільнотою.

OpenAI сподівається залучити більше користувачів із загостренням конкуренції у світі генеративного штучного інтелекту – і їх чекає багато.

Як на даний момент OpenAI протиставляється своїм найбільшим конкурентам?

Рух OpenAI щодо представлення нової, безкоштовної та швидшої великої мовної моделі свідчить про те, наскільки він готовий протистояти конкурентам у сфері генеративного ШІ. Google, мабуть, його найбільший конкурент, має Gemini AI, яка була першою моделлю штучного інтелекту, яка перемогла експертів-людей у масовому розумінні багатозадачної мови, що є одним із широко використовуваних методів перевірки знань і здатності ШІ вирішувати проблеми.

Доступ до Gemini можна отримати за тарифним планом Google One AI Premium за 19,99 доларів на місяць, який включає 2 ТБ пам’яті, 10 відсотків від покупок, зроблених у Google Store, і більше функцій у Gmail, Google Docs, Google Slides і Google Meet.

У лютому компанія запустила Gemma, спрямовану на допомогу розробникам і дослідникам у «відповідальному створенні штучного інтелекту» та призначену більше для скромних завдань, таких як базові чат-боти або узагальнення.

Тим часом Anthropic у березні запустила Claude 3 – це прямий виклик лідеру генеративного штучного інтелекту OpenAI.

Компанія, яку підтримують сама Google і Amazon, має три рівні – Haiku, Sonnet і Opus – кожен із яких пропонує додаткові можливості, які відповідатимуть потребам користувачів.

Haiku коштує $0,25 за мільйон токенів (MTok) для введення та $1,25 для виведення, тоді як Sonnet коштує $3 і $15. Opus є найдорожчим за $15 і $75.

Для порівняння, GPT-4 Turbo від OpenAI коштує 10 доларів США за введення та 30 доларів США за вихід, а також із меншим контекстним вікном у 128 000 МТок.

Microsoft, найбільший спонсор OpenAI, стягує 20 доларів на місяць за свою послугу Copilot pro, яка гарантує швидшу роботу та «все», що пропонує послуга. Якщо ви не бажаєте платити, є безкоштовний рівень Copilot, який, очевидно, має обмежені функції.

Регіональні організації також націлюються на лідерів: у понеділок Інститут технологічних інновацій Абу-Дабі представив другу ітерацію своєї великої мовної моделі Falcon 2, щоб конкурувати з моделями, розробленими Meta, Google і OpenAI.

Також у понеділок Core42, підрозділ штучного інтелекту та хмарної компанії Абу-Дабі G42, запустив двомовного арабсько-англійського чат-бота Jais Chat, розробленого в ОАЕ. Його можна завантажити та безкоштовно використовувати на iPhone від Apple.

Що нового?

Антифрод у бонусних моделях: як AI виявляє зловживання та мультиакаунти

Flow AI: автоматизація процесів, створення інтелектуальних агентів для оптимізації рутинних завдань

Microsoft Designer: створення графіки з ШІ, інтеграція генеративних моделей Dall-E у повсякденні робочі процеси

Вийшла GPT-4o від OpenAI: На що вона здатна і як працює?

OpenAI закриває Sora: що сталося та деталі угоди з Disney 🎬

Антивірусні програми та кібербезпека в епоху ШІ

Incrypted і itk.digital уклали партнерство

Проблеми інформаційної безпеки у світі ШІ у 2025 році

Google Veo 2 – нова нейромережа для реалістичного відео

Власник китайського ресторану прикидається роботом, фальшиво представленим офіціанткою AI-Robot

Як використовувати Freepik для створення фото

Аналіз зовнішніх посилань: фундамент успішної стратегії просування сайту 🚀

Нова AI-модель створює реалістичні голоси понад 20 мовами – Murf AI

Який найкращий генератор картинок в 2024 році?

Claude AI для роботи та навчання: можливості та кейси 🤖

Підпишіться на оновлення

Що нового?

Вийшла GPT-4o від OpenAI: На що вона здатна і як працює?

Що таке GPT-4o?

Наскільки швидкий GPT-4o?

Як працює GPT-4o?

Що не може робити GPT-4o ?

Скільки коштує GPT-4o?

Як на даний момент OpenAI протиставляється своїм найбільшим конкурентам?

Пов'язані публікації