Світ ШІ стрімко змінюється, і компанія Anthropic опинилася в центрі уваги після того, як почала скуповувати мільйони книжок, сканувати їх для навчання моделі Claude та знищувати оригінали. У цій статті я розкажу, чому саме книги стали основою для тренування ШІ, чи є така практика законною, як на неї реагують юристи та архівісти — і чи справді це допустима ціна за технологічний прогрес.
Сканування або знищення як нова стратегія у ніші ШІ

У гонитві за високоякісними текстовими даними для навчання ШІ, компанії більше не покладаються лише на відкриті джерела. Дедалі частіше на перший план виходить ідея контролю над навчальною базою — як за якістю, так і за походженням. Саме тому Anthropic, замість традиційного збору інтернет контенту, обрала радикальний і водночас прагматичний підхід: придбання паперових книжок, їх сканування та фізичне знищення. Така стратегія дозволяє сформувати унікальну, правомірну і високоякісну основу для тренування мовної моделі Claude.
Це не поодинокий випадок у галузі штучного інтелекту, але масштаби дій Anthropic стали безпрецедентними. Компанія купує книжки великими партіями, безпосередньо співпрацюючи з дистриб’юторами та оптовими продавцями вживаних видань. Усе це робиться з однією метою — отримати повний доступ до вмісту книжок без юридичних ризиків, притаманних цифровому піратству чи використанню сумнівних онлайн архівів.
Порівняння джерел текстів для тренування ШІ-моделей:
Джерело | Переваги | Недоліки |
---|---|---|
Соціальні мережі | Актуальні теми, живе мовлення, неформальні діалоги | Фрагментарність, жаргон, граматичні помилки |
Онлайн форуми | Тематика, питання-відповіді, народна мова | Низька якість мови, дублювання, тролі |
Книжки | Структура, багатство лексики, відсутність шуму | Складність оцифрування, повільний процес, вартість |
Що саме зробила Anthropic для навчання Claude
У розробці штучного інтелекту Claude компанія Anthropic застосувала масштабований, технологічно точний і юридично вивірений підхід до формування навчального корпусу. Відмова від готових цифрових архівів на користь оцифрування паперових книжок відкрила можливість створити якісну та контрольовану базу текстів. Ключем до успіху стала комбінація промислової логістики, спеціалізованого обладнання та системного зберігання даних всередині компанії.
Як проходив процес від закупівлі до сканування
Anthropic не обмежилася точковим збором книжок — компанія реалізувала повноцінну логістичну інфраструктуру. Закупівля вживаних примірників відбувалася через великі оптові платформи, бібліотечні розпродажі та книжкові склади. Йшлося про сотні тисяч книжок, які доставлялись партіями до скан-центрів.
У сканувальних пунктах кожен том проходив таку обробку:
- Зрізання палітурки та розділення сторінок
- Оцифрування з використанням OCR (оптичного розпізнавання тексту)
- Перевірка якості збереження структури та вмісту
- Упорядкування за назвами, авторами, тематикою
- Знищення паперових копій після завершення процесу
Як Anthropic формує власну цифрову бібліотеку
Отримані цифрові файли не розповсюджуються публічно та зберігаються в межах закритої внутрішньої інфраструктури Anthropic. Це дозволяє компанії не лише уникати юридичних претензій, а й забезпечити повний контроль над тренувальним корпусом, уникаючи повторів, шуму або непотрібного контенту.
Основні характеристики внутрішньої бібліотеки Claude:
- Обсяг: понад 3 мільйони книжок, повністю оцифрованих вручну
- Тематика: література, наукові тексти, технічні інструкції, енциклопедії
- Формати зберігання: PDF, plain text (.txt), з метаданими (назва, рік, автор, жанр)
- Доступ: виключно для внутрішнього користування командами машинного навчання
Навіщо Claude потрібні книжки для тренування

Мовна модель Claude створена для опрацювання складних текстів, формування логічних відповідей, роботи з контекстами великого обсягу та відтворення природного мовлення. Для досягнення цього необхідно навчати її на джерелах, які забезпечують глибину, граматичну точність і тематичну різноманітність. Саме тому паперові книжки стали одним із головних ресурсів у процесі тренування ШІ від Anthropic. Вони мають високу якість тексту, проходять редакторську перевірку, не містять шуму та є юридично контрольованими при правильному використанні.
На відміну від випадкового інтернет контенту, книжки дозволяють моделі Claude вивчати складні мовні конструкції, риторику, логіку викладу та стилістичні особливості. Це критично важливо для генеративних моделей, які прагнуть не лише “відповідати”, а й “думати” на рівні людини. І саме книжкова база, яку Anthropic формує через оцифрування мільйонів примірників, є найбільш релевантною для цього завдання.
Як інші ШІ-моделі використовують текстові дані
Більшість сучасних мовних моделей, включно з GPT-4, Gemini (від Google DeepMind) та LLaMA (від Meta), використовують навчальні бази даних, до складу яких частково входить книжковий контент. Водночас Anthropic зробила ставку на повноцінне, легальне та закрите використання сканованих текстів — це дає змогу зменшити залежність від відкритих джерел і мінімізувати ризики порушення авторських прав.
Юридичні аспекти оцифрування книжок
Оцифрування книжок для тренування моделей штучного інтелекту — не просто технічне питання, а й серйозне юридичне поле. Рішення компанії Anthropic масово сканувати легально придбані книжки та знищувати паперові примірники викликало хвилю обговорень серед правознавців. Попри критику, у США такий підхід був визнаний законним — за умови дотримання принципів «добросовісного використання» (fair use).
Відповідно до американського авторського права, копіювання матеріалів дозволено, якщо воно має трансформативну мету, не шкодить ринку оригіналу і здійснюється в межах розумного обсягу. Оскільки Anthropic:
- купувала книжки легально,
- не поширювала цифрові копії публічно,
- застосовувала їх винятково для внутрішнього дослідження,
— суд визнав такий спосіб використання трансформативним та правомірним. Це створило новий прецедент у сфері інтелектуальної власності для ШІ-індустрії.
Що вирішив суд США щодо добросовісного використання
Ключове рішення ухвалив суд штату Каліфорнія, зазначивши, що дії Anthropic не порушують авторських прав, оскільки не передбачають комерційного використання чи публічного поширення копій. Скановані матеріали використовуються виключно для тренування Claude, а не для повторного продажу або заміщення оригіналів на ринку.
Критично важливим стало також знищення паперових оригіналів після оцифрування. Це підтвердило, що цифрова версія не є «зайвою копією», а лише інструментом для аналітики — без намірів зберігати два паралельні носії одного змісту.
Хто відповідає за проєкт масового оцифрування в Anthropic
Масштабування оцифрування книжок і розробка правової стратегії для Claude не стали результатом випадкового рішення. За цим процесом стоїть досвідчена фігура у сфері цифрових бібліотек — Том Терві (Tom Turvey), який у лютому 2024 року приєднався до команди Anthropic. Його прихід став стратегічним кроком для компанії, яка прагнула діяти рішуче, але в межах закону.
Том Терві — не новачок у цій галузі. До Anthropic він понад десять років керував партнерськими програмами Google Books — одного з найамбітніших проєктів оцифрування книжкової спадщини в історії. Його досвід у роботі з видавцями, бібліотеками та правовласниками став безцінним активом для Anthropic.
Чим підхід Anthropic відрізняється від конкурентів
Більшість компаній, які створюють мовні моделі, користуються змішаними корпусами з даних інтернету, частина з яких має сумнівне походження. Наприклад, деякі відкриті моделі включають контент із піратських архівів, несанкціонованих копій літератури або обхідних копій через публічні форуми. Anthropic під керівництвом Терві пішла іншим шляхом — формування корпусу з легально придбаних, самостійно оцифрованих книжок із повним контролем на кожному етапі.
Компанія | Підхід до навчального корпусу | Юридичний статус |
---|---|---|
Anthropic | Закритий корпус із куплених і оцифрованих книжок | Законний, трансформативне використання |
OpenAI | Змішані джерела: інтернет, книги, документи | Частково спірний |
Meta | Відкриті датасети, включно з літературою | Юридичні ризики щодо ліцензування |
Альтернативні підходи та критика з боку суспільства
Попри технологічну ефективність і юридичну захищеність підходу Anthropic, у суспільстві не вщухають суперечки щодо його моральності. Масове знищення паперових книжок задля створення цифрових копій ставить під сумнів цінності збереження культурної спадщини. Критики вважають, що навіть за легального придбання друкованих видань, їх знищення після сканування є надмірним і варварським кроком. Особливо це турбує бібліотекарів, архівістів і захисників авторських прав.
У відповідь на такі практики інші організації, зокрема некомерційні, демонструють альтернативний підхід — з акцентом на збереження фізичних примірників та доступність інформації для всіх.
Що говорить наука про сканування книжок для штучного інтелекту
Одна з найглибших аналітичних праць на тему оцифрування книжок для навчання ШІ — це дослідження “Towards a Books Data Commons for AI Training”, опубліковане Creative Commons у квітні 2024 року. Воно детально аналізує технічні, юридичні та етичні наслідки використання книжкових джерел у створенні тренувальних корпусів для великих мовних моделей (LLM).
Автори дослідження підкреслюють: книжки — це не просто тексти, а унікальні зразки редагованого, зв’язного, логічно побудованого мовлення. Вони дозволяють мовним моделям вивчати:
- довгі аргументативні конструкції,
- контекстне узгодження змісту,
- стилістичне різноманіття,
- дискурсивну структуру, якої немає в більшості веб-контенту.
Книжки слугують як ідеальне середовище для токенізації — процесу, що готує дані до подачі в модель. Саме завдяки їм можливо навчати ШІ глибокому розумінню мови.
Один із ключових висновків — необхідність побудови відкритої, ліцензованої бази даних з книжковими текстами для навчання ШІ. Така ініціатива дозволила б:
- забезпечити прозорий доступ до даних для всіх дослідників,
- узгодити авторські права і практики навчання ШІ,
- уникнути практики знищення друкованої спадщини,
- розвивати демократичну екосистему мовного ШІ.
Таким чином, науковий підхід підтримує ідею використання книжок для штучного інтелекту, але за умов прозорості, етичності й рівного доступу. Історія Anthropic — лише один сценарій, і вона стимулює появу ширших, спільно ухвалених стандартів.
Рекомендація від автора: Раджу ознайомитися з дослідженням “Towards a Books Data Commons for AI Training”, опублікованим Creative Commons у 2024 році — це ґрунтовна аналітична праця, яка допоможе краще зрозуміти роль книжок у розвитку штучного інтелекту та ключові виклики, пов’язані з їх оцифруванням.
Про баланс між ефективністю і культурною відповідальністю
Приклад Anthropic ілюструє нову модель взаємодії між ШІ й культурною спадщиною: компанія будує Claude на основі повноцінних, редакційно вивірених книжкових текстів, що забезпечує глибоке мовне розуміння. Водночас така стратегія передбачає знищення мільйонів паперових примірників, викликаючи етичні питання про допустимість подібного підходу. Адже хоча штучний інтелект потребує якісного, структурованого контенту — саме спосіб його отримання і є найбільш спірним аспектом.
Переваги підходу Anthropic | Можливі ризики |
---|---|
Якісне навчання ШІ на професійних текстах | Знищення фізичних носіїв знань |
Юридична чистота та контрольований корпус | Закритість результатів для суспільства |
Висока ефективність і масштабованість | Критика з боку культурних інституцій |
У підсумку Anthropic проклала технологічно правильний, але суспільно складний маршрут. Ймовірно, майбутнє вимагатиме від таких компаній більш збалансованих рішень — з урахуванням не лише ефективності, а й культурної відповідальності. Саме цей баланс і стане критично важливим фактором у розвитку ШІ наступного покоління.