06 Jun 2025, 20:48

EleutherAI довела можливість тренувати ШІ на відкритих даних

Підготовка даних вимагала ретельної ручної перевірки та анотації.
Моделі, навчені на ліцензованому контенті, досягли конкурентних результатів у порівнянні з аналогами.
Дослідження підтвердило можливість етичного навчання ШІ без порушення авторських прав.

Про це повідомляють Mezha, TechCrunch.

6 червня 2025 року EleutherAI оголосила про випуск великого набору даних The Common Pile v0.1 для тренування штучного інтелекту. Цей набір містить 8 терабайт ліцензованого та відкритого тексту, зібраного за участі стартапів Poolside, Hugging Face та низки академічних установ.

Для створення набору використовувалися дані з 300 000 книг бібліотеки Конгресу США та Internet Archive, а також транскрипції аудіо з допомогою моделі Whisper від OpenAI. Підготовка даних супроводжувалась вручну перевіркою та юридичними консультаціями щодо ліцензійності джерел.

На основі The Common Pile v0.1 дослідники натренували дві моделі, кожна з яких має 7 мільярдів параметрів. За словами EleutherAI, ці моделі показали результати, схожі з Meta Llama 2-7B на тестах з кодування, розуміння зображень і математики. Дослідники вважають, що якість моделей, натренованих на відкритих і легальних даних, може зростати з розширенням таких наборів.

Теги: Технології/ШІ

EleutherAI довела можливість тренувати ШІ на відкритих даних

Статті на цю тему: