06 Jun 2025, 20:48
EleutherAI довела можливість тренувати ШІ на відкритих даних
- Підготовка даних вимагала ретельної ручної перевірки та анотації.
- Моделі, навчені на ліцензованому контенті, досягли конкурентних результатів у порівнянні з аналогами.
- Дослідження підтвердило можливість етичного навчання ШІ без порушення авторських прав.
Про це повідомляють Mezha, TechCrunch.
6 червня 2025 року EleutherAI оголосила про випуск великого набору даних The Common Pile v0.1 для тренування штучного інтелекту. Цей набір містить 8 терабайт ліцензованого та відкритого тексту, зібраного за участі стартапів Poolside, Hugging Face та низки академічних установ.
Для створення набору використовувалися дані з 300 000 книг бібліотеки Конгресу США та Internet Archive, а також транскрипції аудіо з допомогою моделі Whisper від OpenAI. Підготовка даних супроводжувалась вручну перевіркою та юридичними консультаціями щодо ліцензійності джерел.
На основі The Common Pile v0.1 дослідники натренували дві моделі, кожна з яких має 7 мільярдів параметрів. За словами EleutherAI, ці моделі показали результати, схожі з Meta Llama 2-7B на тестах з кодування, розуміння зображень і математики. Дослідники вважають, що якість моделей, натренованих на відкритих і легальних даних, може зростати з розширенням таких наборів.
Теги: Технології/ШІ