UnpressAI

06 Jun 2025, 20:48

EleutherAI довела можливість тренувати ШІ на відкритих даних

Про це повідомляють Mezha, TechCrunch.

6 червня 2025 року EleutherAI оголосила про випуск великого набору даних The Common Pile v0.1 для тренування штучного інтелекту. Цей набір містить 8 терабайт ліцензованого та відкритого тексту, зібраного за участі стартапів Poolside, Hugging Face та низки академічних установ.

Для створення набору використовувалися дані з 300 000 книг бібліотеки Конгресу США та Internet Archive, а також транскрипції аудіо з допомогою моделі Whisper від OpenAI. Підготовка даних супроводжувалась вручну перевіркою та юридичними консультаціями щодо ліцензійності джерел.

На основі The Common Pile v0.1 дослідники натренували дві моделі, кожна з яких має 7 мільярдів параметрів. За словами EleutherAI, ці моделі показали результати, схожі з Meta Llama 2-7B на тестах з кодування, розуміння зображень і математики. Дослідники вважають, що якість моделей, натренованих на відкритих і легальних даних, може зростати з розширенням таких наборів.

Теги: Технології/ШІ

Статті на цю тему:

  • mezha.media - Artificial intelligence can be trained without violating copyrights — study
  • techcrunch.com - EleutherAI releases massive AI training dataset of licensed and open domain text