🔸 Набор данных "Субтитры YouTube" был создан компанией EleutherAI в 2020 году и включал субтитры из 173 536 видеороликов YouTube.
🔸 Набор данных противоречит правилам и условиям YouTube, запрещающим доступ к видео "автоматизированными средствами".
🔸 Транскрипции видео охватывают широкий круг создателей и каналов YouTube, включая мегазвезд и каналы с сотнями миллионов подписчиков.
🔸 Некоторые материалы, используемые для обучения ИИ, пропагандировали заговоры, такие как "теория плоской Земли".
🔸 Набор данных субтитров YouTube входит в группу "The Pile", включающую несколько других обучающих наборов данных.
🔸 Представители EleutherAI не ответили на запрос издания прокомментировать удаление видео без разрешения.
🔸 Создатели, чьи видео использовались для обучения ИИ, не были уведомлены об этом и не получили компенсации.

Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев