Новый доклад The New York Times проливает свет на возможную «агрессивную» тактику, к которой прибегают некоторые ведущие компании в области ИИ в условиях нехватки данных. Получить высококачественные данные этическим и юридическим путем оказывается непросто. Так, если верить изданию, OpenAI транскрибировала YouTube-видео для обучения своих ИИ-моделей.
В центре сюжета — OpenAI, чьи поиски данных, как сообщается, привели их к разработке Whisper, модели транскрипции аудио, специально предназначенной для расшифровки видеороликов на YouTube. По данным Times, OpenAI расшифровала более миллиона часов контента YouTube, чтобы обучить свою самую продвинутую языковую модель GPT-4.
Президент компании Грег Брокман (Greg Brockman) якобы лично участвовал в отборе видео, использованных для обучения. Представитель OpenAI Линдси Хелд пояснила, что OpenAI получает данные из различных источников, включая общедоступные ресурсы и партнерские отношения для получения непубличных данных.
И Google, и YouTube резко отреагировали на откровения OpenAI. Представитель Google Мэтт Брайант заявил, что они наблюдали «неподтвержденные сообщения» о деятельности OpenAI.
Однако Times также предполагает, что Google сама занималась сбором стенограмм с YouTube. Хотя Google признает, что использует некоторые материалы YouTube для обучения моделей, они подчеркивают, что соблюдают соглашения с создателями контента.
Интересно, что эксперты к 2028 году прогнозируют, что скорость, с которой ИИ-компаниям требуются данные, может превысить темпы создания самого контента.