6#

Как ИИ-модели крадут творчество — и что с этим делать. Ed Newton-Rex - видеоролик

Изучение английского языка с помощью параллельных субтитров ролика "Как ИИ-модели крадут творчество — и что с этим делать". Метод интервальных повторений для пополнения словарного запаса английских слов. Встроенный словарь. Всего 828 книг и 2820 познавательных видеороликов в бесплатном доступе.

Генеративный ИИ строится на трёх ключевых ресурсах: люди, вычислительные мощности и данные. Хотя компании вкладывают значительные средства в первые два, они часто используют нелицензированную творческую работу в качестве обучающих данных без разрешения или оплаты — практика, которая противопоставляет ИИ и тех самых творцов, на которых он полагается. У эксперта по ИИ Эда Ньютона-Рекса есть решение: лицензирование. Он раскрывает тёмную сторону современных ИИ-моделей и делится планом, который позволит ИИ-компаниям и творцам процветать вместе.

страница 1 из 3  ←предыдущая следующая→ ...

00:00:00
The technology and vision behind generative AI is amazing,
Технологии и видение в основе генеративного ИИ удивительны,
but stealing the work of the world's creators to build it is not.
но воровство работ у творцов по всему миру для его создания — не очень.
There are three key things that AI companies need to build their models,
Компаниям, занимающимся ИИ, для создания моделей, нужны три ключевых ресурса:
three key resources -- people, compute and data.
люди, вычислительные мощности и данные.
That is, engineers to build the models,
То есть инженеры — для создания моделей,
00:00:23
GPUs to run the training process
графические процессоры — для запуска обучения
and data to train the models on.
и данные — для обучения моделей.
AI companies spend vast sums on the first two,
Компании, создающие ИИ, тратят огромные деньги на первые два,
sometimes a million dollars per engineer
иногда по миллиону долларов на инженера
and up to a billion dollars per model.
и до миллиарда долларов на модель.
00:00:40
But they expect to take the third resource, training data, for free.
Но третий ресурс — данные для обучении — они хотят получать бесплатно.
Right now, many AI companies train on creative work they haven't paid for
Сейчас многие компании обучают ИИ на творчестве, за которое не платят
or even asked permission to use.
и не получают разрешение использовать.
This is unfair and unsustainable.
Это несправедливо и бесперспективно.
But if we reset, and license our training data,
Но если мы перезагрузимся и лицензируем данные для обучения,
00:01:00
we can build a better generative AI ecosystem that works for everyone,
мы создадим лучшую экосистему для генеративного ИИ, которая устроит всех,
both the AI companies themselves and the creators,
и компании, создающие ИИ, и творцов,
without whose work these models would not exist.
без чьих работы этих моделей бы не было.
Most AI companies today do not license the majority of their training data.
Большинство ИИ-компаний не лицензируют сегодня большую часть данных для обучения.
They use web scrapers to find, download
Они используют веб-парсеры для поиска, загрузки
00:01:18
and train on as much content as they can gather.
и изучения как можно большего количества контента.
They're often pretty secretive about what they do train on,
Они часто скрывают, на чём обучаются,
but what's clear is that training on copyrighted work without a license
но очевидно, что обучение на работах, защищённых авторским правом без лицензии
is rife.
широко распространено.
For instance, when the Mozilla Foundation
Например, когда НКО Mozilla Foundation
00:01:31
looked at 47 large language models released between 2019 and 2023,
изучила 47 крупных языковых моделей, выпущенных с 2019 по 2023 год,
they found that 64 percent of them were trained, in part, on Common Crawl,
она обнаружила, что 64% из них обучались, в частности, на Common Crawl,
a dataset that includes copyrighted works,
наборе данных, включающего работы, защищённые авторским правом,
such as newspaper articles from major publications.
такие как газетные статьи крупных изданий.
And a further 21 percent didn’t reveal enough information to know either way.
Ещё 21% не предоставили достаточно информации для выводов.
00:01:54
Training on copyrighted work without a license
Обучение на работах, защищённых авторским правом,
has rapidly become standard across much of the generative AI industry.
без лицензии быстро стало стандартом во многих отраслях генеративного ИИ.
But this training,
Но это обучение,
this unlicensed training on creative work,
нелицензированное обучение на творческих работах,
has serious negative consequences for the people behind that work.
чревато серьёзными негативными последствиями для создателей этих работ
00:02:09
And this is for the simple reason
по той простой причине,
that generative AI competes with its training data.
что генеративный ИИ конкурирует со своими обучающими данными.
This is not the narrative that AI companies like to portray.
Это не та история, которую любят компании, создающие ИИ.
We like to talk about democratization, about letting more people be creative.
Мы любим говорить о демократизации, чтобы больше людей были креативными.
But the fact that AI competes with its training data is inescapable.
Но тот факт, что ИИ конкурирует со своими же обучающими данными, неизбежен.

Для просмотра параллельного текста полностью залогиньтесь или зарегистрируйтесь

скачать в HTML/PDF
share

←предыдущая следующая→ ...

основано на 1 оценках: 5 из 5 1