Добавить новость
World News





160*600

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Актуальные новости сегодня от ValueImpression.com


Опубликовать свою новость бесплатно - сейчас


ChatGPT : une technologie qui a déjà atteint ses limites ?

Les modèles de langage de grande taille, abrégés LLM en anglais, n’ont rien de magique. Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté. Il leur faut donc des données sur lesquelles les entraîner. Le coup de génie d’OpenAI a été d’oser entraîner ses modèles sur des volumes de textes très importants. Si le modèle GPT-1 avait accès à seulement 4,5 Go de texte de BookCorpus, GPT-3 a été formé sur 570 Go de texte provenant de Common Crawl, Web Text, Wikipedia anglais, GitHub, Reddit et certains romans gratuits d’auteurs non publiés. Ces ensembles de données contiennent jusqu’à 10 000 milliards de mots. Pour GPT-4, OpenAI a utilisé Stack Overflow, un forum de questions-réponses entre développeurs, pour améliorer les capacités à coder de son modèle.

Braquage en règle ?

Une récente étude sur les modèles T5 de Google et LLaMA de Meta montre qu’ils ont été entraînés sur l’ensemble de données C4 (Colossal Clean Crawled Corpus) de CommonCrawl, un contenu massif de 15 millions de sites Web aspiré depuis avril 2019. Les trois sites les plus importants sont patents.google.com qui contient les brevets du monde entier, wikipedia.org et scribd.com, une bibliothèque numérique accessible uniquement par abonnement. B-OK.org, un site notoire d’échange de livres piratés, qui a depuis été fermé, ainsi que 27 autres sites de contrefaçon étaient également présents dans l’ensemble de données.

Les artistes, les créateurs, les agences de presse et les journalistes ont reproché aux éditeurs de LLM d’avoir utilisé leurs contenus sans autorisation ni compensation. Une question éthique se pose. Le dernier modèle d’OpenAI est propriétaire et payant, mais les contenus qui ont servi à l’entraîner ne lui appartiennent pas. Ils sont la lente sédimentation de deux décennies d’échanges entre les internautes du monde entier. N’y aurait-il pas appropriation ? C’est ce qu’affirment Reddit, Stack Overflow ou encore News/Media Alliance, un groupe commercial américain d’éditeurs, qui veulent demander une rétribution aux entreprises qui exploitent leurs données.

Le risque de tourner en boucle

Mais la crainte encore plus grande est que la source du savoir se soit tarie. Jusqu’ici, les gens demandaient et obtenaient de l’aide en ligne, désormais ils le font derrière les portes fermées de ChatGPT. SimilarWeb affirme que le trafic sur Stack Overflow a déjà baissé de 14 % depuis janvier. On détruit aujourd’hui le futur terrain d’entraînement. D’autant que, depuis le 1er mars, OpenAI a mis à jour ses conditions d’utilisation pour répondre aux inquiétudes de ses utilisateurs : il n’utilisera plus les données client envoyées via ses API pour former ses modèles, se privant ainsi de données supplémentaires d’entraînement. Pis encore, au fur et à mesure que les textes produits par les LLM envahissent le Web, ils vont nourrir les modèles probabilistes derrière ces mêmes LLM et renforcer leurs résultats, les inscrivant dans une boucle infinie d’échanges autoréalisateurs, et validant au passage certaines erreurs ou hallucinations. Même dans l’hypothèse de moteurs concurrents, ceux-ci finiraient inévitablement par converger.

Sam Altman, le patron d’OpenAI, a lui-même affirmé que la course aux LLM toujours plus grands était déjà terminée, du fait de la pénurie de données linguistiques de qualité ainsi que du coût élevé de la puissance de calcul, enterrant l’idée d’un GPT-5. La course est plutôt à l’entraînement de modèles plus petits, capables de fonctionner sur un ordinateur sans devoir passer par le cloud, et avec des données personnelles afin de disposer d’un véritable assistant. De plus en plus d’acteurs pensent que de nouvelles approches, différentes de celle par LLM, seront nécessaires pour poursuivre le développement de l’intelligence artificielle.

L’idée que les modèles ont mangé leur pain blanc est d’ailleurs avancée par ceux qui estiment que les LLM ne pourront pas déborder en une intelligence artificielle générale. Geoffrey Hinton, l’un des pionniers de l’apprentissage profond, qui a quitté Google pour parler librement des dangers de l’intelligence artificielle, rétorque que les derniers LLM sont multimodaux, capables d’appréhender des images, des sons ou des vidéos au-delà du texte et vont avoir accès à la source infinie de contenus que nous chargeons sur les réseaux sociaux. Une nouvelle bataille en vue, car Facebook et Twitter interdisent la récupération de leurs données.

* Robin Rivaton est directeur général de Stonal et membre du conseil scientifique de la Fondation pour l’innovation politique (Fondapol).



Загрузка...

Читайте на сайте

Другие проекты от 123ru.net








































Другие популярные новости дня сегодня


123ru.net — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 123ru.net.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.



Новости 24/7 Все города России




Загрузка...


Топ 10 новостей последнего часа






Персональные новости

123ru.net — ежедневник главных новостей Вашего города и Вашего региона. 123ru.net - новости в деталях, свежий, незамыленный образ событий дня, аналитика минувших событий, прогнозы на будущее и непредвзятый взгляд на настоящее, как всегда, оперативно, честно, без купюр и цензуры каждый час, семь дней в неделю, 24 часа в сутки. Ещё больше местных городских новостей Вашего города — на порталах News-Life.pro и News24.pro. Полная лента региональных новостей на этот час — здесь. Самые свежие и популярные публикации событий в России и в мире сегодня - в ТОП-100 и на сайте Russia24.pro. С 2017 года проект 123ru.net стал мультиязычным и расширил свою аудиторию в мировом пространстве. Теперь нас читает не только русскоязычная аудитория и жители бывшего СССР, но и весь современный мир. 123ru.net - мир новостей без границ и цензуры в режиме реального времени. Каждую минуту - 123 самые горячие новости из городов и регионов. С нами Вы никогда не пропустите главное. А самым главным во все века остаётся "время" - наше и Ваше (у каждого - оно своё). Время - бесценно! Берегите и цените время. Здесь и сейчас — знакомства на 123ru.net. . Разместить свою новость локально в любом городе (и даже, на любом языке мира) можно ежесекундно (совершенно бесплатно) с мгновенной публикацией (без цензуры и модерации) самостоятельно - здесь.



Загрузка...

Загрузка...

Экология в России и мире




Путин в России и мире

Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.






Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...





Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net