Эксперт Макаров рассказал, сколько данных нужно для обучения простой нейросети
Данные для обучения ИИ измеряются не в гигабайтах, а в количестве сэмплов, рассказал "Газете.Ru" руководитель исследовательской группы "ИИ в промышленности" Института искусственного интеллекта AIRI Илья Макаров.
"Например, чтобы распознавать десять рукописных цифр, нужно очень мало данных. В целом 10 рукописных цифр можно распознать на 1000 изображений", – привел пример собеседник "Газеты.Ru".
По его словам, в большинстве случаев, чтобы нейросеть работала нормально, разработчику нужно иметь сбалансированную выборку данных, и чем они вариативнее, тем лучше.
"Например, мы хотим, чтобы нейросеть определяла по губам, что я говорю и как. Тогда нам нужно большое количество данных с условиями освещения. А если я буду в очках, что произойдет? Если нейросеть никогда меня в очках не видела, она эмоции, которые я передаю, не распознает — ей неоткуда взять эту информацию, соответственно, мы не можем гарантировать, что она будет правильно работать", – объяснил Макаров.
Подробнее о том, что такое сильный искусственный интеллект, как преодолевают технологическое отставание, а также о малом количестве русскоязычных обучающих датасетов и проблемах подготовки кадров — в материале "Газеты.Ru".