Машинное обучение уже позволяет компьютерам идентифицировать людей по лицам и читать медицинские снимки. Но задача интерпретации происходящего на видео в реальном времени порождала громоздкие алгоритмы — пока за дело не взялись исследователи из MIT и IBM.
Исследователи из лаборатории MIT и IBM Watson придумали, как сократить размер моделей распознавания видеоизображений. Во-первых, это повышает скорость обучения, во-вторых, такие «легкие» алгоритмы могут работать даже на мобильных устройствах.
Хитрость в том, чтобы изменить взгляд моделей распознавания видео на время. Современные нейросети кодируют хронометраж в последовательности изображений, что приводит к разрастанию их размеров и вычислительной сложности. Специалисты из MIT и IBM разработали «модуль временного сдвига», который дает модели ощущение движения времени без необходимости его эксплицитного представления.
Во время испытаний скорость обучения глубокой нейросети, распознающей видео, этот метод справился с задачей в три раза быстрее, чем существующие аналоги.
Модуль временного сдвига позволит запускать модели распознавания видео на мобильных устройствах. «Наша цель — сделать ИИ доступным для каждого владельца дешевого устройства, — сказал профессор MIT Хань Сун. — Для этого нам надо сконструировать эффективные модели ИИ — менее требовательные к энергии и ресурсам, которые могут работать на периферийных устройствах, куда сейчас мигрирует искусственный интеллект».
О важности периферийных вычислений совсем недавно говорил и глава Microsoft Сатья Наделла. На саммите в Вашингтоне он привел доводы в пользу этой технологии, которая, по его мнению, вскоре будет работать в тандеме с облачной.