|
|
Обзор развития технологий искусственного интеллекта в 2018 году
Победа ИИ над игроками в Dota, принципиально новые архитектуры нейронных сетей, универсальные системы понимания естественного языка - насколько ближе мы стали к общему искусственному интеллекту. Введение: рынок искусственного интеллекта сегодняВ 2017-2018 годах искусственный интеллект (ИИ) из технологии превратился в индустрию. Отдельные кейсы внедрения алгоритмов машинного обучения в ключевых индустриях слились в непрерывные программы интеграции ИИ в цифровые продукты и технологические процессы. В индустрии можно выделить несколько технологических направлений - рекомендательные системы с глубоким обучением, технологии понимания естественного языка, компьютерное зрение, предиктивные модели и обучение с подкреплением. На рынке ИИ существуют несколько типов компаний.
Лидеры R&D-активности в индустрии - внутренние лаборатории технологических гигантов (Google, Amazon, Microsoft, Netflix) и несколько некоммерческих организаций (OpenAI, Vector Institute), при этом благодаря разнообразию задач и бурному росту рынка есть пространство и для небольших научно-исследовательских коллективов. Растёт количество новых компаний, рынок очень динамичен. Количество активных ИИ-стартапов в США в 2018 году выросло в два раза относительно 2015 года, их финансирование венчурным капиталом удвоилось за последние два года. Количество вакансий с требованиями навыков разработки глубоких нейронных сетей с 2015 года по 2017 год выросло в 35 раз. В 2017-2018 годах появились национальные государственные стратегии в сфере ИИ. В Китае огромный объём государственных инвестиций в R&D, в США больше инвестируют корпорации. Наиболее весомый вклад в ИИ-исследования по-прежнему вносят ученые из США - их индекс цитируемости на 83% выше, чем среднемировой уровень. Пять значимых технологий ИИ 2018 года1. Создаются универсальные системы понимания естественного языкаТехнологии понимания естественного языка давно решают узкие задачи: поисковые системы обрабатывают запросы с учётом семантики языка, «Google Переводчик» неплохо отражает общий смысл фразы на другом языке, технологии распознавания речи делают всё меньше и меньше ошибок, а некоторые специфические архитектуры нейтронных сетей позволяют извлекать нужную информацию из произвольных текстов. Однако задача поддержания непринужденной беседы по-прежнему не решена, Siri всё ещё не похожа на разумного собеседника. Основной вызов в NLP (Natural Language Processing, обработка естественного языка) сейчас - создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом с помощью одной системы. Проще говоря, создание системы, которая будет «понимать» текстовую информацию и сможет взаимодействовать с вами так, как это делал бы человек, прочитавший текст и обладающий некоторым багажом знаний. В 2018 году для решения этой задачи коллаборацией учёных из Нью-Йоркского университета, университета штата Вашингтон и DeepMind был разработан новый бенчмарк GLUE - General Language Understanding Evaluation (общая оценка понимания естественного языка). GLUE оценивает системы понимания естественного языка по результатам выполнения заданий: ответов на вопросы, анализа тональности текста и продолжения повествования. Для решения некоторых из этих задач требовались алгоритмы переноса знаний (transfer learning), актуальные, когда отсутствует достаточная обучающая выборка. В бенчмарк также включены вопросы из Winograd schema challenge, более совершенного аналога теста Тьюринга на наличие у машины «интеллекта». GLUE был опубликован в мае 2018 года, за полгода его существования результаты лучших моделей улучшились с 68% верных ответов до 80% (результат последней модели Google BERT), при этом средний результат человека составляет 90%. Лингвистические модели прошлых лет (word2vec) были построены на статистике и учитывали совместную встречаемость слов в огромном корпусе текстов. Современные модели (ULMfit, ELMo) используют технологию обучения без учителя. Например, создание вложений (векторизация слов) с помощью рекуррентных нейронных сетей, обученных на больших корпусах текстов, позволяет сформировать в модели некоторое первичное общее представление о семантике языка, прежде чем перейти к решению конкретной задачи. 2. Решена задача распознавания объектов на изображенииКомпьютерное зрение - область, в которой применение глубоких нейронных сетей многократно повысило эффективность решения прикладных задач. Определение объектов на изображениях и распознавание лиц уже стали мейнстримом. Конволюционные (свёрточные) нейронные сети - самая актуальная сегодня архитектура нейронных сетей для работы с изображениями - позволяют в некотором смысле усреднять комбинации пикселей, не теряя информации об их относительном расположении. Модель «запоминает» силуэт объекта и может распознать подобный объект на другом изображении. В 2018 году закрылось самое популярное соревнование алгоритмов компьютерного зрения ImageNet, так как качество распознавания и нахождения объектов на изображениях превысило человеческие возможности, приблизившись к 98%. Модели компьютерного зрения обычно состоят из многих слоёв конволюционных нейронных сетей и требуют большого времени для качественного обучения. За последние полтора года среднее время обучения моделей классификаторов изображений (базовая задача компьютерного зрения) снизилось в 15 раз - это говорит о развитии как алгоритмов, так и вычислительных мощностей. Common Objects in Context Challenge (COCO, распространённые объекты в контексте) - новый, более сложный контест, он предполагает определение границ объекта или разделение сцен на изображении с пиксельной точностью. Точность решения таких задач за последние три года выросла на 70%. Одна из задач контеста - определение опорных точек на изображениях людей, по которым можно судить о геометрии объекта, и, как следствие, позе и динамике её изменения. Это позволяет вести эффективное видеонаблюдение и определять действия человека и индивидуальные физиологические особенности, например, походку. В Китае уже функционирует система аутентификации граждан по походке. В конце 2017 года научная группа Джефри Хинтона, изобретателя обратного распространения ошибки в нейронных сетях, одного из самых влиятельных учёных в области искусственного интеллекта, опубликовала статью Dynamic Routing Between Capsules, в которой представлена новая архитектура нейронных сетей для работы с изображениями - капсульные нейронные сети, учитывающие физическую геометрию объекта при обучении. Эта модель требует больших вычислительных ресурсов, но может быть очень эффективна при анализе динамики движения физических объектов. 3. Обучение с подкреплением позволило ИИ выигрывать у команд профессиональных игроков в сложных многопользовательских играх Dota и Quake 3 ArenaВ задачах обучения с подкреплением агент действует в среде, его действия описывает некоторую функциональность, которая принимает значение награды в случае успеха, наказания в случае провала. Функциональность устроена так, чтобы обеспечивать обратную связь агенту, позволяя научиться достигать награды. Простая аналогия - дрессировка животных. Собака учится выполнять команды и получает награду в случае успеха. Обучение с подкреплением позволяет формировать у агента (алгоритма искусственного интеллекта) «разумное» автономное поведение-способность решать некоторые задачи во внешней среде. Одна из самых успешных исследовательских лабораторий в области обучения с подкреплением - OpenAI из Кремниевой долины, в попечительском совете которой находятся Сэм Альтман из YCombinator, Питер Тиль и Илон Маск. Свежая публикация лаборатории Quantifying Generalization in Reinforcement Learning посвящена задаче обобщения опыта агента в обучении с подкреплением. Обычно в этом классе задач качество обучения агента оценивают в той же среде, где он обучался. Но это не говорит о полноценном формировании навыка, скорее - о переобучении в рамках конкретной среды. Для решения задачи обобщения опыта агента и формирования навыка исследователи написали игру CoinRun с десятками тысяч генерируемых автоматически уровней - это позволило обучать агента в различных средах и тестировать на уровнях, которые он никогда не видел. Функцию награды также можно модифицировать, чтобы спровоцировать у агента «любопытное» поведение (Reinforcement Learning with Prediction-Based Rewards), которое помогает лучше обучаться. В июле искусственный интеллект DeepMind обыграл команду профессиональных игроков в Quake 3 Arena Capture the Flag, многопользовательский 3D-шутер, где победу (захват и удержание чужого флага и защиту собственного) могут обеспечить только слаженные командные действия. Команда искусственного интеллекта состояла из автономно действующих, обученных в ходе предыдущих игр агентов, показала способность к выработке стратегии, тактики и командной игре как с другими агентами, так и с человеком. Модели искусственного интеллекта командно действовали слаженнее, чем живые игроки, и перенимали при этом человеческие паттерны поведения (следование за игроками своей команды, удержание контроля над базой противника). Отдельная сложность здесь была в эффективном ориентировании агентов в трёхмерной карте, и для исключения «запоминания» карты её топология в новой игре изменялась. В августе прошло соревнование команды агентов искусственного интеллекта OpenAI Five с командой профессиональных игроков в Dota 2, сложную многопользовательскую компьютерную стратегию. Искусственный интеллект обыграл команду любителей, но проиграл команде лучших профессиональных игроков. Этот результат показывает возможность к обучению агентов в сложных средах и, что важно, к эффективной коллаборации. 4. Широкое распространение получают специальные архитектуры процессоров, оптимизированные для глубокого обученияАлгоритмы нейронных сетей требуют большой вычислительной мощности, так как содержат множество вычислительных операций над матрицами и тензорами. Чтобы ускорить вычисления, используются специальные архитектуры процессоров, которые производят операции над массивами, а не парами чисел. Тактовые частоты (частота выполнения элементарных арифметических операций) в таких процессорах обычно ниже, но архитектура позволяет произвести операцию умножения двух матриц за один вычислительный такт, что даёт существенный выигрыш в скорости. Тензорный процессор Google (TPU) - интегральная схема специального назначения (ASIC) для решения задач машинного обучения. Google представил схему в 2016 году, в этом году вышло третье поколение процессора, также компания открыла бесплатный доступ к TPU v2. Вычисления операций над матрицами на таких процессорах в десятки раз производительнее, чем на GPU (содержащем тысячи арифметических блоков, которые выполняют простейшие операции над парами чисел параллельно), и выигрывающих за счет этого у CPU (классической архитектурой фон Неймана). Все более актуальны становятся FPGA-архитектуры (Field Programmable Gate Array), позволяющие программировать логическую схему устройства для решения конкретной вычислительной задачи оптимальным образом. Intel применяют FPGA-процессоры в камерах видеонаблюдения для производительной реализации технологий компьютерного зрения (ресурсоёмкие конволюционные нейронные сети). Эти решения востребованы сегодня в индустрии безопасности, в ритейле и на производстве: они позволяют распознавать лица людей в толпе, детектировать объекты и события, а также контролировать производственные процессы в режиме реального времени. Гибкость FPGA-архитектур даёт возможность перепрограммировать интегральную схему при изменении алгоритмов для поддержания оптимальной производительности системы. 5. Предложены принципиально новые архитектуры нейронных сетейПерспективным направлением исследований является применение аппарата фундаментальной математики - дифференциального исчисления, дифференциальной геометрии и топологии к формированию новых архитектур нейронных сетей и совершенствованию алгоритмов машинного обучения. Одна из ярких научных работ конца 2018 года - публикация "Neural Ordinary Differential Equations" учёных из канадского института искусственного интеллекта Vector Institute. В статье описывается замена дискретных слоёв нейронной сети обыкновенными дифференциальными уравнениями - это позволит строить более точные нелинейные аппроксимации решения и моделировать непрерывные процессы. Такой подход актуален при описании физических процессов с небольшой стохастической компонентой. Ещё одно актуальное направление - автоматический поиск оптимальных архитектур нейронных сетей. Эта постановка задачи предполагает наличие внешнего цикла оптимизации (или нейросети) над шагами обучения и тестирования нейросети, решающей целевую задачу, чтобы выбрать лучшую модель с оптимальными параметрами. Более совершенными подходом может стать применение аппарата дифференциальной геометрии и топологии к анализу исходных данных и необходимых преобразований над ними - исследования в этом направлении ведутся в Intuition. Развитие новых алгоритмов позволит радикально улучшить качество и повысить производительность решений на основе машинного обучения. РезюмеОдин из главных трендов 2018 года - создание эффективных обобщённых моделей машинного обучения в каждом из перечисленных направлений исследований. Активно развиваются системы совместной обработки графической и текстовой информации, системы переноса знаний - то, что в человеческом сознании называется ассоциативными связями, отвечающими за образы и абстрактные концепции. Большие успехи наблюдаются в развитии обучения с подкреплением - обучении агентов автономному функционированию в среде. Человечество уверенно движется в сторону создания общего искусственного интеллекта, в то время как узкий (слабый) искусственный интеллект давно и успешно внедряется в различных индустриях. Материал опубликован пользователем
|
Дизайн и поддержка: Interface Ltd. |
|