• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Открылась новая лаборатория Стохастических алгоритмов и анализа многомерных данных

На факультете компьютерных наук НИУ ВШЭ открылась Международная лаборатория стохастических алгоритмов и анализа многомерных данных (HDI Lab). О фундаментальных и прикладных аспектах исследований лаборатории, как они связаны с машинным обучением, а также об академических связях России и Франции рассказывают научный руководитель HDI Lab Эрик Мулине и главный научный сотрудник Владимир Спокойный.

HDI Lab объединяет исследователей, работающих на стыке математических дисциплин от теории вероятностей до современной математической статистики, для решения актуальных задач анализа данных. Формально лаборатория существует с апреля 2018 года, но официальным запуском стало проведение в сентябре международной конференции «Структурное оценивание в высокоразмерных задачах». Мероприятие также открыло серию ежегодных встреч исследователей из Франции и России, работающих в области теории вероятностей и математической статистики.

Математические методы в машинном обучении: зачем учить ИИ сомневаться?

Эрик Мулине, научный руководитель HDI Lab

Наша лаборатория будет заниматься разработкой новых методов и подходов машинного обучения, которые в дальнейшем могут быть использованы в различных приложениях. Мы проверим теорию практикой. Сегодня перед учеными открыты широкие возможности для исследований в области машинного обучения и искусственного интеллекта. Однако было бы ошибкой ограничиваться лишь методами традиционной математической статистики. С точки зрения математики, машинное обучение — это продолжение статистики. Но если вы спросите студентов, чем они хотят заниматься — статистикой или искусственным интеллектом, — мне кажется, что они выберут ИИ. В нашей лаборатории представлены как теоретики, так и люди, более направленные на приложения, к ним я отношу и себя. Вместе мы способны предложить новые интересные методы для прикладных исследований и представить результаты на конференциях по машинному обучению.

Существует много областей машинного обучения, которые разрабатываются очень быстро, например, количественная оценка неопределенности, разработка новых байесовских методов, топологический анализ данных, глубинное обучение, справедливый дискриминантный анализ.

Алгоритмы машинного обучения часто бывают слишком «самонадеянны», они должны уметь признаваться в своем «незнании» 

Это имеет большое значение, например, при создании беспилотных автомобилей. Машина анализирует в реальном времени объекты на дороге. Если беспилотник замечает абсолютно новый объект, который не видел до этого, то он должен сообщить об этом оператору и замедлиться или полностью передать управление водителю. Таким образом, машина должна уметь точно определять — уверена ли она в принимаемом решении, или необходимо вмешательство водителя.

Машина учится не так, как человек. Для того чтобы достичь такой же эффективности, нужно еще многое сделать. Я считаю, что, например, уже через 10 лет компьютер сможет полностью понимать человеческую речь. Тем не менее, компьютер не заменит человеческий мозг. Это как с изобретением летательных аппаратов: самолеты не летают, как птицы, но они летают. Кроме того, ни одна птица не может переносить 500 человек на скорости 1000 км/ч. Компьютеры смогут выполнять определенные задачи, но они будут выполнять их не так, как люди, хотя и более эффективно. Для некоторых задач по-прежнему будет нужен человек.

Владимир Спокойный, главный научный сотрудник HDI Lab

Анализ многомерных данных: как извлекать полезную информацию из огромных массивов?

Анализ больших массивов многомерных данных — это действительно, как сейчас говорят, челлендж, т.е. сложнейшая задача, не допускающая простого универсального решения. В современном мире мы со всех сторон наблюдаем обилие информации, которая копится всеми возможными способами: это изображения, речевые данные, интернет-сети. Казалось бы, дефицит информации побежден. Но перед человечеством возникла новая проблема — как эту накопленную в огромных массивах данных информацию использовать, чтобы извлечь из нее нужную и понятную нам?

Типичный пример — цифровое изображение. Формально это вектор размерности в несколько миллионов — по числу пикселей. Как понять, что изображено на картинке? Есть там кошка, собака, человек? Как понять, один ли человек на разных фото? Человеческий глаз это делает легко, но как научить компьютер?

Кроме того, что этих данных очень много, они имеют сложные, отчасти вероятностные структуры — то есть в них есть элемент неопределенности. Природа неопределенности может быть различной, зависеть от ошибок измерения или передачи данных. Например, в медицине неопределенность связана с условиями анализов, состоянием пациента, а в социологических данных случайность обусловлена влиянием субъективных факторов. Вероятность также относится к любому будущему событию — например, к курсу акций или прогнозу погоды: его можно дать с какой-то степенью вероятности, но нельзя дать точно.

Поэтому мы занимаемся извлечением информации из сложных данных при имеющемся элементе неопределенности — стохастической (вероятностной) природе данных. Это огромная область. Туда входят как различные разделы прикладной математики, так и современные методы машинного обучения, например, глубинные сети. Наша лаборатория ставит своей целью развитие математических методов и подходов к анализу сложных структурированных данных.

Основополагающее предположение, лежащее в основе современных подходов анализа данных, состоит в том, что даже очень сложные данные, такие как изображения, видео, социальные сети, имеют определенную структуру. Например, важную роль в распознавании фотографий играют форма и расположение контуров глаз, носа, рта. Знание этих структур сильно облегчило бы анализ, и вопрос как раз в том, как извлечь из данных структурную информацию и как ее эффективно использовать. Для этого мы сочетаем методы из современных областей прикладной математики: статистики, теории вероятности, теории оптимизации, оптимального управления, уравнения в частных производных — и пытаемся применить к анализу сложных данных неизвестной структуры.

В мире аналогичная нашей деятельности работа проходит под именем statistical learning theory. Если машинное обучение и искусственный интеллект больший упор делают на создание новых алгоритмов, то learning theory — это развитие и анализ структурных подходов к анализу данных и понимание того, насколько эти методы эффективны. 

Например, сейчас все без ума от глубинных сетей, но почему это работает, пока никто толком не объяснил. Теоретических основ пока не разработано 

Мы пытаемся не просто построить модель данных и оценить ее параметры как в статистике — этим занимались ученые в XX веке. Структурное моделирование гораздо сложнее: сначала надо на основе имеющихся практических примеров понять вид и форму структурных предположений о данных. Это позволяет радикально снизить размерность и сложность задачи.  Далее оцениваются и структурные параметры, и параметры модели.

Важный вопрос в современном анализе данных — построение эффективных (скалируемых) алгоритмов. Сложность решения должна быть пропорциональна объему данных. Оказывается, есть так называемые NP-сложные задачи, которые известны как нерешаемые алгоритмически, их сложность слишком велика для любого компьютера, даже квантового. Типичная такая задача — перебор всех возможных подмножеств заданного множества или всех возможных сценариев развития сложной системы.Исследование подобных задач требует привлечение методов статистики и машинного обучения с одной стороны, и теоретической информатики с другой.

Из практических задач лаборатории — анализ финансовых рынков, анализ биомедицинских изображений, даже видеопотоков, анализ графов и сетей. Это огромная индустрия, в которой задействованы многие институты и фирмы. Мы не можем конкурировать с огромными коллективами, разрабатывающими программные пакеты.  Но мы пытаемся получить новые результаты, которые позволят понимать, какие методы работают эффективно. А также пытаемся разрабатывать новые методы, основанные на структурном моделировании.


Фото: Михаил Дмитриев, Высшая школа экономики

О партнерах лаборатории, планах на будущее и академическом сотрудничестве Франции и России

Владимир Спокойный: Основные наши партнеры представлены на конференции: это Политехническая школа во Франции (École Polytechnique), Высшая нормальная школа в Париже, ENSAE ParisTech, Университет Тулузы, я сам представляю также Берлинский университет им. Гумбольдта. У нас есть лаборатория, есть несколько грантов РНФ и еще ждем в декабре результатов другого большого гранта. Грантов много, но сейчас важно сфокусироваться на углублении текущей кооперации. Мы только начали и надеемся на интенсивное развитие.

На примере совместной магистерской программы «Статистическая теория обучения», которую мы проводим совместно со Сколтехом, уже отчётливо понятно, что если ФКН имеет 200 человек бакалавриата, к нам придет от силы десятая часть. И это хорошо, больше нам не надо. Мы предлагаем им конкретный путь, как из студенческого возраста прийти к научной работе в институте или университете, было бы желание.

Эрик Мулине: Мы также планируем сотрудничать с лабораторией компании Самсунг, руководитель Дмитрий Ветров. Наши лаборатории имеют очевидные возможности для совместных исследований: лаборатория Дмитрия больше фокусируется на прикладных аспектах машинного обучения, в то время как мы скорее сосредоточены на «математике» машинного обучения. Таким образом, мы могли бы отлично дополнять друг друга.

У Политехнической школы, в которой я сейчас работаю, давние партнерские отношения с ВШЭ, и мы намерены развивать это сотрудничество. Пару лет назад был подписан меморандум о сотрудничестве, но в нем было мало конкретики, и поток студентов из Москвы в Париж и из Парижа в Москву был совсем небольшой. Поэтому мы планируем расширять сотрудничество, тем более что ВШЭ — наш основной партнер.

 Примечательно, что у России и Франции много общего в смысле научной культуры

Например, в наших странах студенты, специализирующиеся в компьютерных науках, достаточно глубоко изучают математические дисциплины по сравнению с другими зарубежными университетами . Хорошее владение математическим аппаратом очень важно для проведения исследований в области статистического машинного обучения. Поэтому нам проще сотрудничать. Также отмечу, что во Франции работает достаточно много специалистов по статистике из России и бывшего Советского Союза, например, Александр Цыбаков, Олег Лепский, Юрий Голубев, Юрий Кутоянц. Они очень активно обучают студентов.

Большинство специалистов по статистическому машинному обучению во Франции имеют тесные связи с Россией. Исторически Россия является местом, где активно развивалась теория статического машинного обучения и непараметрической статистики.  Достаточно назвать такие  великие имена в статистике, как Владимир Вапник, Ильдар Ибрагимов, Рафаил Хасьминский, которые   вместе со своими талантливыми учениками заложили основы современной статистики.