проекты по машинному обучению
8 ML/AI-проектов, которые украсят ваше портфолио
Автор материала, перевод которого мы сегодня публикуем, предлагает вниманию читателей 8 идей проектов в сферах машинного обучения и искусственного интеллекта. Описание идей сопровождается ссылками на дополнительные материалы. Реализации этих идей способны украсить портфолио проектов профильного специалиста.
1. Анализ эмоциональной окраски сообщений в социальных сетях и поиск признаков депрессии
По данным Всемирной организации здравоохранения депрессия — это серьёзнейшая проблема, которая нуждается в срочном решении. Более 264 миллионов человек в мире страдает от депрессии. Депрессия — это основная причина инвалидности в мире, она вносит значительный «вклад» в глобальное бремя болезней. Из-за депрессии в мире ежегодно более 800000 человек погибает от самоубийства. Это — вторая по значимости причина смерти людей в возрасте 15-29 лет. Лечение от депрессии часто начинается позже, чем нужно, такое лечение может быть основано на неточном диагнозе, а иногда от депрессии и вовсе не лечат.
То, что интернет прочно вошёл в жизнь современного человека, даёт обществу уникальный шанс раннего выявления признаков депрессии. Особенно это касается нахождения подобных признаков среди молодёжи. Если говорить только о Twitter, то окажется, что каждую секунду пользователи этой социальной сети публикуют около 6000 твитов. Это значит, что в минуту публикуется около 350000 твитов, в день — около 500 миллионов, а в год — около 200 миллиардов.
По сведениям Pew Research Center около 72% взрослых людей, пользующихся интернетом, являются пользователями социальных сетей. Наборы данных, взятые из социальных сетей, важны во многих сферах исследований. Например — в области наук о человеке и в медицинских изысканиях. В наши дни поддержка подобных исследований через анализ данных из социальных сетей находится на зачаточном уровне, а существующие методы анализа таких данных неэффективны.
Анализируя лингвистические маркеры в публикациях из социальных сетей, можно создать модель, основанную на технологии глубокого обучения, которая может выявлять признаки депрессии у конкретного пользователя сети раньше, чем традиционные методы.
Вот несколько материалов по теме:
2. Формирование текстовых сводок по видеозаписям спортивных матчей с использованием нейронных сетей
Идея этого проекта заключается в формировании точных текстовых сводок по видеозаписям спортивных матчей. Существуют сайты, которые специализируются на предоставлении пользователям сведений о матчах. Предложены различные модели, направленные на извлечение из видеозаписей информации о матчах и представление её в текстовом виде. Лучше всего с этой задачей справляются нейронные сети. Под «формированием текстовых сводок» обычно понимают представление информации в сжатом виде, с уделением особого внимания тому, что несёт факты и важные сведения о событии.
Для решения задачи автоматического создания описания игр по записям необходимо сделать так, чтобы модели, решающие эту задачу, могли бы распознавать особенно важные и захватывающие моменты игр.
Достичь этого можно, используя некоторые методики глубокого обучения, наподобие трёхмерных свёрточных нейронных сетей (3D-CNN), рекуррентных нейронных сетей (RNN), сетей долгой краткосрочной памяти (LTSM). Здесь находят применение и другие алгоритмы машинного обучения, вроде метода опорных векторов (SVM) и метода k-средних. В ходе применения таких алгоритмов видео разбивают на части, которые обрабатывают с помощью соответствующих моделей.
Вот материал, посвящённый классификации сцен спортивных видеозаписей для целей формирования сводок по ним с использованием технологии переноса обучения (transfer learning).
3. Система решения уравнений, записанных от руки, основанная на свёрточных нейронных сетях
Распознавание рукописных математических выражений — это одна из сложных задач, стоящих перед теми, кто занимается исследованиями в области машинного зрения. Создать систему, которая способна распознать рукописное математическое выражение, можно, воспользовавшись свёрточными нейронными сетями (CNN) и некоторыми методами обработки изображений. Разработка подобной системы подразумевает обучение сети с использованием соответствующим образом подготовленных наборов данных, представленных рукописными математическими символами.
Вот некоторые материалы по этой теме:
4. Формирование кратких отчётов по материалам деловых встреч с использованием технологий обработки естественного языка
Вы попадали когда-нибудь в ситуацию, когда некий длинный материал нужно свести к краткому конспекту? Мне приходилось с этим сталкиваться во время учёбы. А именно, мне нужно было тратить много времени на подготовку какого-нибудь длинного реферата, а у преподавателя было время лишь на то, чтобы прочитать его краткую аннотацию, на подготовку которой тоже приходилось тратить время.
Механизмы подготовки кратких сводок по каким-то материалам возникли как попытка решения проблемы информационной перегрузки, которой подвержен современный человек. Система извлечения самой ценной информации, например, из записи неких переговоров или лекций, может иметь большую коммерческую и образовательную ценность. К разработке подобной системы можно подойти, применив разносторонний анализ текстовой информации, имеющей отношение к диалогам и монологам.
Ручное составление краткой сводки некоего отчёта занимает очень много времени. Но эту задачу можно решить с помощью технологий обработки естественного языка (NLP).
Для подготовки краткой аннотации текста можно воспользоваться механизмами, основанными на глубоком обучении, способными «понять» контекст всего текста. Многие были бы просто счастливы, окажись в их распоряжении система, способная быстро и качественно решать подобные задачи.
Вот статьи об этом:
5. Реализация системы, которая распознаёт лица пользователей, определяет их настроение и предлагает им соответствующую музыку
На лице человека отражается его внутреннее состояние, по лицу можно понять то, какие эмоции испытывает человек. На этих сведениях, например, может быть основана система автоматического подбора музыки. Дело в том, что то, какую именно музыку слушают люди, часто зависит от их настроения. Поэтому вполне логично предположить, что у системы, способной «понимать» настроение человека и подбирать ему подходящую музыку, есть будущее. В решении этой задачи нам могут помочь технологии машинного зрения. Они, в деле распознавания эмоций, предусматривают анализ фотографий или видеофрагментов.
Уже созданы API для решения подобных задач, которые я считают интересными и полезными, хотя поработать мне с ними пока не довелось. Вот материал о таких API.
6. Поиск обитаемых экзопланет, выполняемый на основе изображений, снятых космическими устройствами вроде телескопа Кеплер
В последнее десятилетие проведено исследование огромного количества звёзд на предмет наличия около них планет, которые могут быть обитаемыми. Ручной анализ данных, позволяющий выявлять экзопланеты, чрезвычайно трудоёмок и подвержен человеческим ошибкам. Для решения задачи поиска подобных планет хорошо подходят свёрточные нейронные сети
7. Восстановление старых повреждённых фотографий
Восстановление старых фотографий — тяжёлая работа. Эту работу можно облегчить, воспользовавшись технологиями глубокого обучения. Соответствующая система может автоматически обнаруживать повреждения снимков (изломы, потёртости, дыры) и, используя алгоритмы реконструкции изображений (Inpainting), от повреждений избавляться, восстанавливая утраченные части фотографий.
Вот материалы по теме:
8. Создание музыки с использованием технологий глубокого обучения
Музыка — это набор звуков разной частоты. Зная об этом, можно описать автоматическое создание музыки как процесс создания небольших музыкальных фрагментов с минимальным участием человека. В наши дни специалисты, занимающиеся машинным обучением, находятся на переднем крае технологий компьютерного создания музыки.
Вот пара полезных материалов об этом:
Итоги
Мы рассмотрели восемь перспективных идей, которые могут лечь в основу проектов, способных обогатить портфолио проектов того, кто занимается искусственным интеллектом и машинным обучением. Надеемся, вы нашли среди этих идей что-то такое, что вас вдохновило.
Планируете ли вы реализовать какую-нибудь из вышеописанных идей?
5 мощных проектов по машинному обучению для начинающих
В этой статье мы расскажем о пяти идеях, используя которые вы сможете реализовать действительно хорошие проекты по машинному обучению. (Источник — 8 Fun Machine Learning Projects for Beginners, перевод опубликовал сайт proglib.io).
Как вы знаете, количество изученного теоретического материала не может заменить практику. Теоретические уроки и книги могут внушить вам ложное представление о том, что вы достаточно изучили материал и хорошо разбираетесь в теме. Однако как только вы попробуете применить полученные знания, вы поймёте, что материал на деле сложнее, чем в теории.
Эти проекты помогут вам усовершенствовать навыки по машинному обучению и изучить новые темы. К тому же, выполненные проекты прекрасно дополнят ваше портфолио, что будет плюсом при трудоустройстве.
Поработайте с финансовыми рынками
Финансовый рынок — отличная вещь для любого Data Scientist, даже для того, кто далек от финансовой сферы.
Во-первых, у вас есть огромный выбор: вы можете работать с ценами, фундаментальными данными, глобальными макроэкономическими показателями, индексами волатильности и т. д.
Во-вторых, данные могут быть очень подробными. Вы можете с лёгкостью получить данные любой компании по дню (или даже минуте). Это поможет вам творчески обдумывать торговые стратегии.
Наконец, финансовые рынки имеют короткие циклы отклика, поэтому вы сможете быстро перестроить прогноз под новые данные.
Некоторые идеи для проекта:
Очевидно, что написание подобных проектов лишь для практики в машинном обучении — простая вещь. Однако монетизация, извлечение материальной выгоды из подобных проектов — максимально сложная практика. Ничего из вышесказанного не является финансовым советом, и мы крайне не рекомендуем торговать реальной валютой, если вы не разбираетесь в рынках.
Плейлист видео по машинному обучению, применяемому для инвестирования.
Источники данных:
Рынок данных, который предоставляет бесплатные (и премиум) финансовые и экономические данные. Например, вы можете скачать цены на конец дня для более 3000 американских компаний или экономические данные из Федерального резерва.
Количественное финансовое сообщество, которое предлагает бесплатную платформу для разработки алгоритма торговли. Включает в себя наборы данных.
Фундаментальные данные 5000+ американских компаний за последний 5 лет.
Создайте нейросеть, которая распознаёт текст, написанный от руки
Нейронные сети и Deep Learning — два главных прорыва в развитии современного искусственного интеллекта. Они привели к большим достижениям в области распознавания объектов (прочитайте нашу статью про распознавание объектов на Python), генерации текстов и даже в области беспилотных автомобилей.
Чтобы больше углубиться в эту тему, вам стоит начать с чего-то попроще, не с изображений.
MNIST Handwritten Digit Classification Challenge — стандартная точка входа. С изображениями работать гораздо сложнее, чем с реляционными моделями данных. MNIST данные дружелюбны по отношению к новичкам и имеют небольшие размеры, так что с лёгкостью поместятся на одном компьютере.
Для начала мы рекомендуем начать с первой главы обучения ниже. Там вы научитесь создавать нейросеть на Python с нуля, которая будет распознавать письменный текст с большой точностью.
Источник данных:
Исследуйте Enron
Скандал Enron был самым большим корпоративным кризисом в истории.
В 2000 Enron была одной из самых больших энергетических компаний в Америке. Затем, когда компанию уличили в мошеннических махинациях, она обанкротилась в течение года.
К счастью для нас, есть данные e-mail переписок бывших сотрудников Enron. Это 500 тысяч электронных писем между 150 бывшими сотрудниками, в основном, старшими руководителями. Это также единственная крупнейшая публичная база данных электронных писем, что делает её ещё более ценной.
Фактически, Data Scientist используют этот набор данных уже много лет для проектов по машинному обучению.
Проекты по машинному обучению, которые вы можете попробовать реализовать:
Источники данных:
Улучшите заботу о здоровье
Ещё одна отрасль, которая активно развивается благодаря проектам по машинному обучению — это здравоохранение и забота о здоровье.
Во многих странах для того, чтобы стать доктором, необходимо потратить много лет на обучение. Порог вхождения в эту сферу довольно велик, а процесс становления врачом очень сложен.
В результате в последнее время предпринимаются значительные усилия для облегчения рабочей нагрузки врачей и повышения общей эффективности системы здравоохранения с помощью машинного обучения.
Возможные проекты:
Гайды:
Источники данных:
Анализируйте социальные медиа
Социальные медиа уже практически стали синонимом “big data” из-за огромного количества контента, создаваемого пользователями.
Добыча этих данных — беспрецедентный способ сохранить руку на пульсе общественного мнения, настроения и трендов. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… Список можно продолжать и продолжать.
Кроме того, каждое последующее поколение тратит ещё больше времени на соцсети, чем предыдущее. Это значит, что данные в социальных сетях станут ещё более актуальными для маркетинга, брендов и бизнеса в целом.
Несмотря на то, что существует множество популярных социальных сетей, Twitter является классической точкой входа в практику машинного обучения.
С данными Twitter вы получаете интересное сочетание данных (содержимое твитов) и метаданных (местоположение, хештеги, пользователи, повторные твиты и т. д.), которые открывают вам почти бесконечное количество путей для анализа.
5 мощных проектов по машинному обучению для начинающих
В этой статье мы расскажем о пяти идеях, используя которые вы сможете реализовать действительно хорошие проекты по машинному обучению.

Эти проекты помогут вам усовершенствовать навыки по машинному обучению и изучить новые темы. К тому же, выполненные проекты прекрасно дополнят ваше портфолио, что будет плюсом при трудоустройстве.
Поработайте с финансовыми рынками
Во-первых, у вас есть огромный выбор: вы можете работать с ценами, фундаментальными данными, глобальными макроэкономическими показателями, индексами волатильности и т. д.
Во-вторых, данные могут быть очень подробными. Вы можете с лёгкостью получить данные любой компании по дню (или даже минуте). Это поможет вам творчески обдумывать торговые стратегии.
Наконец, финансовые рынки имеют короткие циклы отклика, поэтому вы сможете быстро перестроить прогноз под новые данные.
Некоторые идеи для проекта:
Плейлист видео по машинному обучению, применяемому для инвестирования.
Источники данных:
Рынок данных, который предоставляет бесплатные (и премиум) финансовые и экономические данные. Например, вы можете скачать цены на конец дня для более 3000 американских компаний или экономические данные из Федерального резерва.
Количественное финансовое сообщество, которое предлагает бесплатную платформу для разработки алгоритма торговли. Включает в себя наборы данных.
Фундаментальные данные 5000+ американских компаний за последний 5 лет.
Создайте нейросеть, которая распознаёт текст, написанный от руки
Чтобы больше углубиться в эту тему, вам стоит начать с чего-то попроще, не с изображений.
Для начала мы рекомендуем начать с первой главы обучения ниже. Там вы научитесь создавать нейросеть на Python с нуля, которая будет распознавать письменный текст с большой точностью.
Источник данных:
Исследуйте Enron
Скандал Enron был самым большим корпоративным кризисом в истории.
В 2000 Enron была одной из самых больших энергетических компаний в Америке. Затем, когда компанию уличили в мошеннических махинациях, она обанкротилась в течение года.
К счастью для нас, есть данные e-mail переписок бывших сотрудников Enron. Это 500 тысяч электронных писем между 150 бывшими сотрудниками, в основном, старшими руководителями. Это также единственная крупнейшая публичная база данных электронных писем, что делает её ещё более ценной.
Фактически, Data Scientist используют этот набор данных уже много лет для проектов по машинному обучению.
Проекты по машинному обучению, которые вы можете попробовать реализовать:
Источники данных:
Улучшите заботу о здоровье
Во многих странах для того, чтобы стать доктором, необходимо потратить много лет на обучение. Порог вхождения в эту сферу довольно велик, а процесс становления врачом очень сложен.
В результате в последнее время предпринимаются значительные усилия для облегчения рабочей нагрузки врачей и повышения общей эффективности системы здравоохранения с помощью машинного обучения.
Возможные проекты:
Гайды:
Источники данных:
Анализируйте социальные медиа
Социальные медиа уже практически стали синонимом “big data” из-за огромного количества контента, создаваемого пользователями.
Кроме того, каждое последующее поколение тратит ещё больше времени на соцсети, чем предыдущее. Это значит, что данные в социальных сетях станут ещё более актуальными для маркетинга, брендов и бизнеса в целом.
Несмотря на то, что существует множество популярных социальных сетей, Twitter является классической точкой входа в практику машинного обучения.
С данными Twitter вы получаете интересное сочетание данных (содержимое твитов) и метаданных (местоположение, хештеги, пользователи, повторные твиты и т. д.), которые открывают вам почти бесконечное количество путей для анализа.
🤖 Пять самых интересных проектов машинного и глубокого обучения
Пять самых интересных проектов машинного и глубокого обучения
Включая техническое описание каждого
Время от времени я читаю научные статьи по ML/AI/DL, просто чтобы следить за происходящим в индустрии. Мне кажется, было бы здорово собрать самые интересные идеи в одну статью, добавить несколько ключевых теоретических концепций и поделиться всем этим с вами. Итак, вот несколько исследовательских проектов, которые нравятся лично мне, и, надеюсь, понравятся вам.
1. Toonify Yourself (Сделай из себя мультяшку)
Авторы: Дорон Адлер (Doron Adler) и Джастин Пинкни (Justin Pinkney)
Начнем с чего-нибудь не очень серьезного: этот забавный маленький проект позволяет вам загрузить свое изображение и преобразовать его в мультяшное. Обработка и преобразование изображений в наше время не представляют собой ничего особенно нового, но проект остается очень интересным: сайт даже предоставит вам файл Google Colab, позволяющий превратить себя в мультяшку и пройти этот процесс по шагам, чтобы вы могли воссоздать его самостоятельно.
Несколько ключевых идей и концепций:
Это – проект сетевого осветления/перемены местами слоев (network blending/layer swapping) в StyleGAN, и авторы использовали предварительно обученные модели для передачи обучения (transfer learning). Точнее, они использовали две модели: базовую и созданную на ее основе полностью обученную модель. Чтобы получить такой результат, они меняли слои между двумя моделями. Слои высокого разрешения берутся из базовой модели, а слои низкого разрешения – из полностью обученной. Потом из исходного изображения, которое мы хотим превратить в мультик, выводится скрытый вектор (latent vector): он используется в качестве входа для модели сетевого осветления. Этот скрытый вектор очень похож на исходное изображение, а после его ввода в модель сетевого осветления на выходе создается мультяшное изображение.
Более подробно об этом можно прочитать здесь.
2. Lamphone (Лампофон)
Авторы: Бен Насси, Ярон Пирутин, Ади Шамир, Ювал Еловичи и Борис Задов.
Этот проект немного пугает: Lamphone позволяет наблюдателю восстановить речь и иную информацию, воссоздавая звук из записанных электро-оптическим сенсором вибраций электрической лампы.
Несколько ключевых идей/концепций:
Более подробно об этом можно прочитать здесь.
3. GANPaint Studio (Студия авторисования)
Авторы: Дэвид Бау, Хендрик Штробельт, Уильям Пиблс, Джонас Вульфф, Болей Жоу, Юн-Ян Жу, Антонио Торральба.
Именно этот проект особенно взволновал меня. Это – инструмент, позволяющий вам «растворить» объект изображения в выделенной части исходного изображения (вы также решаете, где будет подсветка). Мне всегда нравилась идея о том, что не умеющие рисовать люди все-таки смогут легко создавать новые изображения. Мне кажется, создание новых картин и изображений – истинно творческий процесс, и, возможно, в будущем машина сыграет роль помощника, который стимулирует множество людей попробовать свои способности в искусстве. В данном случае, хотя этот конкретный инструмент и не предназначен для создания предметов искусства, до появления таких инструментов осталось недолго.
Несколько ключевых идей/концепций:
Интересный факт об этом проекте: он синтезирует новый контент, соответствующий как намерениям пользователя, так и статистике исходного изображения. Конвейер по обработке изображений включает трехшаговый процесс: вычисление скрытого вектора исходного изображения, применение операции семантического векторного пространства в скрытом пространстве и, наконец, восстановление изображения из модифицированного на предыдущем шаге. Вот что написали авторы в исходном документе:
Взяв естественную фотографию на входе, мы сначала перерисовываем картинку, используя генератор изображений. Конкретнее, для точного восстановления входного изображения наш метод не только оптимизирует скрытое представление, но также адаптирует генератор. Затем пользователь манипулирует изображением с помощью интерактивного интерфейса: например, добавляя или удаляя определенные объекты, либо меняя их внешний вид. Наш метод обновляет скрытое представление в соответствии с каждым редактированием, и отрисовывает итоговый результат, исходя из измененного представления. Наши результаты выглядят реалистично и визуально похожи на исходную естественную фотографию.
Более подробно об этом можно прочитать здесь.
4. Jukebox (Музыкальный автомат)
Если кратко, этот проект использует нейронные сети для генерации музыки. Для заданных на входе жанра, музыканта и текста песни, Jukebox выдаст созданный образчик музыки.

Автоматическая генерация музыки – не такая уж новая технология. Предыдущие подходы включали символическую генерацию музыки. Однако те генераторы зачастую не могли уловить ключевые музыкальные элементы, вроде человеческих голосов, деталей тембра, динамики и выразительности. Прослушав несколько выложенных на странице «Jukebox Sample Explorer» музыкальных треков, можно убедиться — они еще не дошли до уровня, когда слушатель не сможет отличить оригинальный трек от сгенерированного. Однако я считаю несомненно волнующим наблюдать за тем, к чему могут привести проекты вроде этого, и какое влияние они окажут на нашу музыкальную индустрию в ближайшее время.
Несколько ключевых идей/концепций:
Авторы использовали двухшаговый процесс – первый шаг состоит из сжатия музыки в дискретные коды, а второй включает генерацию кодов с помощью трансформеров. У них есть очень красивые диаграммы, поясняющие этот процесс, которые я приведу здесь:


На шаге сжатия авторы используют модифицированную версию Векторного Квантованного Вариационного Автокодировщика (Vector Quantized-Variational AutoEncoder, VQ-VAE-2) и генеративную модель дискретного обучения представлениям. Согласно рисунку А, исходное аудио с частотой 44 кГц сжимается в 8, 32 и 128 раз с использованием кодовой таблицы размером 2048 на каждом уровне. Если пойти на сайт и попробовать нажать каждую пиктограмму, чтобы услышать звучание восстановленного изображения, правая пиктограмма выдаст максимальный уровень шума, поскольку она соответствует сжатию в 128 раз, и в аудио остались только самые значимые особенности (ритм, тембр и уровень громкости).
На шаге генерации, как упомянуто в документе по VQ-VAE и документе по VQ-VAE-2, используется мощный авторегрессионный декодер, но в алгоритме Jukebox и отдельные декодеры — входные коды на каждом уровне восстанавливаются независимо, чтобы максимизировать использование верхних. Эта фаза генерации (согласно официальному сайту) состоит в:
(обучении) предыдущих моделей, цель которых заключается в изучении распределения музыкальных кодов, закодированных VQ-VAE, и генерации музыки в этом сжатом дискретном пространстве. [. ] Предыдущие модели верхнего уровня моделируют долговременную структуру музыки, и сэмплы, декодированные на этом уровне, имеют худшее качество аудио, но улавливают высокоуровневую семантику вроде пения или музыки. Средняя и нижняя модели повышающей дискретизации добавляют локальные музыкальные структуры вроде тембра, существенно повышая качество аудио [. ] Когда все предыдущие модели обучены, мы можем генерировать коды, начиная с верхнего уровня и последовательно повышая дискретизацию с помощью соответствующих моделей. Можно декодировать эти коды обратно в пространство необработанной музыки с помощью VQ-VAE декодера, чтобы получить новые песни.
Более подробно прочитать об этом, а также попробовать демо можно здесь.
5. Engaging Image Captioning via Personality (Вовлекающее именование изображений с помощью личности)
Авторы: Курт Шустер, Самуэль Химео, Хексианг Ху, Антуан Борде, Джейсон Уэстон.
По традиции, задачи именования изображений лишены каких-либо эмоций и описывают только факты (например, метки вроде «Это кот» или «Мальчик играет в футбол с друзьями»). Авторы этого проекта пытаются внести в заголовки эмоции или личные оценки, чтобы сделать их более личными и привлекающими больше внимания. Цитируя их документ, «наша цель – быть настолько же вовлекающими, как живые люди, встраивая управляемый стиль и личные особенности».
Надеюсь, этот проект будет использован только для добрых целей – идея общающихся между собой как люди машинах или ботах меня немного пугает. Тем не менее, это достаточно интересный проект.
Несколько ключевых идей/концепций:

Цитата из документа авторов проекта:
Для представления изображений, мы использовали работу [32] (D. Mahajan, R. B. Girshick, V. Ramanathan, K. He, M. Paluri, Y. Li, A. Bharambe, and L. van der Maaten. Исследование пределов предварительного обучения со слабым привлечением учителя. CoRR, abs/1805.00932, 2018.), которая использует обученную на 3.5 миллиардах изображений из социальных сетей архитектуру ResNeXt. Для текста мы используем трансформерное представление предложений, [36] (P.-E. Mazare, S. Humeau, M. Raison, and A. Bordes. Обучение миллионов персонализированных диалоговых агентов. ArXiv e-prints, Sept. 2018.), обученное на 1.7 миллиардах примеров диалогов. Наша модель устанавливает новый стандарт генерации заголовков COCO, а наша архитектура TransResNet достигла рекордного рейтинга R@1 на наборе данных Flickr30k.
Более подробно об этом можно прочитать здесь.
Бонус. Я приведу ссылки еще на три интересных проекта:
Финальные заметки
Читая имеющие отношение к глубокому обучению документы, поневоле начинаешь беспокоиться, насколько легко технологии могут быть использованы во вред или причинить пагубные последствия всему современному обществу. Несмотря на то, что некоторые из них кажутся безвредными, промежуток между невинным игрушечным проектом и мощным инструментом манипуляции чрезвычайно узок. Я очень надеюсь, что появится какая-то концепция или система стандартов, чтобы мы получили контролируемых помощников, а не выпустили на волю монстра.



