Toshiba работает над созданием так называемой нейронной сети во временной области (Time Domain Neural Network, TDNN) для Интернета вещей (IoT) и Big Data. Особенностью TDNN является использование нового нейроморфного процессора, который отличается сверхнизкой потребляемой мощностью и при этом обеспечивает потребности глубинного обучения. В настоящее время для решения этих задач используются высокопроизводительные процессоры, потребляющие много энергии. Но в IoT такой подход неприемлем.

Дело в том, что сеть TDNN состоит из огромного количества обрабатывающих цепей, в которых используется не цифровая обработка, как в современных процессорах, а смешанная аналогово-цифровая обработка TDAMS. Для того, чтобы эти алгоритмы работали в IoT, различных датчиках и смартфонах, нужны энергоэффективные микросхемы, которые могут выполнять большое число операций, потребляя при этом крайне мало энергии. Как заявила Toshiba, ей удалось создать такое решение.

Арифметические операции в ее процессоре, например, сложение, выполняются с задержкой цифрового сигнала, а для реализации обрабатывающего элемента достаточно всего трех логических вентилей и одного бита памяти. Изготовленный прототип, в котором используются ячейки SRAM, показал также успешное распознавание рукописных знаков. Расход энергии на одну операцию составил 20,6 фемтоджоулей, что эквивалентно 46 триллионам операций в секунду с 1 Вт потребляемой мощности.

Тем не менее, дальнейшее наращивание производительности уже в очень скором будущем станет невозможным — Toshiba упрется в тупик, для выхода из которого потребуется использовать память другого типа. Исходя из этого, компания принялась экспериментировать с ReRAM-памятью, что, по её мнению, позволит добиться ещё большей энергоэффективности. Конечной целью является разработка микросхемы, которая позволит добавить технологии глубинного обучения в компактные мобильные устройства.

Toshiba — не единственный разработчик нейроморфных чипов, которые — пока теоретически — готовы к работе с искусственными нейросетями. В 2014 г. IBM Research представила чип TrueNorth из миллиона цифровых нейронов и 256 миллионов синапсов, которые входят в состав 4096 синапсных ядер. Над этой разработкой шесть лет трудились по заказу DARPA. Этот труд принёс результаты: если в 2011 г. прототип состоял всего из 256 нейронов, то уже через три года он насчитывал миллион нейронов. На демонстрации возможностей чип распознавал на видео автомобили, велосипедистов и пешеходов. Обычный ноутбук справился с этой задачей, обработав кадры в 100 раз медленнее и потребляя в 1000 раз больше энергии, чем микросхема IBM.

C 2016 г. чипы тестируются в Ливерморской национальной лаборатории. Исследователи пытаются выяснить, в какой области они окажутся наиболее эффективными.

Qualcomm ведет разработку нейроморфного процессора, который получил название Neural Processing Units (NPU). Принципы работы NPU подражают принципам работы головного мозга. Компания заявляла, что новые микросхемы отличаются от существующих принципами программирования. Нейронные процессоры способны самообучаться на определённых примерах, как живые существа, и могут быть «запрограммированы без программного обеспечения». По заявлению Qualcomm подобные системы способны решать задачи, с которыми не очень хорошо справляются существующие процессоры. Разработки компании нацелены не только на новое поколение смартфонов и планшетов, но также на сферу медицины, автомобилестроения и так далее. К примеру, оборудованные подобными вычислительными системами беспилотные автомобили будут способны распознавать препятствия не через жёстко запрограммированные алгоритмы, а благодаря процессу самообучения на реальных примерах. Qualcomm рассчитывает, что NPU потребуется при создании систем искусственного зрения.

В июне этого года свою версию нейроморфного чипа представила KnuEdge. Чип KnuPath предназначен для работы в системах распознавания речи и прочих отраслях машинного обучения. Процессор построен в соответствии с принципами архитектуры LambdaFabric и предназначен для работы в дата-центрах. Архитектура LambdaFabric позволяет создавать вычислительные системы, включающие в свой состав до 512 тыс. процессоров. При этом время задержки передачи данных от одной стойки к другой составляет порядка 400 нс, что вполне сопоставимо или выше быстродействия самых современных магистральных шин, используемых в суперкомпьютерах.