Un chercheur de l’Université Tsinghua a récemment rapporté leurs découvertes sur la conception de puces de vision (DOI:10.1038/s41586-023-06558-8).
Les chercheurs ont proposé une puce entièrement analogique appelée puce entièrement analogique combinant informatique électronique et lumineuse (ACCEL) qui combine l’électronique et l’informatique lumineuse pour des tâches de vision à haute vitesse. L’ACCEL fusionne l’informatique optique analogique diffractive (OAC) et l’informatique analogique électronique (EAC) en une seule puce pour atteindre une vitesse de calcul de 4,6 péta-opérations par seconde, ce qui est plus d’un ordre de grandeur supérieur aux processeurs de calcul de pointe. La puce utilise l’informatique optique diffractive pour l’extraction de caractéristiques et utilise directement les photocourants induits par la lumière pour d’autres calculs, éliminant ainsi le besoin de convertisseurs analogique-numérique et atteignant une faible latence de calcul de 72 ns par image. L’ACCEL démontre des précisions de classification concurrentielles pour diverses tâches et montre une robustesse systémique supérieure dans des conditions de faible luminosité. Les applications potentielles de l’ACCEL incluent les appareils portables, la conduite autonome et les inspections industrielles. La puce ACCEL a une efficacité énergétique systémique de 74,8 péta-opérations par seconde par watt et atteint une vitesse de calcul de 4,6 péta-opérations par seconde, qui est trois et un ordre de grandeur supérieur aux puces de calcul de pointe, respectivement. La puce combine les avantages de l’informatique photonique et électronique, ce qui se traduit par des tâches de vision à haute vitesse et à faible consommation d’énergie. Elle permet un traitement direct de la lumière incohérente ou partiellement cohérente, réduisant la consommation d’énergie et améliorant la vitesse de traitement sans besoin de capteurs ou de sources lumineuses supplémentaires. L’ACCEL démontre une reconnaissance à haute vitesse avec une précision de classification expérimentale de 85% sur 100 échantillons de test pour des tâches de jugement vidéo. ACCEL atteint des précisions de classification concurrentielles de 85,5%, 82,0% et 92,6% pour Fashion-MNIST, classification ImageNet à 3 classes et tâches de reconnaissance vidéo en accéléré, respectivement. Il montre également d’excellentes performances dans des conditions de faible luminosité, préservant mieux les caractéristiques que les réseaux neuronaux numériques (NN) lorsque l’intensité lumineuse est réduite. La reconfigurabilité partielle de la puce permet des performances comparables sur différentes tâches même avec un module de calcul optique diffractif fixe, démontrant sa flexibilité et son adaptabilité. L’ACCEL a des applications pratiques larges dans les appareils portables, la robotique, la conduite autonome, les inspections industrielles et le diagnostic médical.
Il existe des défis dans les tâches de vision qui nécessitent de convertir des signaux optiques en signaux numériques pour le post-traitement. Ce processus de conversion implique l’utilisation de photodiodes à grande échelle et de convertisseurs analogique-numérique (CAN) gourmands en énergie. La mise en œuvre d’une non-linéarité optique précise et d’une mémoire peut également ajouter une latence et augmenter la consommation d’énergie au niveau du système. Pour relever ces défis, les chercheurs proposent une architecture hybride optoélectronique qui réduit le besoin de CAN massifs, permettant des tâches de vision à haute vitesse et à faible consommation d’énergie sans compromettre les performances des tâches. Cette architecture utilise une approche entièrement analogique et encode l’information dans des champs lumineux en éclairant les cibles soit avec de la lumière cohérente, soit avec de la lumière incohérente. Le composant clé de cette architecture est le module ACCEL (all-analog Convolutional Event-driven Learning), qui est placé sur le plan d’image d’un système d’imagerie commun pour un traitement et une classification d’image directs. Le module ACCEL se compose de deux parties : le module de calcul analogique optique (OAC) et le module de calcul analogique électronique (EAC). Le module OAC est un module de calcul optique diffractif multicouche qui fonctionne à la vitesse de la lumière. Il extrait des caractéristiques d’images haute résolution à l’aide de masques de phase formés pour traiter les données encodées dans les champs lumineux par le biais d’opérations de produit de points et de diffraction de la lumière. Cela permet une réduction de dimension des données sans nécessiter de conversion optoélectronique. Les caractéristiques extraites encodées dans les champs lumineux provenant du module OAC sont ensuite connectées au module EAC. Le module EAC se compose d’un réseau de photodiodes, qui convertit les signaux optiques en signaux électroniques analogiques basés sur l’effet photoélectrique. Chaque photodiode est connectée soit à la ligne positive, soit à la ligne négative en fonction des poids stockés dans la mémoire à accès aléatoire statique (SRAM). Les photocourants générés sont additionnés sur les deux lignes, et un soustracteur analogique calcule la tension différentielle en sortie. Le module EAC agit comme une fonction d’activation non linéaire et est équivalent à un réseau neuronal entièrement connecté à poids binaires (NN). La sortie du module EAC peut être directement utilisée en tant qu’étiquettes prédites pour la classification ou en tant qu’entrées pour un autre NN numérique. Pour toutes les calculs analogiques, le nombre d’impulsions de sortie (Ntt) correspond au nombre de nœuds de sortie dans le NN binaire, qui peuvent être réglés en fonction des catégories de classification souhaitées. Le module ACCEL, avec un seul cœur EAC, fonctionne séquentiellement en émettant plusieurs impulsions correspondant aux nœuds de sortie Ntt du NN binaire dans le module EAC. Toutes ces fonctions peuvent être intégrées sur une seule puce de manière entièrement analogique, ce qui la rend adaptée à diverses applications et compatible avec les NN numériques existants pour des tâches plus complexes.
Ils ont introduit un encodeur optique et décrit comment les poids dans les masques de phase peuvent être formés à l’aide de propagations de faisceaux numériques basées sur la théorie de la diffraction de Rayleigh-Sommerfeld. Ils utilisent un réseau neuronal numérique à trois couches pour reconstruire des images du jeu de données MNIST avec seulement 2% d’échantillonnage, démontrant la capacité de compression des données de l’encodeur optique. De plus, ils montrent que lorsque la sortie de l’encodeur optique est utilisée en conjonction avec un réseau neuronal numérique pour la classification, la même précision peut être atteinte avec des échantillonnages significativement réduits. Cela signifie que le nombre de convertisseurs analogique-numérique (CAN) peut être réduit de 98% sans compromettre la précision. Cependant, ils notent que des tâches plus complexes ou des connexions à des réseaux plus simples peuvent réduire le taux de compression et nécessiter un espace de caractéristiques de dimension supérieure.
Ils ont également introduit l’architecture de l’ordinateur analogique électronique (EAC) qu’ils ont utilisé, qui se compose de circuits de pixels 32x32. Ces circuits forment une matrice de calcul de taille 1,024xNoutput, où Noutput représente le nombre de nœuds de sortie. Dans leur puce fabriquée, Noutput a une valeur maximale de 16. Chaque circuit de pixel comprend une photodiode qui génère un photocourant (Iph,i) utilisé pour le calcul analogique. Il contient également trois interrupteurs et une macro de mémoire à accès aléatoire statique (SRAM) pour stocker les poids du réseau binaire (wij). La cathode de la photodiode est connectée soit à la ligne de calcul positive (V+), soit à la ligne de calcul négative (V-) pour chaque nœud de sortie, en fonction de la valeur du poids. Le contrôleur sur puce écrit les poids formés dans la macro SRAM avant d’effectuer l’inférence. Pendant le fonctionnement, les photocourants accumulés, avec leurs poids correspondants, déchargent les lignes de calcul. Cela entraîne une chute de tension, qui est utilisée pour un traitement ultérieur dans l’EAC.
Ils ont rapporté les précisions de classification atteintes par l’ACCEL dans diverses tâches. Les simulations numériques ont démontré des précisions de classification concurrentielles pour différents ensembles de données, dont MNIST à 10 classes, Fashion-MNIST à 10 classes et ImageNet à 3 classes. L’ACCEL a surpassé à la fois les méthodes EAC seulement et OAC seulement en termes de précision de classification, démontrant sa performance supérieure dans les tâches de vision. Des réseaux neuronaux numériques (NN) optionnels de petite taille peuvent être connectés à l’ACCEL pour des tâches plus complexes ou des applications en accéléré à faible coût. Ils ont également rapporté la faible latence de calcul et la robustesse de l’ACCEL dans des conditions de faible luminosité. Après avoir appliqué l’informatique optique diffractive en tant qu’encodeur optique pour l’extraction de caractéristiques, les photocourants induits par la lumière sont directement utilisés pour un calcul ultérieur dans la puce de calcul analogique intégrée, éliminant le besoin de convertisseurs analogique-numérique. L’ACCEL atteint une faible latence de calcul de 72 ns pour chaque image et a démontré une précision concurrentielle même dans des conditions de faible luminosité. Cela démontre le potentiel de l’ACCEL dans des applications telles que les appareils portables, la conduite autonome et les inspections industrielles. Ils ont présenté des mesures expérimentales des performances de l’ACCEL en termes d’efficacité énergétique et de vitesse de calcul. L’ACCEL atteint une vitesse de calcul systémique de 4,55 × 10^3 TOPS (tera-opérations par seconde) et une efficacité énergétique de 7,48 × 10^4 TOPS W−1 (opérations en point flottant par seconde par watt), qui sont plusieurs ordres de grandeur supérieurs aux méthodes de pointe. La consommation d’énergie systémique moyenne mesurée de l’ACCEL pour la classification de l’ImageNet à 3 classes est de 4,4 nJ, et l’efficacité énergétique systémique expérimentale est calculée à 7,48 × 10^4 TOPS W−1. Ces résultats mettent en évidence l’efficacité énergétique et la scalabilité de l’ACCEL, le rendant approprié pour diverses tâches de vision intelligente.