Un traitement - Groupe de compteurs d'argent de Nantong

Rapports scientifiques volume 12, Numéro d'article : 14396 (2022) Citer cet article

3220 Accès

4 citations

5 Altmétrique

Détails des métriques

La demande de traiter de grandes quantités de données générées par des caméras haute résolution de pointe a motivé de nouvelles solutions d'IA intégrées aux appareils économes en énergie. Les données visuelles de ces caméras sont généralement capturées sous forme de tensions analogiques par un réseau de pixels de capteur, puis converties dans le domaine numérique pour un traitement ultérieur de l'IA à l'aide de convertisseurs analogique-numérique (ADC). Des recherches récentes ont tenté de tirer parti de l'informatique analogique/numérique massivement parallèle à faible consommation sous la forme d'un traitement proche et intégré au capteur, dans lequel le calcul de l'IA est effectué en partie à la périphérie du réseau de pixels et en partie dans un environnement séparé. -CPU/accélérateur de carte. Malheureusement, les images d'entrée haute résolution doivent toujours être diffusées entre la caméra et l'unité de traitement IA, image par image, ce qui entraîne des goulots d'étranglement en termes d'énergie, de bande passante et de sécurité. Pour atténuer ce problème, nous proposons un nouveau paradigme de traitement en pixel en mémoire (P2M), qui personnalise le réseau de pixels en ajoutant la prise en charge de la convolution analogique multicanal, multi-bits, de la normalisation par lots et des unités linéaires rectifiées ( ReLU). Notre solution comprend une approche holistique de co-conception algorithme-circuit et le paradigme P2M qui en résulte peut être utilisé en remplacement immédiat pour l'intégration des premières couches gourmandes en mémoire de modèles de réseaux neuronaux convolutifs (CNN) dans des plates-formes de capteurs d'images CMOS pouvant être fabriquées en fonderie. . Nos résultats expérimentaux indiquent que le P2M réduit la bande passante de transfert de données des capteurs et les conversions analogique-numérique de \({\sim }\,21\times\), ainsi que le produit de retard d'énergie (EDP) encouru lors du traitement d'un modèle MobileNetV2 sur un TinyML. cas d'utilisation de l'ensemble de données de mots de réveil visuels (VWW) jusqu'à \(\mathord {\sim }\,11\times\) par rapport aux implémentations standard de quasi-traitement ou dans le capteur, sans aucune baisse significative de la précision des tests.

Les applications répandues aujourd'hui de la vision par ordinateur, couvrant la surveillance1, la gestion des catastrophes2, les pièges photographiques pour la surveillance de la faune sauvage3, la conduite autonome, les smartphones, etc., sont alimentées par les avancées technologiques remarquables des plates-formes de détection d'images4 et le domaine en constante amélioration des algorithmes d'apprentissage profond5. Cependant, les implémentations matérielles des plates-formes de détection et de traitement de la vision ont traditionnellement été physiquement séparées. Par exemple, les plates-formes actuelles de capteurs de vision basées sur la technologie CMOS agissent comme des entités de transduction qui convertissent les intensités de la lumière incidente en valeurs de pixels numérisées, via un réseau bidimensionnel de photodiodes6. Les données de vision générées par ces capteurs d'image CMOS (CIS) sont souvent traitées ailleurs dans un environnement cloud composé de CPU et de GPU7. Cette ségrégation physique entraîne des goulots d'étranglement en termes de débit, de bande passante et d'efficacité énergétique pour les applications qui nécessitent le transfert de grandes quantités de données du capteur d'image vers le processeur principal, telles que la détection et le suivi d'objets à partir d'images/vidéos haute résolution.

Pour résoudre ces goulots d'étranglement, de nombreux chercheurs tentent de rapprocher le traitement intelligent des données de la source des données de vision, c'est-à-dire plus près du CIS, en adoptant l'une des trois grandes approches suivantes : le traitement à proximité du capteur8,9, le traitement dans le capteur10 et traitement in-pixel11,12,13. Le traitement proche du capteur vise à intégrer une puce accélératrice d’apprentissage automatique dédiée sur la même carte de circuit imprimé8, ou même empilée en 3D avec la puce CIS9. Bien que cela permette de traiter les données CIS plus près du capteur plutôt que dans le cloud, cela souffre néanmoins des coûts de transfert de données entre le CIS et la puce de traitement. D'autre part, les solutions de traitement intégrées au capteur10 intègrent des circuits numériques ou analogiques à la périphérie de la puce du capteur CIS, réduisant ainsi le transfert de données entre le capteur CIS et les puces de traitement. Néanmoins, ces approches nécessitent encore souvent que les données soient transmises (ou lues en parallèle) via un bus depuis les réseaux de photodiodes CIS vers les circuits de traitement périphériques10. En revanche, les solutions de traitement in-pixel, telles que 11,12,13,14,15, visent à intégrer des capacités de traitement au sein des pixels individuels du CIS. Les efforts initiaux se sont concentrés sur l'opération de convolution analogique dans le pixel14,15, mais beaucoup11,14,15,16 nécessitent l'utilisation de mémoires non volatiles émergentes ou de matériaux 2D. Malheureusement, ces technologies ne sont pas encore matures et ne se prêtent donc pas aux fonderies-fabrications existantes de CIS. De plus, ces travaux ne prennent pas en charge les opérations de convolution multibits et multicanaux, la normalisation par lots (BN) et les unités linéaires rectifiées (ReLU) nécessaires à la plupart des applications pratiques d'apprentissage en profondeur. En outre, les travaux ciblant le matériel numérique intégré au pixel basé sur CMOS, organisés en matrices de processeurs SIMD (Single Instruction Multiple Data) parallèles aux pixels12, ne prennent pas en charge l'opération de convolution et sont donc limités aux charges de travail de jouets, telles que la reconnaissance de chiffres. Beaucoup de ces travaux reposent sur un traitement numérique qui produit généralement des niveaux de parallélisme inférieurs à ceux de leurs alternatives analogiques au pixel près. En revanche, le travail de l’article 13 exploite le calcul analogique parallèle intra-pixel, dans lequel les poids d’un réseau neuronal sont représentés par le temps d’exposition de pixels individuels. Leur approche nécessite que des poids soient disponibles pour manipuler le temps d'exposition des pixels via des impulsions de contrôle, ce qui entraîne un goulot d'étranglement dans le transfert de données entre les mémoires de poids et le réseau de capteurs. Ainsi, une solution de traitement CIS in situ où les poids et les activations d'entrée sont disponibles dans des pixels individuels et qui implémente efficacement des opérations critiques d'apprentissage en profondeur telles que les opérations de convolution multi-bits, multicanaux, BN et ReLU est restée insaisissable. De plus, toutes les solutions informatiques in-pixel existantes ciblent des ensembles de données qui ne représentent pas des applications réalistes de l’intelligence artificielle mappées sur des CIS de pointe. Plus précisément, la plupart des travaux existants se concentrent sur des ensembles de données simplistes comme MNIST12, tandis que quelques-uns13 utilisent l'ensemble de données CIFAR-10 qui contient des images d'entrée avec une résolution significativement basse (\(32\times 32\)), qui ne représente pas les images capturées par CIS haute résolution de pointe.