¿Quién inventó las redes neuronales convolucionales (CNN)? 1969: Fukushima tenía ReLUs relevantes para CNN [2]. 1979: Fukushima tenía la arquitectura básica de CNN con capas de convolución y capas de submuestreo [1]. El costo de computación era 100 veces más caro que en 1989, y mil millones de veces más caro que hoy. 1987: Waibel aplicó la retropropagación de Linnainmaa de 1970 [3] a TDNNs con compartición de pesos y convoluciones unidimensionales [4]. 1988: Wei Zhang et al. aplicaron CNNs bidimensionales entrenadas con retropropagación "modernas" al reconocimiento de caracteres [5]. Todo lo anterior fue publicado en Japón entre 1979 y 1988. 1989: LeCun et al. aplicaron CNNs nuevamente al reconocimiento de caracteres (códigos postales) [6,10]. 1990-93: El submuestreo de Fukushima basado en promedios espaciales [1] fue reemplazado por max-pooling para TDNNs unidimensionales (Yamaguchi et al.) [7] y CNNs bidimensionales (Weng et al.) [8]. 2011: Mucho más tarde, mi equipo con Dan Ciresan hizo que los CNNs con max-pooling fueran realmente rápidos en GPUs de NVIDIA. En 2011, DanNet logró el primer resultado de reconocimiento de patrones sobrehumano [9]. Durante un tiempo, disfrutó de un monopolio: desde mayo de 2011 hasta septiembre de 2012, DanNet ganó todos los desafíos de reconocimiento de imágenes en los que participó, 4 de ellos consecutivos. Sin embargo, es cierto que esto se debió principalmente a la ingeniería y a escalar las ideas básicas del milenio anterior, beneficiándose de hardware mucho más rápido. Algunos "expertos en IA" afirman que "hacer que las CNN funcionen" (por ejemplo, [5,6,9]) fue tan importante como inventarlas. Pero "hacer que funcionen" dependía en gran medida de si tu laboratorio era lo suficientemente rico como para comprar las computadoras más recientes necesarias para escalar el trabajo original. Es lo mismo que hoy. Investigación básica vs ingeniería/desarrollo - la R vs la D en I+D. REFERENCIAS [1] K. Fukushima (1979). Modelo de red neuronal para un mecanismo de reconocimiento de patrones no afectado por el desplazamiento en la posición — Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979. [2] K. Fukushima (1969). Extracción de características visuales mediante una red multicapa de elementos umbral analógicos. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Este trabajo introdujo unidades lineales rectificadas (ReLUs), ahora utilizadas en muchas CNNs. [3] S. Linnainmaa (1970). Tesis de maestría, Univ. Helsinki, 1970. La primera publicación sobre "retropropagación moderna", también conocida como el modo inverso de diferenciación automática. (Ver la conocida visión general de retropropagación de Schmidhuber: "¿Quién inventó la retropropagación?") [4] A. Waibel. Reconocimiento de fonemas utilizando redes neuronales de retardo temporal. Reunión de IEICE, Tokio, Japón, 1987. Retropropagación para un TDNN con compartición de pesos y convoluciones unidimensionales. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Red neuronal de reconocimiento de patrones invariante al desplazamiento y su arquitectura óptica. Proc. Conferencia Anual de la Sociedad Japonesa de Física Aplicada, 1988. Primer CNN bidimensional entrenado con retropropagación, con aplicaciones al reconocimiento de caracteres en inglés. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Retropropagación aplicada al reconocimiento de códigos postales manuscritos, Neural Computation, 1(4):541-551, 1989. Ver también la Sección 3 de [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Una red neuronal para el reconocimiento de palabras aisladas independientes del hablante. Primera Conferencia Internacional sobre Procesamiento del Lenguaje Hablado (ICSLP 90), Kobe, Japón, Nov 1990. Un TDNN unidimensional convolucional utilizando Max-Pooling en lugar del Promedio Espacial de Fukushima [1]. [8] Weng, J., Ahuja, N., y Huang, T. S. (1993). Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D. Proc. 4ta Conferencia Internacional de Visión por Computadora, Berlín, pp. 121-128. Un CNN bidimensional cuyas capas de submuestreo utilizan Max-Pooling (que se ha vuelto muy popular) en lugar del Promedio Espacial de Fukushima [1]. [9] En 2011, el CNN rápido y profundo basado en GPU llamado DanNet (7+ capas) logró el primer rendimiento sobrehumano en un concurso de visión por computadora. Ver resumen: "2011: DanNet desencadena la revolución de los CNN profundos." [10] Cómo 3 ganadores del premio Turing republicaron métodos e ideas clave cuyos creadores no lograron acreditar. Informe Técnico IDSIA-23-23, Laboratorio de IA Suizo IDSIA, 14 de diciembre de 2023. Ver también el video de YouTube para la Ceremonia del Premio Bower 2021: J. Schmidhuber elogia a Kunihiko Fukushima.
346.76K