Por qué Claude se llama Claude: Shannon, MiniVac y la raíz matemática de los LLM

Antonio

Claude es uno de los nombres más reconocibles de la nueva generación de asistentes de Inteligencia Artificial. Anthropic lo ha convertido en una marca asociada a modelos de lenguaje con una identidad muy cuidada: Haiku, Sonnet, Opus, y más recientemente familias como Fable o Mythos. Pero detrás del nombre principal hay una pregunta que aparece una y otra vez entre usuarios y desarrolladores: ¿por qué se llama Claude?

La explicación más extendida apunta a Claude Shannon, matemático, ingeniero y fundador de la teoría de la información. Anthropic no ha hecho de esta elección una gran campaña pública ni existe una explicación corporativa extensa y definitiva sobre el origen del nombre. Aun así, la atribución a Shannon es la que mejor encaja con la historia técnica de los modelos de lenguaje. También es la que han repetido comunidades, divulgadores e incluso perfiles académicos vinculados al MIT. Conviene formularlo con prudencia, pero la conexión es difícil de ignorar.

Shannon no inventó los LLM modernos. No diseñó los transformers, no entrenó redes neuronales profundas y no conoció los centros de datos actuales. Pero muchas de las ideas que permiten entender la Inteligencia Artificial generativa pasan por su trabajo: información, entropía, bits, canales, ruido, predicción y lenguaje como fenómeno estadístico.

Del relé al bit: la computación digital antes de la IA

La historia empieza antes de los modelos de lenguaje y antes incluso de los ordenadores electrónicos modernos. En 1937, Claude Shannon presentó en el MIT una tesis de máster que hoy se considera una de las piezas fundacionales de la computación digital. En A Symbolic Analysis of Relay and Switching Circuits, demostró que el álgebra de Boole podía aplicarse al diseño de circuitos eléctricos con relés.

La idea era de una claridad enorme: un circuito podía representar operaciones lógicas mediante interruptores abiertos o cerrados. Verdadero o falso. Uno o cero. Lo que hoy parece natural en cualquier procesador era entonces una forma nueva de pensar el diseño de sistemas eléctricos. Shannon no construyó él solo la electrónica digital, pero sí dio una base matemática que ayudó a convertir el diseño de circuitos en una disciplina formal.

Esa línea histórica importa porque los LLM no empiezan en el software. Empiezan en una cadena de abstracciones que va del interruptor al circuito lógico, del circuito al ordenador, del ordenador a la red, y de la red al entrenamiento masivo de modelos. Claude, como producto de IA, vive en la capa más alta de esa pila, pero su nombre probable remite a uno de los momentos en que esa pila empezó a tomar forma.

Después de su etapa inicial en el MIT, Shannon trabajó en Bell Labs, uno de los laboratorios más influyentes del siglo XX. Allí se desarrollaron tecnologías decisivas como el transistor, el láser, Unix, el lenguaje C y avances clave en telecomunicaciones. Shannon encajaba en aquel entorno de libertad intelectual y experimentación. Era capaz de publicar matemáticas fundamentales y, al mismo tiempo, construir máquinas que parecían juguetes: ratones mecánicos, dispositivos de ajedrez, mecanismos para hacer malabares o sistemas educativos de computación.

La teoría de la información y el lenguaje como probabilidad

En 1948, Shannon publicó A Mathematical Theory of Communication, el artículo que fundó la teoría de la información. Su objetivo no era explicar el significado de los mensajes, sino medir cuánta información transportan y cómo puede transmitirse de forma eficiente a través de un canal con ruido.

Ese enfoque cambió para siempre la tecnología. La compresión de datos, la corrección de errores, las telecomunicaciones, las redes digitales y buena parte de la informática moderna tienen deuda con aquel marco matemático. Shannon puso en el centro conceptos como entropía, incertidumbre y cantidad de información. También trabajó con unidades binarias cuando la base logarítmica era 2, lo que convirtió al bit en la unidad natural para medir información digital.

Para los modelos de lenguaje actuales, el vínculo aparece con especial fuerza en 1951, cuando Shannon publicó Prediction and Entropy of Printed English. En ese trabajo estudió la entropía del inglés escrito mediante experimentos de predicción de letras. La idea era sencilla: mostrar un fragmento de texto y pedir a una persona que adivinara cuál sería el siguiente carácter.

La comparación con los LLM debe hacerse con cuidado. Un modelo como Claude no se limita a adivinar letras. Predice tokens usando redes neuronales entrenadas con enormes volúmenes de texto, código, documentos y señales multimodales. Pero la intuición de Shannon sigue siendo reconocible: el lenguaje tiene regularidades, dependencias y estructura estadística. Dado un contexto, algunas continuaciones son mucho más probables que otras.

Ese puente entre Shannon y los LLM no es una anécdota. La Inteligencia Artificial generativa se apoya en una idea que habría resultado familiar al padre de la teoría de la información: reducir incertidumbre a partir de contexto. En 1951 se hacía con humanos prediciendo letras. Hoy se hace con arquitecturas de atención, entrenamiento distribuido y sistemas capaces de generar texto, código, análisis y razonamiento asistido.

MiniVac 601: cuando Shannon hizo visible la lógica digital

Shannon no fue solo un teórico de pizarra. En 1961 diseñó el MiniVac 601, un ordenador digital electromecánico educativo vendido por Scientific Development Corporation. Era un kit con relés, interruptores, luces, botones, cables y un dial motorizado. Su objetivo era enseñar lógica digital de forma tangible, en una época en la que la mayoría de las personas no podía acercarse a un ordenador real.

El MiniVac 601 no tenía CPU en el sentido moderno. Usaba relés eléctricos como elementos de conmutación y almacenamiento temporal. Contaba con una matriz de entrada y salida de seis bits, seis luces indicadoras, seis interruptores, seis pulsadores y un selector rotatorio de 16 posiciones que podía actuar como entrada numérica, salida o señal de reloj. Se programaba conectando cables manualmente en un panel.

A ojos actuales puede parecer primitivo, pero era una herramienta pedagógica muy poderosa. Permitía ver literalmente cómo se movía la información dentro de una máquina. Un relé cambiaba de estado, una luz se encendía, un cable modificaba la lógica del circuito. Algunos montajes permitían jugar al tres en raya o simular un sistema sencillo de control de ascensor.

El MiniVac resulta especialmente interesante en la era de la IA porque representa lo contrario de los modelos actuales. Los LLM son sistemas opacos, distribuidos, masivos y difíciles de inspeccionar a simple vista. El MiniVac era lento, mecánico y visible. Mostraba la computación en una escala humana. En ambos casos, sin embargo, aparece la misma obsesión: convertir símbolos, decisiones y reglas en procesos que una máquina pueda ejecutar.

Hay algo casi poético en esta continuidad. Claude, el asistente de IA, probablemente toma su nombre de un investigador que no solo formuló la teoría de la información, sino que también quiso que estudiantes y aficionados pudieran tocar la lógica digital con las manos. Del relé al token, la distancia tecnológica es enorme. La pregunta de fondo, no tanto: cómo representar información para que una máquina pueda operar con ella.

Haiku, Sonnet, Opus: nombres literarios para una arquitectura técnica

La elección de “Claude” encaja con otra decisión muy visible de Anthropic: su sistema de nombres. Frente a otros laboratorios que usan combinaciones de letras, números y versiones difíciles de recordar, Anthropic ha creado una familia con una lógica casi editorial. Haiku, Sonnet y Opus no son etiquetas técnicas, sino formas literarias.

Haiku sugiere brevedad, precisión y ligereza. En la familia Claude, se asocia a modelos más rápidos y eficientes. Sonnet remite al soneto, una estructura poética más elaborada, y suele representar el equilibrio entre capacidad, coste y velocidad. Opus evoca una obra mayor, una composición más ambiciosa, y queda reservado para modelos más potentes.

Esta coherencia ha llevado a algunas personas a pensar que Claude podría hacer referencia a Claude Debussy, el compositor francés. Es una confusión comprensible: Sonnet y Opus tienen resonancias artísticas, y Debussy encajaría en una lectura musical de la marca. Pero para un modelo de lenguaje desarrollado por una compañía de IA, Claude Shannon ofrece una explicación más sólida. La literatura de los modelos complementa, más que sustituye, la genealogía técnica del nombre principal.

En términos de producto, Anthropic ha logrado algo poco común: nombres que funcionan para usuarios no técnicos, pero que también tienen capas de lectura para quienes conocen la historia de la computación. Claude suena cercano. Shannon aporta profundidad. Haiku, Sonnet y Opus ordenan la familia sin recurrir a nomenclaturas frías. La marca parece diseñada para recordar que estos sistemas trabajan con lenguaje, pero nacen de matemáticas.

Por qué importa el nombre en la era de los modelos generativos

La pregunta por el nombre de Claude no es solo curiosidad para redes sociales. También sirve para explicar de dónde vienen los modelos de lenguaje. La IA generativa no apareció de repente con una interfaz conversacional. Es el resultado de décadas de investigación en computación, estadística, lingüística, redes neuronales, hardware y teoría de la información.

Shannon ayuda a contar esa historia porque conecta varias capas. Su tesis sobre circuitos conecta con la electrónica digital. Su teoría de la información conecta con redes, compresión y transmisión. Sus experimentos de predicción del inglés conectan con el lenguaje como sistema probabilístico. Su MiniVac conecta con la voluntad de hacer comprensible la computación.

Por eso el posible homenaje de Anthropic funciona tan bien. Claude no sería solo el nombre amable de un chatbot. Sería una referencia al científico que mostró que la información podía medirse y que el lenguaje tenía una estructura estadística susceptible de análisis. No inventó la IA generativa, pero dejó parte del mapa conceptual que permite entenderla.

La próxima vez que un usuario pregunte a Claude por una explicación, una línea de código o un resumen, quizá merezca la pena recordar que detrás de ese nombre hay una historia más antigua que Silicon Valley. Una historia de relés, bits, entropía, textos impresos y máquinas educativas con luces. La IA actual parece nueva porque su escala es nueva. Sus raíces, en cambio, llevan casi un siglo creciendo.

Preguntas frecuentes

¿Claude se llama así por Claude Shannon?

No hay una explicación oficial extensa de Anthropic que lo confirme de forma clara y publicitaria. La hipótesis más extendida es que Claude hace referencia a Claude Shannon, fundador de la teoría de la información, por la relación directa entre su trabajo y los modelos de lenguaje.

¿Qué aportó Claude Shannon a la computación?

Shannon demostró que el álgebra de Boole podía aplicarse al diseño de circuitos eléctricos con relés y después fundó la teoría de la información. Su trabajo fue decisivo para la electrónica digital, las telecomunicaciones y el análisis matemático de la comunicación.

¿Qué tiene que ver Shannon con los LLM?

Shannon estudió la entropía y la predicción del inglés escrito. En 1951 propuso experimentos para estimar la incertidumbre del lenguaje a partir de la predicción de la siguiente letra. Los LLM modernos trabajan a otra escala, pero también se basan en predecir continuaciones probables a partir de contexto.

¿Qué era el MiniVac 601?

El MiniVac 601 fue un ordenador digital electromecánico educativo diseñado por Claude Shannon y vendido desde 1961. Usaba relés, luces, interruptores, botones y cables para enseñar lógica digital y principios básicos de computación.