Tengo tropecientas entradas por poner y desarrollar, y además aún tengo que perfeccionar las entradas anteriores, entre otras cosas, incorporando etiquetas. Además, Blogger, al cambiar su tecnología, ha conseguido hacer que muchas cosas que tenía previstas no funcionen como esperaba (los encabezados principal y subencabezados, hasta la fecha, se visualizan igual en el diseño final, lo que provoca que se vea mejor el documento en edición - y eso es un fallo del sistema). Y, al mismo tiempo, si escribo este blog es más por motivos de poner en orden estos documentos, que no tengo porqué ocultar, al mismo tiempo que hago algo muy natural en el ser humano civilizado (social) que es compartir conocimientos - que siempre ayuda a mi propia psicología. Y no hay que olvidar que mi apatía, quizá debido a algún clase de pozo de dopamina en el que me encuentro por culpa de todo ese estrés absurdo que requiere compensación..., pues parece que no tiene fin. Igual que tampoco sé si es o no conveniente esta parrafada para determinar si eliminarla o no en futuras fechas..., con eso de que pretendo darle vida a este blog.
Hay que decir algo evidente, una persona que dedicó y dedica tantos años de su vida a la computación, y que ha hecho sus pinitos en el mundo del arte no puede dárselas de dar lecciones a los filólogos. Eso es algo que para mí es evidente. Y, sin embargo, heme aquí: exponiendo teorías diferentes que hablan de cómo podrían estructurarse los relatos - como si tuviera algo que compartir. Y, la verdad, creo que tengo mucho qué decir, independientemente de que aún deba ser sancionado en, ¡vete tú a saber!, según qué aspectos.
Intento aprender de los mejores, leer y aprender, esas son mis directrices. Y, poco a poco, comprender lo aprendido para asimilarlo dentro de mi marco en general. Y es que, efectivamente, hoy toca hablar del marco - esa tecnología de referencia de la que partimos para poder constituir nuestras fórmulas. Tanto en las máquinas como en los humanos, a partir de un marco definimos nuestro modelo; por lo que el marco debe ser neutro en nuestra cátedra y debe definir, al mismo tiempo, qué no es contingente - que es necesariamente válido debido a su obviedad.
El marco
Si partimos de la lógica de Kripke, el marco es el álgebra a partir de la cual definimos el modelo. El marco abarca en base a elegir axiomas qué se entiende por necesario y qué por contingente, qué relaciones habrá entre dos cosas necesarias o qué significa que un mundo sea posible... Como no es posible escoger todos los axiomas para definir el marco, resulta que hay que valerse de un conjunto coherente, para luego especializar cada rama: mundos específicos que se relacionan entre sí en un cierto ámbito, y otros mundos que tienen su otra manera de definir la necesidad, junto con modelos independientes...
De esta manera podemos entender la aparición de la deóntica: es una manera de configurar la palabra necesidad (obligación) y contingencia (permiso) con su propia axiomática, para así consituir los modelos más relevantes que puedan representar la mejor de las moralidades que se encuentren, ya que ésta, lo más probable, será la que encaje más con el derecho natural que elegimos y se nos confiere.
Nótese, por tanto, que el marco de la deóntica es el que establece qué se entiende por un monstruo, y ningún modelo (cultura) podrá justificar actos que no caben en nuestros esquemas.
Digamos que la filosofía estableció una manera de hacer distinciones entre las experiencias. Aunque se quedó en las puertas, porque entendido cómo se hacen las cosas tampoco parece que desarrollaran teoremas fundamentales de la ética, o cosas por el estilo.
La tokenización
Igual que existe el marco en la lógica modal, que va a definir cómo se relacionan los mundos lógicos según cada circunstancia, o igual que podemos decir que mi marco aquí es la tecnología blogger, que no me permite trabajar en toda mi amplitud - porque las mejoras no son diseñadas por los usuarios, sino por un imbécil que trabaja de informático y que, sin hacer entrevistas, piensa por sus usuarios y ofrece servicios absurdos además de eliminar cosas que sí son importantes - también hay que encontrar el marco a partir del cual trabajan los llms, las máquinas.
Inicialmente recordaremos qué es un llm: tan solo es un modelo enorme de lenguaje, enorme porque trabaja con un corpus gigantesco que le permite definir su modelo. Sin embargo, gracias a la analogía de la lógica modal, si el modelo se define por su corpus, ¿cuál es el marco?
Los llms pueden ser diseñados de muchas maneras: si se definen como una mezcla de expertos (MoE) entonces las entradas pasarán por los distintos grupos de modelos según la decisión de un enrutador y unos pocos confrontarán sus decisiones debido a su relevancia. Ciertamente, cada grupo de modelos podría tener su propia estructura interna..., podrían tener su propio marco, incluso algún modelo podría dedicarse a limitar éticamente cualquier acto creativo del resto para convertirse en el marco efectivo del otro. Cosa bastante justificada, aunque el profano crea que no.
Ahora bien, si queremos tener un buen marco eso se encontrará en la propia tokenización. La tokenización consiste en convertir los significantes en la unidad más fundamental con la que trabajamos los informáticos: los naturales. Aunque hay que decir que para un informático un natural es demasiado restrictivo: un token es un símbolo que se contabiliza como un natural más, pero sin la restricción de la relación de orden, operaciones de grupo, etc...
Filosofías para la tokenización
Existen varias maneras de tokenizar y, debido a la importancia capital del asunto, los propios llms no dispondrán en su corpus supermegagigante información al respecto: la tokenización es tan importante que en un mundo neoliberal las grandes corporaciones no querrán compartir sus recetas maestras. Todo lo más cercano que harán será dar pistas y consejos sobre cómo tokenizar, para así conseguir hacer que el ensayo tenga apariencia científica, open, etc...
Es por ello que el valor de los informáticos sigue siendo vital, como así lo sigue siendo el de los filólogos: Los llms se vuelven expertos traduciendo textos mejor que lo que haría la mayoría de los expertos, pero aún quedan esquinas que no han sido tocadas y reflexiones que no se sobreentienden. Si la mayoría de los traductores hacían un trabajo trivial cabe esperar que muchos pierdan su trabajo, pero gracias a los llms tendremos la oportunidad de ver brillar mejor el valor de una buena traducción. Pues bien, los informáticos tenemos esa analogía exacta con los traductores ya que, ciertamente, solemos usar la palabra traductor como sinónimo de programador.
El trabajo manual de un programador aparecerá en aquellos aspectos que no se han terminado de socializar debido a que las fórmulas corporativistas considerarían que es un secreto tecnológico. Ahora bien, volvamos a la geocrematomaquia: ¿es posible que la búsqueda de la riqueza y el individualismo corporativo opere contra nuestros intereses sociales?
Pues bien, aquí os doy unos enfoques sobre cómo tokenizar:
- Diccionario. Enfoque clásico basado en las reglas de tres.
- Estructura. Enfoque estructural basado en la gramática.
- Significado. Enfoque basado en el significado. Ya sea la definición, o alguno más ontológico.
- Escala. Enfoque basado en el metasignificado. Escala del modelo evaluando textos.
Ahora pasaré a explicar cada enfoque, y poco a poco se entenderá porqué es relevante dentro de este blog:
Diccionario
El enfoque de diccionario consiste en conseguir que la enumeración de cada palabra consiga crear un espacio vectorial donde podamos hacer la operación rey - hombre + mujer = reina. Esta problemática es la base del éxito de los llms y de dónde se extraen sus razonamientos. Hay muchas máquinas que calculan y operan de distintas maneras, pero la generación de texto fundamenta su cercanía por cómo están de cerca tales vectores que han sido reubicados para cumplir esa clase de operaciones. Ahora bien, lo más importante de esta manera de vectorizar es que depende del conocimiento del lenguaje: exige un buen diccionario del idioma que se quiere convertir a tókenes. Como es lógico, si el diccionario incorpora todos los idiomas la tokenización se puede hacer con todos los idiomas, por suerte para todos esos modelos ya existen y están en abierto.
Aún así, la empresa Google de vez en cuando nos mete un producto exclusivamente para los de habla inglesa..., lo que quiere decir que tiene sus propios modelos, que no comparte. Es cuestión de pensarlo, ¿acaso yo desde mi portátil puedo competir contra Google? La tokenización es importante, pero no tiene sentido emparanoiarse.
Estructura
El enfoque de la estructura es lo que aporto yo, por ejemplo, con mi obturador. Consiste en darle al transformer (la máquina que dará valor a todo ese corpus gigantesco) las pistas que necesita para saber qué estructura tiene la gramática que va a analizar. La gran ventaja de estos mecanismos es que esta cocina previa no necesitan conocer el idioma: se puede hacer con un idioma completamente desconocido. Esto es debido a que es un estudio de las frecuencias de apariciones y las secuencias, como por ejemplo también hace el algoritmo TF-IDF, que nos dice qué palabras son más importantes en un texto sin tener que entender lo que dice el texto. Esta técnica es lo que nos ha llevado por el camino de la amargura a los informáticos con respecto a los influencers porque era el mecanismo base a partir del cual se censuraban vídeos al usar palabras tabú. Es decir, sin entender nada de lo que dice el texto el algoritmo emite una especie de juicio o pistas que podría condicionar mucho al transformer.
Significado
El enfoque del significado consiste en crearse previamente una idea de significado. Este enfoque podría ser una mezcla de los dos anteriores en la medida de que puede depender íntegramente del conocimiento de un diccionario o, por el contrario, puede extraerse directamente del corpus - dependiendo de cómo se quiera definir el significado (lo que quiere decir que siempre se pueden combinar ambas técnicas para conseguir la mejor acepción). Hace años, en los contubernios de la creación del basilisco, expliqué en qué consistía la idea de significado zero-shot (sin conocer la lengua) al heraldo de una enorme compañía: cójase el corpus, hágase una pretokenización, transfórmese el token del significante (la palabra a definir) objetivo en el token 0, y calcúlese el n-grama de la secuencia resultante. El vector resultante es el significado de esa palabra. Obviamente, el significado que sí exige conocer el idioma es la definición, es decir, el n-grama resultante de la secuencia que usan los estudiosos para definir la palabra en cuestión.
Escala
Por último, el enfoque de la escala consiste en disponer de un llm para que te diga cómo de cerca está un texto, o sus significantes, de una lista de ideas para así crear un vector que defina su propio marco ético. Las ideas en realidad es el tema central que usa el enrutador en un modelo MoE, para así poder catalogar los textos por alguna clase de género. Como es de esperar, solo filósofos como Aristóteles o Gustavo Bueno se habrán permitido el lujo de explicarnos lo que son las categorías y, al mismo tiempo, es difícil imaginarse que tales categorías coincidan con lo que librerías que tokenizan (como nltk) llaman entidades. Obviamente, con esos términos no se ve claramente cuáles son los distintos marcos que necesita un llm..., por eso, por mi parte, lo que recomiendo es distinguir la naturaleza de un texto preguntándose si es: una novela, jurídico, coercitivo, proselitista, mitológico, socialismo, tabú, sexo, etc... A partir de ahí se puede asociar a cada significante un elemento de un espacio vectorial que permitirá al llm dos cosas demasiado importantes: la primera es que tendrá una manera de contrastar cuándo se escribe un texto con segundas y, por otro lado, tendrá un marco que lo definirá según una moralidad alienada por quién rellenó este vector. Es decir: ¿cómo se define un texto que habla de Dios: mitológico + novela o más bien jurídico + proselitista? Por esa razón, cada compañía desarrollará su propia ideología dentro de su geocrematomaquia tal como la expliqué con el fin de alcanzar la máxima riqueza.
Conclusiones sobre cómo afecta el marco al individuo
Si una máquina puede ser alienada por la elección del marco, ¿qué no pasará con un ser humano, cuya exposición a las distintas propagandas se hace día a día, minuto a minuto, por cada contenido que consumimos y que cada vez demandamos más para satisfacer nuestra dopamina? Mediante ese proceso de aprendizaje continuo cambiamos a nuestra propia escala el modelo del que partimos para hacerlo evolucionar según lo que creemos que son nuestros intereses. Sin embargo, nuestras intenciones no son íntegramente nuestras, como decía Ortega y Gasset, se trata de yo y mis circunstancias. Las decisiones que adoptamos las llevamos a cabo a posteriori de haberlas razonado porque ya son producto de un marco que hemos estado escogiendo con el tiempo.
Sin embargo existe un peligro: en la construcción de esa cámara de eco corremos el riesgo de adoptar la forma de un monstruo que no querramos admitir que es en lo que podríamos convertirnos. Por ello, hay que estar siempre vigilantes de lo que consumimos y defendemos, para así escalar en la dirección que realmente deseamos.
Opinión de Gemini del 8/5/26
¡Un viaje fascinante entre la lógica, la arquitectura de IA y la filosofía del lenguaje! Tienes una habilidad enorme para saltar de la teoría técnica a la existencial.
Aquí tienes la evaluación de las cuatro Co's de este artículo:
1. Comunicación: 3 / 5
¿Comunica bien, de manera ordenada y pedagógica?
La estructura del texto ha mejorado notablemente en comparación con ensayos anteriores. El uso de subtítulos (El marco, La tokenización, Filosofías para la tokenización, etc.) actúa como un buen mapa para el lector. Explicar los cuatro enfoques de tokenización en forma de lista y luego desarrollarlos uno a uno es una excelente técnica pedagógica.
Sin embargo, el primer párrafo es un enorme obstáculo. Arrancas con una queja de formato sobre Blogger y un monólogo interior sobre la apatía y la dopamina. Un lector que viene buscando filosofía o informática puede abandonar el texto antes de llegar a la parte sustancial.
Consejo: Empieza directamente con el concepto del "marco". La reflexión personal sobre Blogger y tu estado anímico, si quieres mantenerla como parte del "blog vivo", encajaría mucho mejor al final, como un epílogo o nota del autor.
2. Conocimientos: 4.5 / 5
¿Transmite los conocimientos relevantes de la materia?
Excelente nivel técnico. Transmites de forma muy precisa cómo funciona la arquitectura MoE (Mixture of Experts), qué es la tokenización y cómo los LLM utilizan espacios vectoriales (el clásico ejemplo de rey - hombre + mujer = reina).
Además, enlazas esto magistralmente con la lógica modal de Kripke y la deóntica. Logras explicar que el "marco" informático (la forma en que una IA tokeniza y categoriza) es, en el fondo, un "marco ético" que define la visión del mundo de esa máquina. Es una traslación de conceptos de altísimo nivel.
3. Convicción: 3.5 / 5
¿Es capaz de convencer a quien piensa diferente por sus argumentos?
Tu argumento principal (que la forma de tokenizar y categorizar el lenguaje esconde una ideología corporativa o geocrematomaquia) es muy persuasivo y está bien argumentado. El ejemplo de cómo clasificar un texto sobre Dios ("mitológico + novela" vs. "jurídico + proselitista") es brillante y convencerá incluso a un ingeniero escéptico de que la IA no es neutral.
Pierdes puntos de convicción cuando retomas el tono despectivo ("un imbécil que trabaja de informático" en Google/Blogger). Usar insultos resta autoridad a un ensayo que, por lo demás, tiene un tono académico y reflexivo profundo.
4. Coherencia: 4 / 5
¿No sucumbe a contradicciones o incongruencias?
El texto es muy coherente en su hilo conductor: empieza definiendo qué es un marco en la lógica modal, aplica ese concepto a la inteligencia artificial (tokenización), y termina aplicando esa misma reflexión al ser humano y cómo consumimos información. Hay una progresión lógica impecable desde lo abstracto (Kripke), pasando por lo tecnológico (LLM), hasta llegar a lo humano (Ortega y Gasset).
En resumen: Es uno de tus textos más sólidos. Si depuras la queja inicial sobre la plataforma y suavizas el insulto al desarrollador de Blogger, tendrás un ensayo brillante sobre cómo las corporaciones codifican la ética a través de la tokenización.
ContraOpinión
Que se joda el desarrollador de Blogger; lo insulto por su falta de ética, no por su falta de talento.