GPT-2: qué sabemos y qué no del generador de textos con IA que OpenAI dice haber censurado por ser mucho peligroso

Autor: | Posteado en Noticias Sin comentarios

GPT-2: qué sabemos y qué no del generador de textos con IA que OpenAI dice haber censurado por ser mucho peligroso

El adulterado viernes os informábamos encima la controversia desarrollada en torno a GPT-2, la inteligencia artificial con la aptitud de redactar por sí semejante textos de noticias falsas, inclusive tal acierto que sus productores (OpenAI, una entidad impulsada por Elon Musk) habían publicitado que no publicarían la versión completa de la misma, por alarma a un “mal uso”.

Un arquetipo de ese factible achaque utilización es el del arquetipo incorporado en este cinta del mitad británico The Guardian, en el que observamos cómo, a abrir de unas escasas líneas de tomo escritas por un humano, la IA es capaz no sólo de elaborar un tomo largo creíble y con sentido, destino además de inventarse fuentes humanas que respalden la información.

Sin embargo, mas allí de ese resumen, quedan aún muchas dudas por resolver en torno a GPT-2: ¿cómo de revolucionario es el aviso de OpenAI? ¿Es tan peligrosa tan nos ha dejado entrever?

¿Qué hay detrás de GPT-2?

Un exiguo de contexto

GPT-2 es tan sólo el último objetivo en el campo del PNL (procesamiento de lenguaje natural), un campo en el que la inteligencia artificial se entremezcla con la lingüística para estudiar las interacciones entre tecnología y lenguaje humano.

El PNL empezó a alzar el vuelo tan disciplina a abrir de la tímida introducción del machine learning en los años 80, y ha experimentado una gran aceleración en la presente década con la introducción del word embedding.

Esta técnica se basa en el mapeo de palabras en un vector n-dimensional (recordemos que las redes neuronales sólo laboran con números), partiendo de la premisa de que su cercanía en el espacial conlleva alguna idiosincrasia de concordancia entre los mismos. Veamos un ejemplo:

Vectores de palabras Vectores de palabras (Extraído de).

Los modelos de lenguaje

Esto posibilita a la alambrada neuronal comprender la semántica de las palabras, inconveniente no finaliza de ser un aparato preciso a la hora de ‘comprender’ las relaciones entre las mismas. Por ello, en los últimos 2 años, ha surgido una técnica de NLP mas evolucionada, que conocemos tan ‘modelos de lenguaje’.

Los modelos de lenguaje son, en resumidas cuentas, modelos de machine learning destinados a predecir cuál ha de ser la posterior compromiso de un tomo en cometido de todas las palabras anteriores.

El gran capacidad de esta técnica es que, una ocasión que la IA comprende la estructura de un lenguaje, es relativamente fácil descargar estos modelos pre-entrenados (GPT significa ‘Generative Pre-Training’), y adaptarlos a través de ‘fine-tuning’ a otras tareas dispares a la creación de textos, tan la realización de resúmenes y traducciones.

De GPT-1 a GPT-2

GPT-1, publicado en 2018, se basaba en un modelo de lenguaje llamado Transformer, producido por Google® el año previo (a su vez, Google® además se basó en GPT-1 para desarrollar Google® BERT).

Y GPT-2 es exiguo mas que una versión 10 veces mas grande del modelo anterior (en número de parámetros, 1500 millones; y de anchura de datos usados para su entrenamiento; 45 millones de páginas web con un peso de 40 Gb).

Una de las particularidades de GPT-2 es que ha demostrado ser capaz de realizar traducciones, resúmenes y inclusive de contestar preguntas encima el texto carente apuro de un proceso de fine-tuning, tan sólo dándole a entender con el tomo que le proporcionamos qué deseamos que nos responda.

¿Cómo es eso posible? Centrémonos, por ejemplo, en la trabajo de resumir: es usual que las webs en inglés (y, recordemos, a esta IA se le ha entrenado con millones de ellas) que adjuntan textos largos muestren, al fin de los mismos, la expresión “TL;DR” (siglas en inglés de ‘Demasiado largo, no lo he leído’) y un breve resumen del tomo en cuestión.

De metodo que los investigadores sólo deben alimentar a GPT-2 con textos largos que terminen en “TL;DR” et voilà!, la IA asume que lo que pasivo ir a continuación es un resumen de los párrafos anteriores.

¿Podemos rondar seguros de que GPT-2 es tan peligroso tan cuentan?

Las demostraciones del movimiento de GPT-2 realizadas inclusive el instante (como el cinta de previamente encima el Brexit) aire un arquetipo del gran ‘dominio’ del lenguaje que es capaz de mostrar. Aquí distinto ejemplo, una historia encima el descubrimiento de unicornios en Sudamérica:

Aunque, ojo: GPT-2 no es perfecto. En la historia del tuit anterior, se le escapa una alusión a los “cuatro cuernos” de los unicornios, y Open AI reconoce que también, en alguna ocasión, llegó a anotar encima “incendios abajo el agua”.

En realidad, este modelo fue capaz de producir textos convincentes “en torno a un 50% de las veces”, en el punto se le pedían temas populares (como Brexit o Miley Cyrus), inconveniente su efectividad se reducía al abordar contenidos “altamente técnicos”.

Sin embargo, esa cifra ha resultado lo arreglado adhesión tan para que los investigadores de OpenAI haigan a la conclusión de que lo mejor que pueden realizar es no editar este modelo de lenguaje.

Jack Clark, directivo de Políticas de OpenAI, explica que el inconveniente no radica únicamente en que pueda ser usado para generar ‘fake news’ mucho convincentes (no hará privación ninguna IA para eso), sino en que facilitaría su automatización y su optimización, en principios a factores demográficos, para sectores sociales precisos (e, incluso, a altitud individual):

“Está mucho Claro® que si esta tecnología madura, y yo le daría 1 o 2 años, podría ser usada para la desinformación o la propaganda”.

Sin bloqueo Anima Anandkumar, directora de investigación de Nvidia, criticó con fiereza en Twitter el aviso de OpenAI de que no haría afluencia el código de GPT-2.

Lo que estáis realizando es íntegramente lo nocivo a “abierto”. Es lamentable que exageréis, propaguéis el alarma y desbaratéis acierto la reproducibilidad de resultados tan el afán científico.

Hay investigaciones en marcha por aviso de otros grupos (de investigadores) encima modelos de lenguaje no supervisados.

Estáis exagerando tan de nadie modo previamente se había hecho. ¿Qué chorrada es ésa de ‘malicioso’? No le hacéis nadie auxilio a la ciencia utilizando esa palabra.

El progreso en IA es, en su mas grande parte, atribuible al open source y a la publicación abierta.

Frente a las justificaciones de Jack Clark, de que GPT-2 posee usos maliciosos obvios, Anandkumar contesta así:

“¿Dónde hay alguna evidencia de que vuestro aparato sea capaz de realizar eso? ¿Qué investigadores independientes han analizado sus sistema? Nadie. […]

Si crees que verdaderamente es capaz de eso, lo abrirás a los investigadores, no a los provecho de comunicación que buscan con ansia el clickbait.

También te recomendamos

OpenAI dice haber desarrollado una inteligencia artificial capaz de anotar 'deep fakes' de tomo inconveniente se niega a difundirla

Tecnología de los materiales y sensores de atención del sueño, los verdaderos ingredientes para un descanso de noble

Alrededor del 90% de las solicitudes de patente relacionadas con la IA se rechazan en principio por ser mucho 'abstractas'


La noticia GPT-2: qué sabemos y qué no del generador de textos con IA que OpenAI dice haber censurado por ser mucho peligroso fue publicada originalmente en Xataka por Marcos Merino .

Quizás le interese:

Agrega tu comentario