#1 Últimas noticias 23/07/2023

Algunas cosas importantes aparecidas las últimas semanas

Pedro Fernández
July 23, 2023

¿Qué debería saber un desarrollador sobre IA esta semana?

Mi alter ego leyendo sobre IA

Meta anuncia LLaMA 2

Meta anuncia LLaMa 2su nueva IA de código abierto, mostrándose la alternativa al GPT-4 de Open AI. El anuncio de la compañía en inglés podéis encontrarlo aquí .

Llama 2 ha sido entrenado con un conjunto de datos que era un 40% más grande que su predecesor LLaMa1, unos 2 billones de tokens de preentrenamiento. El modelo se ha lanzado en tres versiones principales con 7B, 13B y 70B parámetros, respectivamente. Otra mejora fue el uso de aprendizaje por refuerzo con retroalimentación humana (RLHF))y [optimización de política proximal (PPO)](https://openai.com/research/openai-baselines-ppo) para mejorar la utilidad de las respuestas. El modelo se ha comparado con otros modelos en varios benchmarks con resultados superiores. Una noticia en español, puedes encontrarla aquí.

Recordad que la filtración de LLaMA 1 supuso un nivel tremendo de innovación en los modelos de código abierto, lo que desencadenó la creación de modelos como Vicuna, Koala, Red Pajama, MPT, Alpaca, Gorilla y muchos otros.

Sin embargo, Una de las quejas es que no parece que cumpla con los estándares para considerarse open source

OpenAI ¿Está empeorando GPT4? Lanzamiento de Custom Instruction

Lo podéis leer en Business Insider, análisis científicos y distintos foros de desarrolladores (aquí, aquí, aquí). Parece que estos cambios vienen dados por varias decisiones técnicas llevadas a cabo por el equipo de OpenAI.

Por un lado, parece que OpenAI ha cambiado el enfoque general del modelo detrás de GPT4, cambiando de un modelo general y enorme, a una seria de modelos más pequeños orientados a diferentes dominios y que actuarían de forma similar al modelo grande, pero cuya ejecución sería menos cara.

Este tipo de enfoque se denomina conjunto de expertos, donde el sistema general decidirá a qué modelos debería enviar la consulta y mezcla los resultados para ofrecer un mejor resultado.

Por otro parte, OpenAI ha anunciado Custom instructions para ChatGPT con el objetivo de dar a los desarrolladores un mayor controls sobre cómo ChatGPT responde en todas las conversaciones futuras y ahorrando mucho tiempo a la hora de crear prompts.

Herramientas de IA que te pueden ayudar en el desarrollo

El problema con LangChain

LangChain ofrece una capa de abstración que hace más sencillo a los programadores integrar los LLMs en el código de nuestro programa. Aunque el propósito es ofrecer una interfaz relativamente sencilla, muchos desarrolladores dudan sobre su diseño, su complejidad más allá de las recetas del cookbook y su validez en producción. En este artículo una larga explicación.

Wix AI Site Generator

Cada vez más herramientas de las que utilizamos incluyen el soporte de IA para facilitar los primeros pasos o el trabajo en general.

Wix ha anuciado su AI Site Generator vía TechCrunch que permite generar una web, la página principal e internas, el texto asociado, imágenes, etc. Combina una mezcla de ChatGPT para texto con algunos modelos in-house para la creación de estilos.

Aunque todavía lejos de poder crear una experiencia completa en la Web, distintas startups están navegando en esa dirección, como puede ser el caso de Framer. Por un otro lado, demuestra cómo las empresas con capacidad suficiente están dando para para hacer tuning a modelos generalistas dentro del dominio de sus compañía.

Marvin.ai. Literate programming

La Literate programming (algo así como programación legible) es un paradigma que fue introducido por primera vez por Donald Knuth que mezcla el lenguaje natural y el código máquina en el mismo archivo. Más allá de los comentarios en código, lo extiende a markdown, texto formateado, gráficos y más. En el mundo de Data Science se aplica en entornos como Jupyter Notebooks or ahora el intérprete de código de Open AI

En este contexto, es interesante echarle un vistazo a Marvin: The AI Engineering Framework. Marvin es un framework ligero basado en inteligencia artificial para crear interfaces de lenguaje natural que son confiables y escalables. Marvin prioriza la experiencia de desarrollador centrada en la velocidad y la facilidad para integrar los LLMSs con una serie de primitivas que siguen permitiendo controlar su funcionamiento.