Introduction

L'Ai assistant est un agent conversationnel. Pour accéder à cet outil, vous pouvez cliquer sur le bouton dans le menu latéral de droite.

L’Ai assistant est une interface qui vous permet de dialoguer avec un LLM (Large Language Model), sans partager vos conversations avec un service tiers. Les échanges effectués dans l’assistant ne quittent pas votre ordinateur.

L’Ai assistant vous permet d’intégrer facilement les données contenues dans votre session. Chaque item de votre session peut être transféré dans l’assistant IA afin que le LLM puisse en prendre connaissance. Par défaut, le modèle n’a accès à aucune donnée.

L’Ai assistant vous permet de choisir parmi de nombreux modèles LLM différents, ce qui vous permet de sélectionner le modèle adéquat et de le configurer en fonction de la tâche à accomplir et de la puissance de calcul disponible.

Le processus de traitement de l’Ai assistant est transparent. L’ensemble des instructions délivrées à votre modèle vous sont accessibles.

Moteurs d'inférence

Le modèle LLM sélectionné est exécuté dans un moteur d’inférence. L’Ai assistant supporte 2 types de moteur d’inférence:

  • Un moteur directement prĂ©sent dans l’application
  • Un moteur prĂ©sent en local, appelĂ© Ollama

Le moteur de l’application permet d’exécuter des modèles sur un très grand nombre de plateformes (mobile,tablette, pc), sans nécessité d’installation spécifique. Malheureusement, les performances et les modèles disponibles sur ce moteur sont pour le moment limités.

Le moteur local (Ollama) fournit des performances plus élevées, et donne accès à un large éventail de modèles. Il nécessite cependant une procédure d’installation spécifique, et n’est pas disponible sur certaines plateformes (mobile, tablette).

Moteur local (optionnel):

Le moteur local n’est pas disponible dans l’Ai assistant par défaut. Vous devez suivre la procédure d’installation suivante pour en bénéficier.

  1. Télécharger et installer Ollama (lien vers le téléchargement)
  2. Configurer Ollama afin d’autoriser l’accès à Astrone

Linux

Si Ollama est exécuté en tant que service systemd, les variables d'environnement doivent être définies à l'aide de systemctl

  1. Ouvrir le terminal
  2. Modifiez le service systemd en appelant systemctl edit ollama.service . Cela va ouvrir un éditeur de texte.
  3. Pour chaque variable d'environnement, ajouter une ligne Environment sous la section [Service]
  4. [Service]
    Environment="OLLAMA_ORIGINS=https://www.astrone.app"
  5. Sauvegarder et quitter
  6. Relancez systemd, et redémarrez Ollama
  7. systemctl daemon-reload 
    systemctl restart ollama

MacOS

Si Ollama est exécuté en tant qu'application macOS, les variables d'environnement doivent être définies à l'aide de la commande launchctl:

  1. Ouvrir le terminal
  2. Pour modifier une variable d'environnement, appelez launchctl setenv
  3. launchctl setenv OLLAMA_ORIGINS "https://www.astrone.app"
  4. Relancez l’application Ollama

Windows

Sous Windows, Ollama hérite des variables d'environnement de l'utilisateur et du système.

  1. Quittez d'abord Ollama en cliquant dessus dans la barre des tâches
  2. Lancez Paramètres (Windows 11) ou Panneau de configuration (Windows 10) et recherchez les variables d'environnement.
  3. Cliquez sur Modifier les variables d'environnement pour votre compte
  4. Modifiez ou créez une nouvelle variable pour votre compte utilisateur, nommée OLLAMA_ORIGINS avec la valeur https://www.astrone.app
  5. Cliquez sur OK/Appliquer pour enregistrer
  6. Lancer l'application Ollama à partir du menu Démarrer de Windows

Paramètres

La température:

Ce paramètre permet de faire varier la part d’aléatoire dans le processus de sélection du prochain token généré. Plus la température est basse, plus le processus sera déterministe. En augmentant la température, le processus de sélection devient de plus en plus aléatoire.

La taille de la fenĂŞtre de contexte:

Le contexte représente la mémoire de travail du LLM. Lorsque vous dialoguez avec le modèle, cette mémoire se remplit au fil de la discussion. Une taille de fenêtre élevée permet au LLM de garder en mémoire une quantité importante de données. Une taille de fenêtre faible permettra d’obtenir une génération de token plus rapide.

Nombre maximum de tokens

Le nombre maximum de tokens est le nombre limite de tokens qui peut être contenu dans une réponse générée par le modèle. En règle générale, un mot correspond à 1.25 tokens.

Top P

Le LLM prédit le prochain token en le sélectionnant dans un ensemble de tokens probables. La taille de cette ensemble est limitée par le paramètre Top P. En effet, l'échantillonage se fera sur l'ensemble des tokens dont la probabilité cumulée est inférieur à P %. Plus la valeur de P se rapproche de 1, et plus la sortie du LLM sera aléatoire. Alors que des valeurs de P plus faibles favoriseront un résultat plus déterministe.

Top K

Le LLM prédit le prochain token en le sélectionnant dans un ensemble de tokens probables. La taille de cet ensemble est limitée par le paramètre Top K. En effet, l'échantillonnage se fera sur l'ensemble des tokens dont le nombre est inférieure ou égale à K. Plus la valeur de K est élevée, et plus la sortie du LLM sera aléatoire. Alors que des valeurs de K plus faibles favoriseront un résultat plus déterministe.

Réflexion

Lorsque le paramètre Réflexion est activé et si le modèle le permet, le LLM effectue une étape préalable, dite de chaîne de pensée, avant de générer sa réponse définitive.