Israël développe un outil de type ChatGPT qui transforme la surveillance des Palestiniens en arme

Un soldat israélien photographie un Palestinien à l’aide d’un outil de reconnaissance faciale par IA lors d’un raid à Wadi Qutyna, Al-Mughayer, en Cisjordanie occupée, le 17 janvier 2025. (Avishay Mohar/Activestills)

L’armée israélienne construit un modèle de langage IA utilisant des millions de conversations interceptées entre Palestiniens, ce qui pourrait accélérer le processus d’incrimination et d’arrestation, révèle une enquête conjointe.

Par Yuval Abraham, 6 mars 2025

L’armée israélienne développe un nouvel outil d’intelligence artificielle de type ChatGPT et l’entraîne sur des millions de conversations en arabe obtenues grâce à la surveillance des Palestiniens dans les territoires occupés, révèle une enquête menée par +972 Magazine, Local Call et le Guardian.

L’outil d’intelligence artificielle, qui est en cours de développement sous les auspices de l’Unité 8200, une unité d’élite de cyberguerre au sein de la Direction du renseignement militaire israélien, est ce que l’on appelle un Large Language Model (LLM) : un programme d’apprentissage automatique capable d’analyser des informations et de générer, traduire, prédire et résumer des textes. Alors que les LLM accessibles au public, comme le moteur de ChatGPT, sont entraînés à partir d’informations récupérées sur Internet, le nouveau modèle en cours de développement par l’armée israélienne est alimenté par de vastes quantités de renseignements collectés sur la vie quotidienne des Palestiniens vivant sous occupation.

L’existence du LLM de l’Unité 8200 a été confirmée à +972, Local Call et au Guardian par trois sources de sécurité israéliennes au courant de son développement. Le modèle était encore en cours de formation au second semestre de l’année dernière, et on ignore s’il a déjà été déployé ni comment l’armée l’utilisera précisément. Cependant, des sources ont expliqué qu’un avantage clé pour l’armée sera la capacité de l’outil à traiter rapidement de grandes quantités de données de surveillance afin de « répondre à des questions » sur des individus spécifiques. À en juger par l’utilisation actuelle par l’armée de modèles linguistiques plus petits, il semble probable que le LLM puisse accroître encore les incriminations et les arrestations de Palestiniens par Israël.

« L’IA amplifie le pouvoir », a expliqué une source du renseignement qui a suivi de près le développement des modèles linguistiques de l’armée israélienne ces dernières années. « Elle permet de mener des opérations [exploitant] les données d’un nombre bien plus important de personnes, ce qui permet de contrôler la population. Il ne s’agit pas seulement d’empêcher des fusillades. Je peux traquer les militants des droits de l’homme. Je peux surveiller les constructions palestiniennes en zone C [en Cisjordanie]. Je dispose de davantage d’outils pour savoir ce que fait chaque personne en Cisjordanie. Avec autant de données, on peut les utiliser à toutes fins. »

Bien que le développement de l’outil soit antérieur à la guerre actuelle, notre enquête révèle qu’après le 7 octobre, l’Unité 8200 a sollicité l’aide de citoyens israéliens experts en développement de modèles linguistiques, travaillant pour des géants de la technologie comme Google, Meta et Microsoft. Avec la mobilisation massive des réservistes au début de l’offensive israélienne contre Gaza, des experts du secteur privé ont commencé à s’engager dans l’unité, apportant ainsi des connaissances qui n’étaient auparavant « accessibles qu’à un groupe très restreint d’entreprises dans le monde », comme l’a déclaré une source sécuritaire. (En réponse à nos questions, Google a déclaré avoir des « employés effectuant des missions de réserve dans divers pays » et a souligné que le travail qu’ils effectuent dans ce contexte « n’est pas lié à Google ». Meta et Microsoft ont refusé de commenter.)

Une caméra de sécurité surplombant la ville d’Hébron, en Cisjordanie, le 15 janvier 2013. (Nati Shohat/Flash90)

Selon une source, le chatbot de l’Unité 8200 a été entraîné sur 100 milliards de mots arabes obtenus en partie grâce à la surveillance à grande échelle des Palestiniens sous le contrôle de son armée par Israël – ce qui, selon les experts, constitue une grave violation des droits des Palestiniens. « Il s’agit d’informations hautement personnelles, recueillies auprès de personnes qui ne sont soupçonnées d’aucun crime, pour entraîner un outil qui pourrait ultérieurement contribuer à établir des soupçons », a déclaré Zach Campbell, chercheur senior en technologie à Human Rights Watch, à +972, Local Call et au Guardian.

Nadim Nashif, directeur et fondateur de 7amleh, un groupe palestinien de défense des droits numériques, a fait écho à ces préoccupations. « Les Palestiniens sont devenus des cobayes dans le laboratoire israélien pour développer ces techniques et instrumentaliser l’IA, tout cela dans le but de maintenir un régime d’apartheid et d’occupation où ces technologies sont utilisées pour dominer un peuple et contrôler sa vie. Il s’agit d’une violation grave et continue des droits numériques des Palestiniens, qui sont des droits humains. »

« Nous remplacerons tous les agents de renseignement par des agents d’IA »

Les efforts de l’armée israélienne pour développer son propre LLM ont été reconnus publiquement pour la première fois par Chaked Roger Joseph Sayedoff, un officier du renseignement qui s’est présenté comme le chef du projet, lors d’une conférence peu remarquée l’année dernière. « Nous avons cherché à créer le plus grand ensemble de données possible, en collectant toutes les données que l’État d’Israël ait jamais eues en arabe », a-t-il expliqué lors de sa présentation à la conférence DefenseML à Tel Aviv. Il a ajouté que le programme est en cours d’entraînement sur des « quantités psychotiques » d’informations de renseignement.

Selon Sayedoff, lorsque le LLM de ChatGPT a été mis à la disposition du public pour la première fois en novembre 2022, l’armée israélienne a mis en place une équipe de renseignement dédiée pour étudier comment l’IA générative pourrait être adaptée à des fins militaires. « Nous nous sommes dit : « Wow, maintenant nous allons remplacer tous les agents du renseignement par des agents [d’IA]. Toutes les cinq minutes, ils liront tous les renseignements israéliens et prédiront qui sera le prochain terroriste » », a déclaré Sayedoff.

Mais l’équipe n’a pas réussi à faire beaucoup de progrès au début. OpenAI, la société à l’origine de ChatGPT, a rejeté la demande de l’unité 8200 d’accéder directement à son LLM et a refusé d’autoriser son intégration dans le système interne hors ligne de l’unité. (L’armée israélienne a depuis utilisé le modèle linguistique d’OpenAI, acheté via Microsoft Azure, comme l’ont révélé +972 et Local Call dans une autre enquête récente . OpenAI a refusé de commenter cet article. )

Il y avait un autre problème, a expliqué Sayedoff : les modèles linguistiques existants ne pouvaient traiter que l’arabe standard – utilisé dans les communications officielles, la littérature et les médias – et non les dialectes parlés. La direction du renseignement militaire israélien a réalisé qu’elle devait développer son propre programme, basé, comme l’a dit Sayedoff dans sa conférence, « sur les dialectes qui nous haïssent ».

Le tournant a eu lieu avec le début de la guerre de Gaza en octobre 2023, lorsque l’unité 8200 a commencé à recruter des experts en modèles linguistiques auprès d’entreprises technologiques privées comme réservistes. Ori Goshen, co-PDG et cofondateur de la société israélienne AI21 Labs, spécialisée dans les modèles linguistiques, a confirmé que ses employés avaient participé au projet pendant leur service de réserve. « Une agence de sécurité ne peut pas travailler avec un service comme ChatGPT, elle doit donc trouver comment faire fonctionner l’IA dans un système [interne] qui n’est pas connecté à d’autres réseaux », a-t-il expliqué.

Selon Goshen, les avantages des LLM pour les services de renseignement pourraient inclure la capacité de traiter rapidement les informations et de générer des listes de « suspects » à arrêter. Mais pour lui, l’essentiel réside dans leur capacité à récupérer des données dispersées dans de multiples sources. Plutôt que d’utiliser des « outils de recherche primitifs », les agents pourraient simplement « poser des questions et obtenir des réponses » auprès d’un chatbot, capable, par exemple, de savoir si deux personnes se sont déjà rencontrées ou de déterminer instantanément si une personne a commis un acte particulier.

Goshen a toutefois admis que le recours aveugle à ces outils pouvait conduire à des erreurs. « Ce sont des modèles probabilistes : vous leur donnez une invite ou une question, et ils génèrent quelque chose qui ressemble à de la magie », a-t-il expliqué. « Mais souvent, la réponse n’a aucun sens. Nous appelons cela une « hallucination ».

Campbell, de Human Rights Watch, a exprimé une préoccupation similaire. Les LLM, a-t-il expliqué, fonctionnent comme des « machines à deviner », et leurs erreurs sont inhérentes au système. De plus, les personnes qui utilisent ces outils ne sont souvent pas celles qui les ont développés, et les recherches montrent qu’elles ont tendance à leur faire davantage confiance. « En fin de compte, ces suppositions pourraient être utilisées pour incriminer des personnes », a-t-il ajouté.

Les enquêtes précédentes menées par +972 et Local Call sur l’utilisation par l’armée israélienne de systèmes de ciblage basés sur l’intelligence artificielle pour faciliter ses bombardements de Gaza ont mis en évidence les failles opérationnelles inhérentes à ces outils. Par exemple, l’armée a utilisé un programme connu sous le nom de Lavender pour générer une « liste noire » de dizaines de milliers de Palestiniens, que l’IA a incriminés parce qu’ils présentaient des caractéristiques qu’elle avait appris à associer à l’appartenance à un groupe militant.

L’armée a ensuite bombardé bon nombre de ces individus – généralement chez eux, avec leurs familles – alors que le programme était connu pour avoir un taux d’erreur de 10 %. Selon certaines sources, la surveillance humaine du processus d’assassinat n’a servi qu’à « valider » les résultats de Lavender « comme s’il s’agissait d’une décision humaine ».

« Parfois, c’est juste un commandant de division qui veut 100 arrestations par mois »

Le développement d’un outil de type ChatGPT, entraîné à l’arabe parlé, représente une nouvelle extension du dispositif de surveillance israélien dans les territoires occupés, qui a longtemps été très intrusif. Il y a plus de dix ans, des soldats ayant servi dans l’unité 8200 ont témoigné qu’ils avaient surveillé des civils sans aucun lien avec des groupes militants afin d’obtenir des informations qui auraient pu être utilisées pour les faire chanter – par exemple concernant des difficultés financières, leur orientation sexuelle ou une maladie grave qui les affectait ou affectait un membre de leur famille. Les anciens soldats ont également admis avoir suivi des militants politiques.

Parallèlement au développement de son propre LLM, l’Unité 8200 utilise déjà des modèles linguistiques plus compacts permettant la classification des informations, la transcription et la traduction de conversations de l’arabe parlé vers l’hébreu, ainsi que des recherches par mots-clés efficaces. Ces outils rendent les informations de renseignement plus immédiatement accessibles, notamment à la Division Judée-Samarie (Cisjordanie) de l’armée. Selon deux sources, ces modèles plus compacts permettent à l’armée de passer au crible les données de surveillance et d’identifier les Palestiniens exprimant leur colère contre l’occupation ou souhaitant attaquer les soldats ou les colons israéliens.

Une source a décrit un modèle de langage actuellement utilisé qui analyse les données et identifie les Palestiniens à l’aide de mots indiquant qu’ils « semaient le trouble ». La source a ajouté que l’armée avait utilisé des modèles de langage pour prédire qui pourrait jeter des pierres sur les soldats lors d’opérations visant à « démontrer leur présence » – lorsque les soldats font un raid dans une ville ou un village de Cisjordanie et font du porte-à-porte, entrant dans chaque maison d’une rue particulière pour procéder à des arrestations et intimider les résidents.

Des sources du renseignement ont indiqué que l’utilisation de ces modèles linguistiques, conjuguée à une surveillance à grande échelle dans les territoires occupés, a renforcé le contrôle d’Israël sur la population palestinienne et considérablement augmenté la fréquence des arrestations. Les commandants peuvent accéder à des renseignements bruts traduits en hébreu – sans avoir besoin de recourir aux centres linguistiques de l’Unité 8200 pour les obtenir, ni de connaître l’arabe eux-mêmes – et sélectionner les « suspects » à arrêter parmi une liste toujours plus longue dans chaque localité palestinienne. « Parfois, il suffit d’un commandant de division pour obtenir 100 arrestations par mois dans sa zone », a déclaré une source.

Contrairement aux modèles plus petits déjà utilisés, le grand modèle actuellement en cours de développement est entraîné à partir des données de l’Unité 8200, qui contiennent des millions de conversations entre Palestiniens. « L’arabe parlé est une donnée qui est [difficile] à trouver sur Internet », a expliqué la source. « Il n’existe pas de transcriptions de conversations ou de discussions WhatsApp en ligne. Il n’existe pas en quantité suffisante pour entraîner un tel modèle. »

Pour la formation des LLM, les conversations quotidiennes entre Palestiniens, qui n’ont pas de valeur immédiate en termes de renseignement, sont néanmoins essentielles. « Si quelqu’un appelle une autre personne [au téléphone] et lui dit de sortir parce qu’on l’attend devant l’école, ce n’est qu’une conversation informelle, ce n’est pas intéressant », a expliqué une source de sécurité. « Mais pour un modèle comme celui-ci, c’est de l’or, car cela fournit de plus en plus de données sur lesquelles s’entraîner. »

Une tour de guet et des caméras militaires israéliennes surplombant la route 60, en Cisjordanie occupée, le 30 janvier 2006. (Activestills)

L’Unité 8200 n’est pas la seule agence de renseignement nationale à tenter de développer des outils d’IA générative ; la CIA a développé un outil similaire à ChatGPT pour analyser des informations open source, et les agences de renseignement britanniques développent également leurs propres LLM. Cependant, d’anciens responsables de la sécurité britanniques et américains ont déclaré à +972, Local Call et au Guardian que la communauté du renseignement israélienne prend plus de risques que ses homologues américaines ou britanniques lorsqu’il s’agit d’intégrer des systèmes d’IA à l’analyse du renseignement.

Brianna Rosen, ancienne responsable de la sécurité à la Maison-Blanche et chercheuse en études militaires et de sécurité à l’Université d’Oxford, a expliqué qu’un analyste du renseignement utilisant un outil comme ChatGPT pourrait potentiellement « détecter des menaces que les humains pourraient ne pas percevoir, avant même qu’elles ne surviennent ». Cependant, cela risque également « d’établir de faux liens et de tirer des conclusions erronées. Des erreurs seront inévitablement commises, et certaines d’entre elles pourraient avoir de très graves conséquences. »

Des sources des services de renseignement israéliens ont souligné qu’en Cisjordanie, le problème le plus urgent n’est pas nécessairement l’exactitude de ces modèles, mais plutôt le vaste champ d’arrestations qu’ils permettent. Les listes de « suspects » ne cessent de s’allonger, car d’énormes quantités d’informations sont collectées en permanence et traitées rapidement grâce à l’IA.

Plusieurs sources ont déclaré qu’un « soupçon » vague ou général suffit souvent à justifier le placement de Palestiniens en détention administrative – une peine de prison extensible de six mois sans inculpation ni procès, sur la base de « preuves » non divulguées. Dans un contexte où la surveillance des Palestiniens est si étendue et le seuil d’arrestation si bas, ont-elles déclaré, l’ajout de nouveaux outils basés sur l’IA renforcera la capacité d’Israël à trouver des informations compromettantes sur un nombre bien plus important de personnes.

Le porte-parole de Tsahal n’a pas répondu aux questions spécifiques posées par +972, Local Call et le Guardian « en raison de la nature sensible des informations », affirmant seulement que « toute utilisation d’outils technologiques est effectuée à travers un processus rigoureux dirigé par des professionnels, afin de garantir une précision maximale des informations de renseignement. »

Yuval Abraham est un journaliste et cinéaste basé à Jérusalem.

Harry Davies du Guardian et Sebastian Ben Daniel (John Brown) ont contribué à cette enquête.

Source:https://www.972mag.com/israeli-intelligence-chatgpt-8200-surveillance-ai/

Les assertions et opinions exprimées ici sont le fait de leur auteur et ne peuvent en aucun cas être imputées à Arrêt sur Info.

Vous pouvez reproduire les articles d’Arrêt sur Info à condition de citer la source et de ne pas les modifier ni les utiliser à des fins commerciales.

Vous voulez réagir, signaler une erreur, communiquer un renseignement ? Contact