IntroductionInleiding
Red teaming emerged from nineteenth-century Prussian military war games (Kriegsspiel) and achieved its modern institutional form during the Cold War, when intelligence services formalized the practice of assigning independent analytical teams the task of challenging prevailing assessments and operational plans (Das, 2017; Majumdar, Pendleton and Gupta, 2025). Its essential operating principle is adversarial and epistemic: rather than evaluating a plan from within its own framework, an independent agent is assigned the task of assuming the plan is wrong and working backwards to identify why. The method institutionalizes what Lovallo and Kahneman (2003) call the 'outside view' against the systematic cognitive distortion of 'inside view' planning — the tendency to evaluate the probability of success from the perspective of the plan itself rather than from the base rate of comparable plans in comparable conditions.Red teaming is voortgekomen uit negentiende-eeuwse Pruisische militaire oorlogsspellen (Kriegsspiel) en bereikte zijn moderne institutionele vorm tijdens de Koude Oorlog, toen inlichtingendiensten de praktijk formaliseerden om onafhankelijke analytische teams de taak te geven heersende beoordelingen en operationele plannen uit te dagen (Das, 2017; Majumdar, Pendleton en Gupta, 2025). Het essentiële werkingsprincipe is adversarieel en epistemisch: in plaats van een plan te evalueren vanuit het eigen kader, wordt een onafhankelijke partij de taak toegewezen aan te nemen dat het plan fout is en terug te redeneren om te achterhalen waarom. De methode institutionaliseert wat Lovallo en Kahneman (2003) het 'buitenperspectief' noemen tegenover de systematische cognitieve vertekening van 'binnenperspectief'-planning — de neiging om de kans op succes te evalueren vanuit het perspectief van het plan zelf in plaats van vanuit het basispercentage van vergelijkbare plannen onder vergelijkbare omstandigheden.
From military doctrine, red teaming migrated into cybersecurity in the 1980s, when the National Security Agency formalized adversarial penetration testing as a standard evaluation instrument for classified systems (Pemmasani and Osaka, 2019). It subsequently entered the adversarial machine learning literature, where Goodfellow et al.'s (2015) demonstration that imperceptible input perturbations could systematically mislead deep neural networks established the foundational insight that systems performing well under standard evaluation metrics could fail catastrophically under adversarial conditions. This finding now drives red teaming practice at every frontier AI laboratory (Ganguli et al., 2022; Feffer et al., 2024).Vanuit militaire doctrine migreerde red teaming in de jaren tachtig naar cybersecurity, toen de National Security Agency adversariële penetratietesten formaliseerde als standaard evaluatie-instrument voor geclassificeerde systemen (Pemmasani en Osaka, 2019). Vervolgens deed het zijn intrede in de adversariële machine learning-literatuur, waar Goodfellow et al.'s (2015) demonstratie dat onwaarneembare inputverstoringen diepe neurale netwerken systematisch konden misleiden, het fundamentele inzicht vestigde dat systemen die goed presteren onder standaard evaluatiemaatstaven catastrofaal kunnen falen onder adversariële omstandigheden. Dit inzicht stuurt nu de red teaming-praktijk bij elk frontier AI-laboratorium (Ganguli et al., 2022; Feffer et al., 2024).
Despite this migration across domains, a significant gap remains. Red teaming has been applied to technical systems with increasing sophistication. It has not been systematically applied to the strategic decisions through which organizations commit capital and capability to AI adoption — decisions that rest on assumptions about technology performance, market conditions, regulatory stability, and competitive response that are typically stated as conclusions rather than tested as hypotheses. This is the strategic gap this essay addresses.Ondanks deze migratie tussen domeinen blijft er een significante kloof bestaan. Red teaming is met toenemende verfijning toegepast op technische systemen. Het is niet systematisch toegepast op de strategische beslissingen waarmee organisaties kapitaal en capaciteit aan AI-adoptie toewijzen — beslissingen die berusten op aannames over technologieprestaties, marktomstandigheden, regulatoire stabiliteit en concurrentiereactie die doorgaans als conclusies worden gepresenteerd in plaats van als hypothesen getoetst. Dit is de strategische kloof die dit essay adresseert.
The research question is: under what conditions does AI integration transform strategic red teaming from a useful governance instrument into a structural fiduciary necessity?De onderzoeksvraag luidt: onder welke omstandigheden transformeert AI-integratie strategische red teaming van een nuttig governance-instrument naar een structurele fiduciaire noodzaak?
The thesis is that the structural properties of AI systems — not merely their technical complexity, but their operational leverage, opacity, dependency concentration, and regulatory liability — collectively disqualify traditional risk governance frameworks and require, in their place, an epistemic accountability discipline that can be exercised only through formally independent adversarial assumption testing.De stelling is dat de structurele eigenschappen van AI-systemen — niet slechts hun technische complexiteit, maar hun operationele hefboomwerking, ondoorzichtigheid, afhankelijkheidsconcentratie en regulatoire aansprakelijkheid — gezamenlijk traditionele risicogovernance-kaders diskwalificeren en in hun plaats een discipline van epistemische verantwoording vereisen die alleen kan worden uitgeoefend door formeel onafhankelijke adversariële aanname-toetsing.
Theoretical FoundationsTheoretische grondslagen
2.1 Red Teaming as a Response to Bounded Rationality2.1 Red Teaming als antwoord op begrensde rationaliteit
The theoretical foundation of red teaming is not primarily tactical but epistemological. Simon's (1957) concept of bounded rationality establishes that decision-makers do not optimize; they satisfice, accepting the first option that clears a satisfactory threshold within the limits of available attention and cognitive capacity. March and Simon (1958) extended this to demonstrate that organizations construct simplified representations of their environments — 'negotiated belief structures' in Walsh and Fahey's (1986) subsequent formulation — that guide strategic action but also insulate decision-making from disconfirming evidence. Red teaming is a structural countermeasure to bounded rationality at the organizational level: it assigns adversarial agency the specific task of finding the disconfirming evidence that ordinary decision processes are cognitively and institutionally structured to avoid.Het theoretisch fundament van red teaming is niet primair tactisch maar epistemologisch. Simons (1957) concept van begrensde rationaliteit stelt vast dat besluitvormers niet optimaliseren; zij satisficeren, door de eerste optie te accepteren die een bevredigende drempel haalt binnen de grenzen van beschikbare aandacht en cognitieve capaciteit. March en Simon (1958) breidden dit uit door aan te tonen dat organisaties vereenvoudigde representaties van hun omgevingen construeren — 'onderhandelde geloofsstructuren' in de latere formulering van Walsh en Fahey (1986) — die strategisch handelen sturen maar ook besluitvorming isoleren van weerleggend bewijs. Red teaming is een structurele tegenmaatregel tegen begrensde rationaliteit op organisatieniveau: het wijst adversariële agency de specifieke taak toe om het weerleggend bewijs te vinden dat gewone besluitvormingsprocessen cognitief en institutioneel zijn gestructureerd om te vermijden.
Kahneman and Lovallo (1993) identify the planning fallacy as the systematic tendency to underestimate costs and overestimate benefits in complex undertakings — a direct consequence of inside-view reasoning. Klein's (1993) pre-mortem method, in which a team imagines that a plan has already failed and works backwards to identify causes, provides a cognitive design that partially counteracts this bias by restructuring the question from 'will this plan succeed?' to 'given that it has failed, why did it fail?' Strategic red teaming formalizes and institutionalizes this logic: rather than a single pre-mortem exercise conducted by the planning team, it assigns the adversarial role to an independent function with genuine authority to challenge assumptions, access to evidence, and reporting relationships that protect findings from editorial suppression.Kahneman en Lovallo (1993) identificeren de planningsfout als de systematische neiging om kosten te onderschatten en baten te overschatten bij complexe ondernemingen — een direct gevolg van redeneren vanuit het binnenperspectief. Kleins (1993) pre-mortem methode, waarbij een team zich voorstelt dat een plan al is mislukt en terugredenert om oorzaken te identificeren, biedt een cognitief ontwerp dat deze bias gedeeltelijk tegengaat door de vraag te herstructureren van 'zal dit plan slagen?' naar 'gegeven dat het is mislukt, waarom is het mislukt?' Strategische red teaming formaliseert en institutionaliseert deze logica: in plaats van een enkele pre-mortem oefening uitgevoerd door het planningsteam, wijst het de adversariële rol toe aan een onafhankelijke functie met daadwerkelijke autoriteit om aannames uit te dagen, toegang tot bewijs, en rapportageverhoudingen die bevindingen beschermen tegen redactionele onderdrukking.
Das (2017) documents the military operationalization of adversarial assumption challenge in the Israeli intelligence community's Ipcha Mistabra ('the opposite side', or The Devil's Advocate) unit, established after the 1973 Yom Kippur intelligence failure to institutionalize the contrary perspective as a permanent analytical function. The 1998 Indian and Pakistani nuclear tests, which the CIA failed to predict despite extensive signals intelligence, illustrate what happens without such an institution: a shared 'mindset that said everybody else is going to work like we work' (Das, 2017) made contradicting evidence invisible.Das (2017) documenteert de militaire operationalisering van adversariële aanname-uitdaging in de Ipcha Mistabra ('de andere kant', of De Advocaat van de Duivel) eenheid van de Israëlische inlichtingengemeenschap, opgericht na het inlichtingenfalen van de Jom Kippoeroorlog van 1973 om het tegengestelde perspectief te institutionaliseren als permanente analytische functie. De Indiase en Pakistaanse kernproeven van 1998, die de CIA niet wist te voorspellen ondanks uitgebreide signals intelligence, illustreren wat er gebeurt zonder zo'n institutie: een gedeelde 'mindset die zei dat iedereen anders gaat werken zoals wij werken' (Das, 2017) maakte weerleggend bewijs onzichtbaar.
2.2 Organizational Strategy Theory and the Assumption Problem2.2 Organisatorische strategietheorie en het aanname-probleem
Mintzberg and Waters (1985) establish empirically that strategic outcomes regularly diverge from strategic intentions, demonstrating that strategy is as much emergent as deliberate. The normative implication — often overlooked — is that the gap between intention and outcome is not primarily a failure of execution but a failure of assumption: the conditions assumed by the deliberate strategy did not obtain. Weick's (1995) sensemaking framework provides the cognitive mechanism: organizations retrospectively construct coherent narratives about their environment that guide future action, but these narratives are inherently selective and path-dependent, encoding prior assumptions as facts.Mintzberg en Waters (1985) stellen empirisch vast dat strategische uitkomsten regelmatig afwijken van strategische intenties, wat aantoont dat strategie evenzeer emergent als opzettelijk is. De normatieve implicatie — vaak over het hoofd gezien — is dat de kloof tussen intentie en uitkomst niet primair een falen van uitvoering is maar een falen van aanname: de condities die de opzettelijke strategie veronderstelde, deden zich niet voor. Weicks (1995) sensemaking-raamwerk biedt het cognitieve mechanisme: organisaties construeren retrospectief coherente narratieven over hun omgeving die toekomstig handelen sturen, maar deze narratieven zijn inherent selectief en padafhankelijk, en coderen eerdere aannames als feiten.
Argyris and Schön's (1978) distinction between single-loop and double-loop learning is directly applicable here. Single-loop learning corrects deviations from an existing operating framework without questioning the framework itself; double-loop learning challenges the governing assumptions on which the framework rests. Standard risk management — the identification and mitigation of risks within an accepted strategic framework — is a single-loop operation. Strategic red teaming is a double-loop instrument: it asks not whether the plan is being executed correctly but whether the assumptions that justify the plan are valid.Het onderscheid van Argyris en Schön (1978) tussen single-loop en double-loop leren is hier direct toepasbaar. Single-loop leren corrigeert afwijkingen van een bestaand operationeel kader zonder het kader zelf ter discussie te stellen; double-loop leren daagt de sturende aannames uit waarop het kader rust. Standaard risicomanagement — de identificatie en mitigatie van risico's binnen een geaccepteerd strategisch kader — is een single-loop operatie. Strategische red teaming is een double-loop instrument: het vraagt niet of het plan correct wordt uitgevoerd maar of de aannames die het plan rechtvaardigen geldig zijn.
DiMaggio and Powell (1983), in their foundational analysis of institutional isomorphism, identify a process by which organizations adopt practices not because they are demonstrably effective but because they are institutionally legitimate. This isomorphic pressure applies directly to current AI adoption: organizations deploy AI systems and construct governance frameworks around them in part because industry norms, competitive pressure, and regulatory signaling create legitimacy incentives that are structurally distinct from, and may be inconsistent with, the evidence-based risk assessment that fiduciary accountability requires. Strategic red teaming, applied to AI adoption decisions, is a mechanism for identifying when legitimacy-driven adoption has displaced evidence-based adoption — a distinction that has direct implications for board accountability.DiMaggio en Powell (1983) identificeren in hun fundamentele analyse van institutioneel isomorfisme een proces waarbij organisaties praktijken overnemen niet omdat ze aantoonbaar effectief zijn maar omdat ze institutioneel legitiem zijn. Deze isomorfe druk is direct van toepassing op de huidige AI-adoptie: organisaties implementeren AI-systemen en construeren governance-kaders eromheen mede omdat industrienormen, concurrentiedruk en regulatoire signalen legitimiteitsincentieven creëren die structureel verschillen van, en inconsistent kunnen zijn met, de op bewijs gebaseerde risicobeoordeling die fiduciaire verantwoording vereist. Strategische red teaming, toegepast op AI-adoptiebeslissingen, is een mechanisme om te identificeren wanneer legitimiteitsgedreven adoptie op bewijs gebaseerde adoptie heeft verdrongen — een onderscheid met directe implicaties voor bestuursverantwoording.
2.3 Risk Governance, Systemic Risk, and the Audit Society2.3 Risicogovernance, systeemrisico en de auditmaatschappij
Power's (2007) analysis of the audit society identifies a recurring governance pathology: the multiplication of formal risk management procedures that satisfy regulatory and stakeholder expectations while generating what he terms 'organized irresponsibility' — a distribution of formal accountability that obscures actual decision-making and makes genuine risk assessment structurally impossible. Standard risk registers, which catalogue known risks without adversarially testing the assumptions on which risk assessments depend, exemplify this pathology. They document what organizations know they do not know; they do not surface what organizations do not know they do not know.Powers (2007) analyse van de auditmaatschappij identificeert een terugkerende governance-pathologie: de vermenigvuldiging van formele risicomanagementprocedures die voldoen aan regulatoire verwachtingen en stakeholderverwachtingen terwijl ze genereren wat hij 'georganiseerde onverantwoordelijkheid' noemt — een verdeling van formele verantwoording die feitelijke besluitvorming verhult en oprechte risicobeoordeling structureel onmogelijk maakt. Standaard risicoregisters, die bekende risico's catalogiseren zonder de aannames waarop risicobeoordelingen berusten adversarieel te toetsen, zijn een voorbeeld van deze pathologie. Ze documenteren wat organisaties weten dat ze niet weten; ze brengen niet aan het licht wat organisaties niet weten dat ze niet weten.
Perrow's (1984) Normal Accident Theory argues that in tightly coupled, complex systems, accidents are not aberrant but normal, arising from interactions between components that are not anticipated by component-level analysis. This framework applies with increasing force to AI-embedded organizations: the interaction between AI systems, human decision processes, regulatory environments, and third-party dependencies creates emergent failure modes that are visible only at the system level and only under adversarial examination. The foundational distinction between risk (quantifiable probability distributions over known outcomes) and uncertainty (outcomes whose probabilities cannot be specified) is also relevant: AI-embedded strategies introduce Knightian (1921) uncertainty — not merely higher risk — making probabilistic risk modelling structurally inadequate as the primary governance instrument.Perrows (1984) Normal Accident Theory stelt dat in nauw gekoppelde, complexe systemen ongelukken niet afwijkend maar normaal zijn, voortkomend uit interacties tussen componenten die niet worden voorzien door analyse op componentniveau. Dit raamwerk is met toenemende kracht van toepassing op AI-ingebedde organisaties: de interactie tussen AI-systemen, menselijke besluitvormingsprocessen, regulatoire omgevingen en afhankelijkheden van derden creëert emergente faalmodi die alleen zichtbaar zijn op systeemniveau en alleen onder adversarieel onderzoek. Het fundamentele onderscheid tussen risico (kwantificeerbare kansverdeling over bekende uitkomsten) en onzekerheid (uitkomsten waarvan de kansen niet kunnen worden gespecificeerd) is eveneens relevant: AI-ingebedde strategieën introduceren Knightiaanse (1921) onzekerheid — niet slechts hoger risico — waardoor probabilistisch risicomodelleren structureel ontoereikend is als primair governance-instrument.
From Technical Red Teaming to Strategic Red TeamingVan technische Red Teaming naar strategische Red Teaming
Four analytically distinct practices are routinely conflated in both academic and practitioner discourse on red teaming. The taxonomy in Table 1 distinguishes them by object of testing, primary question, and governance level, establishing the conceptual space that strategic assumption stress testing occupies.Vier analytisch onderscheiden praktijken worden routinematig samengevoegd in zowel academisch als praktijkdiscours over red teaming. De taxonomie in Tabel 1 onderscheidt ze naar toetsingsobject, primaire vraag en governanceniveau, en stelt daarmee de conceptuele ruimte vast die strategische aanname-stresstoetsing inneemt.
| PracticePraktijk | Object of TestingToetsingsobject | Governing QuestionCentrale vraag | Institutional LevelInstitutioneel niveau |
|---|---|---|---|
| Penetration TestingPenetratietesten | IT infrastructure, applications, networksIT-infrastructuur, applicaties, netwerken | Can an adversary breach the perimeter?Kan een tegenstander de perimeter doorbreken? | CISO / IT Security |
| Adversarial ML / AI Red TeamingAdversariële ML / AI Red Teaming | Model outputs, alignment, robustnessModeloutputs, alignment, robuustheid | Can the model be induced to produce unsafe or misaligned outputs?Kan het model worden aangezet tot het produceren van onveilige of niet-afgestemde outputs? | AI Safety / Technical TeamsAI-veiligheid / Technische teams |
| Governance Red TeamingGovernance Red Teaming | Oversight structures, accountability mechanismsToezichtstructuren, verantwoordingsmechanismen | Does the governance architecture function under adversarial conditions?Functioneert de governance-architectuur onder adversariële omstandigheden? | Risk Function / Board CommitteeRisicofunctie / Bestuurscommissie |
| Strategic Assumption Stress TestingStrategische aanname-stresstoetsing | Strategic intent and its enabling assumptionsStrategische intentie en de onderliggende aannames | Which assumptions must be true for this strategy to succeed — and what is the evidence quality for each?Welke aannames moeten waar zijn om deze strategie te laten slagen — en wat is de bewijskwaliteit voor elke aanname? | Board / ExecutiveBestuur / Directie |
The distinguishing feature of strategic assumption stress testing is that its object is not a technical system, a model, or a governance process. It is the cognitive architecture of a strategic decision: the propositions that must be true for the intended outcome to be achievable. Tetlock's (2005) research on expert forecasting demonstrates empirically that even highly credentialed domain experts exhibit systematic overconfidence in their predictions, and that forcing experts to specify the conditions under which their predictions would be wrong is a more reliable corrective than increasing their information or analytical sophistication. Strategic red teaming institutionalizes exactly this corrective as an organizational governance function.Het onderscheidende kenmerk van strategische aanname-stresstoetsing is dat het object ervan geen technisch systeem, model of governance-proces is. Het is de cognitieve architectuur van een strategische beslissing: de proposities die waar moeten zijn om de beoogde uitkomst haalbaar te maken. Tetlocks (2005) onderzoek naar expertvoorspellingen toont empirisch aan dat zelfs hoogopgeleide domeinexperts systematische overmoed vertonen in hun voorspellingen, en dat het dwingen van experts om de condities te specificeren waaronder hun voorspellingen fout zouden zijn, een betrouwbaardere correctie is dan het vergroten van hun informatie of analytische verfijning. Strategische red teaming institutionaliseert precies deze correctie als organisatorische governance-functie.
Classical strategic planning assumes a degree of environmental stability and cognitive legibility that the current AI adoption context does not support. AI systems introduce three specific planning vulnerabilities that traditional strategic frameworks cannot accommodate: non-linear risk, in which small changes in model behavior or deployment context produce disproportionately large changes in organizational outcomes (Perrow, 1984); automation opacity, in which decisions previously made through auditable human reasoning are delegated to systems whose internal logic is not interpretable even by their developers (IJETRM, 2025); and switching costs, in which the integration of AI systems into core workflows creates path dependencies and migration costs that were not anticipated at the point of adoption and that are typically not stress-tested as part of strategic approval (Feffer et al., 2024).Klassieke strategische planning veronderstelt een mate van omgevingsstabiliteit en cognitieve leesbaarheid die de huidige AI-adoptiecontext niet ondersteunt. AI-systemen introduceren drie specifieke planningskwetsbaarheden die traditionele strategische kaders niet kunnen accommoderen: niet-lineair risico, waarbij kleine veranderingen in modelgedrag of implementatiecontext onevenredig grote veranderingen in organisatorische uitkomsten produceren (Perrow, 1984); automatiseringsondoorzichtigheid, waarbij beslissingen die eerder werden genomen door controleerbaar menselijk redeneren worden gedelegeerd aan systemen waarvan de interne logica zelfs door hun ontwikkelaars niet interpreteerbaar is (IJETRM, 2025); en overstapkosten, waarbij de integratie van AI-systemen in kernprocessen padafhankelijkheden en migratiekosten creëert die niet werden voorzien op het moment van adoptie en die doorgaans niet worden stressgetoetst als onderdeel van strategische goedkeuring (Feffer et al., 2024).
AI as a Strategic Exposure MultiplierAI als strategische blootstellingsmultiplicator
AI systems deployed in core workflows do not simply add to an organization's existing risk profile; they alter its structural properties along five dimensions that traditional risk governance frameworks are not designed to capture. Each dimension represents a specific mechanism through which AI integration invalidates assumptions embedded in conventional strategic risk models.AI-systemen die in kernprocessen worden ingezet, voegen niet simpelweg toe aan het bestaande risicoprofiel van een organisatie; ze wijzigen de structurele eigenschappen ervan langs vijf dimensies die traditionele risicogovernance-kaders niet zijn ontworpen om te vatten. Elke dimensie vertegenwoordigt een specifiek mechanisme waardoor AI-integratie aannames ongeldig maakt die zijn ingebed in conventionele strategische risicomodellen.
(1) Operational leverage: AI automation concentrates high-volume, high-consequence decision-making in systems whose failure modes are qualitatively different from those of human decision-makers. A human workforce encountering an ambiguous case escalates to judgment; an AI system generates a confident prediction that may be systematically wrong across all similar cases simultaneously. This synchronicity of failure — the possibility of correlated errors at scale — is absent from traditional risk models that treat individual decisions as statistically independent.(1) Operationele hefboomwerking: AI-automatisering concentreert besluitvorming met hoog volume en hoge consequenties in systemen waarvan de faalmodi kwalitatief verschillen van die van menselijke besluitvormers. Een menselijk personeelsbestand dat een ambigu geval tegenkomt, escaleert naar oordeelsvorming; een AI-systeem genereert een zelfverzekerde voorspelling die systematisch fout kan zijn over alle vergelijkbare gevallen tegelijkertijd. Deze synchroniciteit van falen — de mogelijkheid van gecorreleerde fouten op schaal — ontbreekt in traditionele risicomodellen die individuele beslissingen als statistisch onafhankelijk behandelen.
(2) Transparency reduction: AI systems that adopt black-box behavior create 'outputs that lack an understandable rationale because they remain untraceable in their decision-making,' creating difficulties for institutions 'in maintaining accountability standards that are necessary for critical operational situations' (IJETRM, 2025). Majumdar, Pendleton and Gupta (2025) document this in a medical AI case study in which an AI diagnostic system generated confident-sounding reports for corrupted images that should have triggered uncertainty flags, and in which audit logs captured only final reports without intermediate reasoning steps — making both detection of failure and legal defensibility impossible. This is not a deployment-specific failure; it is a structural property of how audit logging is typically designed around AI systems.(2) Transparantievermindering: AI-systemen die black-box-gedrag vertonen creëren 'outputs die een begrijpelijke rationale missen omdat ze ontraceerbaar blijven in hun besluitvorming,' wat moeilijkheden creëert voor instellingen 'bij het handhaven van verantwoordingsnormen die noodzakelijk zijn voor kritieke operationele situaties' (IJETRM, 2025). Majumdar, Pendleton en Gupta (2025) documenteren dit in een casestudie over medische AI waarin een AI-diagnostisch systeem zelfverzekerd klinkende rapporten genereerde voor gecorrumpeerde beelden die onzekerheidsvlaggen hadden moeten triggeren, en waarin auditlogs alleen eindrapporten vastlegden zonder tussenliggende redeneerstappen — waardoor zowel faaldetectie als juridische verdedigbaarheid onmogelijk werden. Dit is geen implementatiespecifiek falen; het is een structurele eigenschap van hoe auditlogging doorgaans rond AI-systemen wordt ontworpen.
(3) Dependency concentration: organizations embedding frontier AI systems from a small number of providers acquire concentrated third-party dependency risks structurally analogous to single-counterparty concentration risks in financial markets. These include API availability risk, provider pricing risk, capability change risk (providers may update model behavior without notice in ways that alter downstream application behavior), and the risk of regulatory sanction flowing from a provider's compliance failures. None of these are typically represented in the strategic business case through which AI adoption is approved.(3) Afhankelijkheidsconcentratie: organisaties die frontier AI-systemen van een klein aantal aanbieders inbedden, verwerven geconcentreerde afhankelijkheidsrisico's van derden die structureel analoog zijn aan single-counterparty concentratierisico's in financiële markten. Deze omvatten API-beschikbaarheidsrisico, prijsrisico van de aanbieder, capaciteitswijzigingsrisico (aanbieders kunnen modelgedrag zonder kennisgeving bijwerken op manieren die het gedrag van downstream-applicaties wijzigen), en het risico van regulatoire sancties voortvloeiend uit compliance-tekortkomingen van de aanbieder. Geen van deze worden doorgaans weergegeven in de strategische businesscase waarmee AI-adoptie wordt goedgekeurd.
(4) Regulatory liability: the EU AI Act (European Commission, 2024) places conformity assessment obligations on the deploying organization rather than the model developer (Article 43). For systems classified as High Risk under Annex III — including AI deployed in recruitment, credit assessment, and critical infrastructure — the deployer bears primary regulatory accountability regardless of whether it developed, tested, or fully understands the AI system it has deployed. This liability is not proportional to the organization's technical knowledge; it is categorical and binary. Board decisions approving High Risk AI deployments without completed conformity assessments constitute governance failures with direct legal consequences.(4) Regulatoire aansprakelijkheid: de EU AI Act (Europese Commissie, 2024) legt conformiteitsbeoordelingsverplichtingen op aan de implementerende organisatie in plaats van de modelontwikkelaar (Artikel 43). Voor systemen die als Hoog Risico zijn geclassificeerd onder Bijlage III — inclusief AI ingezet bij werving, kredietbeoordeling en kritieke infrastructuur — draagt de implementeerder primaire regulatoire verantwoording ongeacht of deze het AI-systeem heeft ontwikkeld, getest of volledig begrijpt. Deze aansprakelijkheid is niet proportioneel aan de technische kennis van de organisatie; ze is categorisch en binair. Bestuursbesluiten die Hoog Risico AI-implementaties goedkeuren zonder voltooide conformiteitsbeoordelingen vormen governance-tekortkomingen met directe juridische consequenties.
(5) Accountability boundary shift: AI integration relocates accountability without clearly reassigning it. When an AI system mediates a consequential decision, the question of accountability — for the developer, the deployer, the individual user, or the board — is typically not resolved in advance and is structurally difficult to resolve retrospectively. This creates what Hood and Rothstein (2001) call a 'regulatory risk' distinct from the technical risk of AI failure: the risk that, in the event of harm, no party can be held accountable because the accountability structure was never designed.(5) Verschuiving van verantwoordelijkheidsgrenzen: AI-integratie verplaatst verantwoording zonder deze duidelijk opnieuw toe te wijzen. Wanneer een AI-systeem een consequentiële beslissing medieert, wordt de vraag naar verantwoording — voor de ontwikkelaar, de implementeerder, de individuele gebruiker of het bestuur — doorgaans niet vooraf opgelost en is structureel moeilijk retrospectief op te lossen. Dit creëert wat Hood en Rothstein (2001) een 'regulatoir risico' noemen dat verschilt van het technische risico van AI-falen: het risico dat, in geval van schade, geen partij ter verantwoording kan worden geroepen omdat de verantwoordingsstructuur nooit is ontworpen.
These five properties collectively invalidate the assumption, embedded in most traditional enterprise risk frameworks, that AI-embedded business processes can be adequately governed by standard risk classification, mitigation, and monitoring procedures applied to known risk categories within a stable operating environment.Deze vijf eigenschappen maken gezamenlijk de aanname ongeldig, ingebed in de meeste traditionele enterprise risk-kaders, dat AI-ingebedde bedrijfsprocessen adequaat kunnen worden bestuurd door standaard risicoclassificatie, mitigatie en monitoringprocedures toegepast op bekende risicocategorieën binnen een stabiele operationele omgeving.
A Formalized Model for Strategic Red TeamingEen geformaliseerd model voor strategische Red Teaming
The conceptual model proposed here is distinct from all four modalities in Table 1. It is not designed to find technical vulnerabilities, evaluate model outputs, or assess governance compliance — though findings in those domains may inform it. It is designed to adversarially examine the assumptions on which strategic decisions rest and to produce board-quality evidence of the gap between stated strategic conviction and the evidence available to support it. Its intellectual ancestors are Klein's (1993) pre-mortem decision method, Schoemaker's (1995) scenario planning framework, and the financial stress testing doctrine applied by prudential regulators following the 2008 financial crisis (Basel Committee on Banking Supervision, 2018). Its contribution beyond those traditions lies in the formal integration of AI-specific exposure dimensions — dependency, opacity, regulatory liability, and accountability boundary — as required components of strategic evaluation.Het hier voorgestelde conceptuele model verschilt van alle vier modaliteiten in Tabel 1. Het is niet ontworpen om technische kwetsbaarheden te vinden, modeloutputs te evalueren of governance-compliance te beoordelen — hoewel bevindingen in die domeinen het kunnen informeren. Het is ontworpen om de aannames waarop strategische beslissingen berusten adversarieel te onderzoeken en om bestuurswaardige bewijsvoering te produceren van de kloof tussen uitgesproken strategische overtuiging en het beschikbare bewijs om deze te ondersteunen. De intellectuele voorouders zijn Kleins (1993) pre-mortem beslismethode, Schoemakers (1995) scenarioplanningsraamwerk en de financiële stresstestingdoctrine toegepast door prudentiële toezichthouders na de financiële crisis van 2008 (Basel Committee on Banking Supervision, 2018). De bijdrage voorbij die tradities ligt in de formele integratie van AI-specifieke blootstellingsdimensies — afhankelijkheid, ondoorzichtigheid, regulatoire aansprakelijkheid en verantwoordingsgrens — als vereiste componenten van strategische evaluatie.
Table 2 formalizes the model's six components with inputs, process design, outputs, and governance positioning, converting what was previously articulated as practice guidance into a replicable institutional design.Tabel 2 formaliseert de zes componenten van het model met inputs, procesontwerp, outputs en governance-positionering, en converteert wat eerder als praktijkrichtlijnen was geformuleerd naar een repliceerbaar institutioneel ontwerp.
| ComponentComponent | Required InputsVereiste inputs | Process DesignProcesontwerp | Primary OutputPrimaire output | Governance PositionGovernance-positie |
|---|---|---|---|---|
| 1. Mission Alignment Testing1. Missie-alignmenttoetsing | Strategic documents, AI deployment rationaleStrategische documenten, rationale voor AI-implementatie | Adversarial examination: does AI capability serve mission or drive it?Adversarieel onderzoek: dient AI-capaciteit de missie of stuurt het deze? | Mission coherence score with evidence gradingMissiecoherentiescore met bewijsgradering | Reports to Board; cannot be delegated to implementation teamsRapporteert aan Bestuur; kan niet worden gedelegeerd aan implementatieteams |
| 2. Assumption Mapping2. Aanname-mapping | Business case, forecasts, vendor contractsBusinesscase, prognoses, leverancierscontracten | Identify and classify all enabling assumptions; grade each by evidence quality: documented / inferred / assertedIdentificeer en classificeer alle onderliggende aannames; beoordeel elk op bewijskwaliteit: gedocumenteerd / afgeleid / beweerd | Assumption register with evidence grade and falsification condition for eachAanname-register met bewijsgradering en falsificatieconditie per aanname | Red team independent of strategy authors; findings not editable before board submissionRed team onafhankelijk van strategie-auteurs; bevindingen niet bewerkbaar voor bestuursindiening |
| 3. Dependency Stress Testing3. Afhankelijkheidsstresstoetsing | Vendor agreements, architecture maps, critical path analysisLeveranciersovereenkomsten, architectuurkaarten, kritisch-padanalyse | Construct single-point and correlated failure scenarios; test recovery at each levelConstrueer single-point en gecorreleerde faalscenario's; test herstel op elk niveau | Dependency heat map; quantified impact of each dependency failureAfhankelijkheidsheatmap; gekwantificeerde impact van elk afhankelijkheidsfalen | Includes third-party AI providers as explicit dependency classOmvat externe AI-aanbieders als expliciete afhankelijkheidsklasse |
| 4. Economic Fragility Testing4. Economische fragiliteitstesting | Financial projections, sensitivity ranges, capital commitment schedulesFinanciële projecties, gevoeligheidsbereiken, kapitaalverplichtingsschema's | Apply downside pressure to financial assumptions; test absorptive capacity for material business case errorPas neerwaartse druk toe op financiële aannames; test absorptiecapaciteit voor materiële businesscase-fouten | Break-even analysis under pessimistic base; identification of irreversible capital commitmentsBreak-even analyse onder pessimistische basis; identificatie van onomkeerbare kapitaalverplichtingen | Analogous to regulatory stress testing; independent financial competence requiredAnaloog aan regulatoire stresstesting; onafhankelijke financiële competentie vereist |
| 5. Regulatory Exposure Simulation5. Regulatoire blootstellingssimulatie | AI portfolio inventory, EU AI Act classification, sector-specific obligationsAI-portfolio-inventaris, EU AI Act-classificatie, sectorspecifieke verplichtingen | Classify each AI deployment; identify unmet conformity obligations; simulate regulatory auditClassificeer elke AI-implementatie; identificeer niet-nagekomen conformiteitsverplichtingen; simuleer regulatoire audit | Compliance gap register; High Risk deployments without completed conformity assessments flaggedCompliance-gapregister; Hoog Risico-implementaties zonder voltooide conformiteitsbeoordelingen gemarkeerd | Must include legal counsel and technical AI competence; not delegable to procurementMoet juridisch advies en technische AI-competentie omvatten; niet delegeerbaar aan inkoop |
| 6. Adversarial Scenario Construction6. Adversariële scenarioconstructie | All prior component outputs; competitive intelligence; regulatory monitoringAlle eerdere componentoutputs; concurrentie-intelligence; regulatoire monitoring | Construct scenarios in which multiple assumptions fail simultaneously; evaluate strategic response capacityConstrueer scenario's waarin meerdere aannames gelijktijdig falen; evalueer strategische responscapaciteit | Scored scenario set: which scenarios the strategy is designed to accommodate vs. which it is notGescoorde scenarioset: welke scenario's de strategie is ontworpen om op te vangen versus welke niet | Scenarios adversarially selected — most uncomfortable, not most probable — following Schoemaker (1995)Scenario's adversarieel geselecteerd — meest oncomfortabel, niet meest waarschijnlijk — volgens Schoemaker (1995) |
5.1 Empirical Evidence for Assumption Failure at Governance Level5.1 Empirisch bewijs voor aanname-falen op governance-niveau
While systematic empirical research on strategic (as distinct from technical) red teaming remains limited — a genuine limitation of the field that this essay acknowledges — several documented instances of assumption failure in AI-embedded organizations provide grounded support for the model's core claims.Hoewel systematisch empirisch onderzoek naar strategische (in tegenstelling tot technische) red teaming beperkt blijft — een oprechte beperking van het veld die dit essay erkent — bieden meerdere gedocumenteerde gevallen van aanname-falen in AI-ingebedde organisaties onderbouwde ondersteuning voor de kernclaims van het model.
Majumdar, Pendleton and Gupta (2025) document a detailed case study of AI deployment in diagnostic radiology in which pre-deployment testing focused exclusively on model accuracy metrics and produced a system that passed all benchmark evaluations while exhibiting three critical assumption failures in production: audit logs captured only final reports without intermediate reasoning steps, making outputs legally indefensible in malpractice litigation; the AI generated confident diagnostic reports for corrupted images that should have triggered uncertainty flags; and AI-generated text appeared in the same format as human-authored reports, inducing automation bias in clinicians who accepted AI outputs without verification. None of these failure modes were detectable from the model accuracy metrics on which deployment approval was based. This is not a case of technical failure; it is a case of strategic assumption failure.Majumdar, Pendleton en Gupta (2025) documenteren een gedetailleerde casestudie van AI-implementatie in diagnostische radiologie waarin pre-implementatietoetsing zich uitsluitend richtte op modelnauwkeurigheidsmaatstaven en een systeem produceerde dat alle benchmarkevaluaties doorstond terwijl het drie kritieke aanname-fouten in productie vertoonde: auditlogs legden alleen eindrapporten vast zonder tussenliggende redeneerstappen, waardoor outputs juridisch onverdedigbaar werden in medische aansprakelijkheidsprocedures; de AI genereerde zelfverzekerde diagnostische rapporten voor gecorrumpeerde beelden die onzekerheidsvlaggen hadden moeten triggeren; en AI-gegenereerde tekst verscheen in hetzelfde formaat als door mensen geschreven rapporten, wat automatiseringsbias induceerde bij clinici die AI-outputs zonder verificatie accepteerden. Geen van deze faalmodi was detecteerbaar vanuit de modelnauwkeurigheidsmaatstaven waarop de implementatiegoedkeuring was gebaseerd. Dit is geen geval van technisch falen; het is een geval van strategisch aanname-falen.
The 2008 financial crisis provides a second category of evidence, operating at higher systemic scale. The Basel II framework required banks to model credit risk using internal models whose validity was not subject to independent adversarial stress testing across correlated asset classes. The assumption that model risk could be disaggregated into component credit risk was institutionally embedded and unchallenged across the financial system until systemic correlation invalidated it simultaneously across multiple major institutions (Basel Committee on Banking Supervision, 2018). The post-crisis introduction of mandatory macroprudential stress testing is the closest existing regulatory analogue to the strategic red teaming governance design proposed here.De financiële crisis van 2008 biedt een tweede categorie bewijs, opererend op hogere systemische schaal. Het Basel II-raamwerk vereiste dat banken kredietrisico modelleerden met behulp van interne modellen waarvan de validiteit niet onderworpen was aan onafhankelijke adversariële stresstesting over gecorreleerde activaklassen. De aanname dat modelrisico kon worden gedesaggregeerd naar component-kredietrisico was institutioneel ingebed en onbetwist in het financiële systeem totdat systemische correlatie deze gelijktijdig ongeldig maakte bij meerdere grote instellingen (Basel Committee on Banking Supervision, 2018). De post-crisis introductie van verplichte macroprudentiële stresstesting is de dichtst bestaande regulatoire analogie met het strategische red teaming governance-ontwerp dat hier wordt voorgesteld.
In the intelligence literature, both the 1973 Yom Kippur surprise and the 1998 South Asian nuclear tests represent documented cases of strategic assumption failure at organizational level. In both cases, disconfirming evidence was available and was assessed through an analytical framework that encoded the assumption being violated as background fact — making the contradicting evidence appear anomalous rather than diagnostic. The Israeli intelligence community's institutional response, the Ipcha Mistabra function mandated to argue the contrary position on every major assessment, is a direct precedent for the governance design proposed in Table 2 (Das, 2017).In de inlichtingenliteratuur vertegenwoordigen zowel de Jom Kippoer-verrassing van 1973 als de Zuid-Aziatische kernproeven van 1998 gedocumenteerde gevallen van strategisch aanname-falen op organisatieniveau. In beide gevallen was weerleggend bewijs beschikbaar en werd het beoordeeld via een analytisch kader dat de geschonden aanname als achtergrondfeit codeerde — waardoor het tegenstrijdige bewijs eerder afwijkend dan diagnostisch leek. Het institutionele antwoord van de Israëlische inlichtingengemeenschap, de Ipcha Mistabra-functie met het mandaat om bij elke belangrijke beoordeling het tegenovergestelde standpunt te beargumenteren, is een direct precedent voor het governance-ontwerp voorgesteld in Tabel 2 (Das, 2017).
5.2 Governance Design: Formal Reporting Architecture5.2 Governance-ontwerp: formele rapportagearchitectuur
Table 3 specifies the complete governance chain from commissioning authority to board presentation, with explicit architectural features designed to prevent executive interference at each stage.Tabel 3 specificeert de volledige governance-keten van opdrachtgevende autoriteit tot bestuurspresentatie, met expliciete architectonische kenmerken ontworpen om bestuurlijke inmenging in elke fase te voorkomen.
| Governance LayerGovernance-laag | Responsible PartyVerantwoordelijke partij | Design RequirementOntwerpvereiste | Firewall Against CaptureFirewall tegen capture |
|---|---|---|---|
| 1. Commissioning Authority1. Opdrachtgevende autoriteit | Board Audit Committee or equivalent independent committeeAuditcommissie van het bestuur of gelijkwaardig onafhankelijk comité | Red team mandate established by board resolution; scope defined in board minutes, not management directiveRed team-mandaat vastgesteld bij bestuursbesluit; scope gedefinieerd in bestuursnotulen, niet in managementrichtlijn | CEO and executive team have no authority to define, limit, or withdraw the red team mandateCEO en directieteam hebben geen autoriteit om het red team-mandaat te definiëren, beperken of intrekken |
| 2. Red Team Selection2. Red Team-selectie | Board Audit Committee, advised by independent legal counselAuditcommissie van het bestuur, geadviseerd door onafhankelijk juridisch advies | Selection process excludes firms with existing advisory, implementation, or vendor relationships with the organizationSelectieproces sluit firma's uit met bestaande advies-, implementatie- of leveranciersrelaties met de organisatie | No red team member may have financial interest in the strategy's approval, implementation, or continuationGeen enkel red team-lid mag financiële belangen hebben bij de goedkeuring, implementatie of voortzetting van de strategie |
| 3. Scope and Access3. Scope en toegang | Board Audit CommitteeAuditcommissie van het bestuur | Red team has access to all strategic documents, business cases, vendor agreements, and technical architecture; access cannot be withheld by managementRed team heeft toegang tot alle strategische documenten, businesscases, leveranciersovereenkomsten en technische architectuur; toegang kan niet worden onthouden door management | Access denials are reported directly to the Board as findings in themselvesToegangsweigeringen worden direct aan het Bestuur gerapporteerd als bevindingen op zich |
| 4. Draft Review4. Conceptbeoordeling | Red team (internal only)Red team (alleen intern) | Draft findings are reviewed solely by the red team; management receives no draft for comment before board submissionConceptbevindingen worden uitsluitend beoordeeld door het red team; management ontvangt geen concept voor commentaar vóór bestuursindiening | Management right of response is limited to factual correction, not deletion or softening of findings, and is presented alongside — not integrated into — the red team reportRecht van management op reactie is beperkt tot feitelijke correctie, niet verwijdering of verzachting van bevindingen, en wordt naast — niet geïntegreerd in — het red team-rapport gepresenteerd |
| 5. Board Presentation5. Bestuurspresentatie | Red team lead directly to Board Audit CommitteeRed team-leider direct aan Auditcommissie van het bestuur | Red team presents findings in person, without executive team present for findings session; executive team attends response session separatelyRed team presenteert bevindingen persoonlijk, zonder directieteam aanwezig bij bevindingensessie; directieteam woont afzonderlijk responssessie bij | Board members may direct questions to the red team without management intermediationBestuursleden mogen vragen direct aan het red team stellen zonder tussenkomst van management |
| 6. Post-Engagement Independence6. Onafhankelijkheid na opdracht | Board Audit CommitteeAuditcommissie van het bestuur | Red team engagement terminates on completion of findings delivery; no retainer, no implementation advisory role, no ongoing relationshipRed team-opdracht eindigt bij voltooiing van bevindingen; geen retainer, geen implementatieadviesrol, geen doorlopende relatie | Prevents alignment of red team incentives with strategy's ongoing success; enforces clean severance at findings deliveryVoorkomt afstemming van red team-incentives met doorlopend succes van de strategie; dwingt schone beëindiging af bij oplevering van bevindingen |
This reporting architecture is modelled structurally on the independence requirements for statutory audit — the requirement that the auditor cannot be selected, managed, or dismissed by the entity under audit — and adapted for the specific governance conditions of strategic assumption testing, in which the most significant information asymmetry is not financial but cognitive: the executive team knows more about the strategy than the board, and this knowledge asymmetry systematically advantages the advocacy position over the adversarial one.Deze rapportagearchitectuur is structureel gemodelleerd naar de onafhankelijkheidsvereisten voor wettelijke audit — de vereiste dat de auditor niet kan worden geselecteerd, beheerd of ontslagen door de te auditen entiteit — en aangepast voor de specifieke governance-omstandigheden van strategische aanname-toetsing, waarin de meest significante informatieasymmetrie niet financieel maar cognitief is: het directieteam weet meer over de strategie dan het bestuur, en deze kennisasymmetrie bevoordeelt systematisch de advocaatpositie boven de adversariële.
This framework differs from pre-mortem analysis in three respects. First, it is institutional rather than episodic: it is designed as a standing governance function, not a single workshop conducted before a decision. Second, it is structurally independent: findings are reported to the board by the red team, not filtered through the management hierarchy whose assumptions are under examination. Third, it is evidence-graded: the primary output is not a list of risks but a classification of assumptions by evidence quality, distinguishing propositions that can be defended under scrutiny from those that cannot.Dit raamwerk verschilt van pre-mortem analyse in drie opzichten. Ten eerste is het institutioneel in plaats van episodisch: het is ontworpen als een staande governance-functie, niet als een enkele workshop uitgevoerd vóór een beslissing. Ten tweede is het structureel onafhankelijk: bevindingen worden aan het bestuur gerapporteerd door het red team, niet gefilterd door de managementhiërarchie waarvan de aannames worden onderzocht. Ten derde is het bewijsgeclassificeerd: de primaire output is niet een lijst van risico's maar een classificatie van aannames naar bewijskwaliteit, die proposities onderscheidt die onder kritisch onderzoek kunnen worden verdedigd van proposities die dat niet kunnen.
Critical EvaluationKritische evaluatie
6.1 Organizational Resistance and Incentive Misalignment6.1 Organisatorische weerstand en incentive-misalignment
The most persistent obstacle to strategic red teaming is not methodological but political. Decision-makers who have invested professional capital in a strategy's design have incentives to resist adversarial examination that could reveal foundational weaknesses. Das (2017) documents this structural problem in military contexts, observing that red team inputs diminish as they rise through command hierarchies, becoming 'virtually non-existent at the strategic level' precisely where assumption failures carry the greatest consequences. The same dynamic operates in corporate governance: boards receive information filtered through management hierarchies in which the incentives to suppress uncomfortable findings are pervasive and the mechanisms for independent reporting are weak.Het meest hardnekkige obstakel voor strategische red teaming is niet methodologisch maar politiek. Besluitvormers die professioneel kapitaal hebben geïnvesteerd in het ontwerp van een strategie hebben incentives om adversarieel onderzoek te weerstaan dat fundamentele zwakheden zou kunnen onthullen. Das (2017) documenteert dit structurele probleem in militaire contexten en observeert dat red team-inputs afnemen naarmate ze door commandohiërarchieën stijgen, en 'vrijwel niet-bestaand op strategisch niveau' worden precies waar aanname-fouten de grootste consequenties dragen. Dezelfde dynamiek opereert in corporate governance: besturen ontvangen informatie gefilterd door managementhiërarchieën waarin de incentives om oncomfortabele bevindingen te onderdrukken alomtegenwoordig zijn en de mechanismen voor onafhankelijke rapportage zwak zijn.
Feffer et al. (2024), examining AI red teaming in industry contexts, find that red teaming frequently functions as performative compliance: a signal of responsible behavior rather than a genuine risk identification instrument. This risk is not unique to AI safety contexts; DiMaggio and Powell's (1983) isomorphic processes operate whenever a governance practice acquires legitimacy value independent of its functional effectiveness.Feffer et al. (2024), die AI red teaming in industriële contexten onderzoeken, stellen vast dat red teaming frequent functioneert als performatieve compliance: een signaal van verantwoordelijk gedrag in plaats van een oprecht risico-identificatie-instrument. Dit risico is niet uniek voor AI-veiligheidscontexten; de isomorfe processen van DiMaggio en Powell (1983) opereren wanneer een governance-praktijk legitimiteitswaarde verwerft onafhankelijk van haar functionele effectiviteit.
6.2 Power Asymmetry and Red Team Capture6.2 Machtsasymmetrie en red team-capture
Even well-designed red teaming is subject to power asymmetry between the team conducting the examination and the organization whose strategy is under examination. Eisenhardt (1989), analyzing principal-agent dynamics, identifies the conditions under which agents pursue their own interests at the expense of principals: when principals lack the information to detect divergence and when the agent's incentives are aligned with advocacy rather than disclosure. A red team that is financially dependent on continued engagement with an organization, or that operates within social networks in which the strategy's authors are influential, may gradually internalize the assumptions it is supposed to challenge — a process Zenko (2015) terms 'red team capture.'Zelfs goed ontworpen red teaming is onderhevig aan machtsasymmetrie tussen het team dat het onderzoek uitvoert en de organisatie waarvan de strategie wordt onderzocht. Eisenhardt (1989) analyseert principaal-agent-dynamieken en identificeert de omstandigheden waaronder agenten hun eigen belangen nastreven ten koste van principalen: wanneer principalen de informatie missen om afwijking te detecteren en wanneer de incentives van de agent zijn afgestemd op belangenbehartiging in plaats van openbaarmaking. Een red team dat financieel afhankelijk is van voortgezette betrokkenheid bij een organisatie, of dat opereert binnen sociale netwerken waarin de auteurs van de strategie invloedrijk zijn, kan geleidelijk de aannames internaliseren die het zou moeten uitdagen — een proces dat Zenko (2015) 'red team capture' noemt.
6.3 Performative Compliance Under Regulatory Frameworks6.3 Performatieve compliance onder regulatoire kaders
The EU AI Act's conformity assessment obligations create a specific incentive distortion: organizations that have not completed conformity assessments for High-Risk AI deployments face strong incentives to commission adversarial examinations that are likely to confirm compliance rather than to identify genuine gaps. Power's (2007) analysis of organized irresponsibility identifies exactly this dynamic in financial regulation: the proliferation of formal risk management procedures that satisfy auditors while displacing the substantive risk management they nominally represent. Strategic red teaming conducted under these incentive conditions risks generating the most dangerous governance outcome of all: the appearance of rigorous examination that validates, rather than challenges, a fundamentally inadequate governance posture.De conformiteitsbeoordelingsverplichtingen van de EU AI Act creëren een specifieke incentive-verstoring: organisaties die geen conformiteitsbeoordelingen voor Hoog Risico AI-implementaties hebben voltooid, worden geconfronteerd met sterke incentives om adversariële onderzoeken te laten uitvoeren die waarschijnlijk compliance bevestigen in plaats van oprechte hiaten te identificeren. Powers (2007) analyse van georganiseerde onverantwoordelijkheid identificeert precies deze dynamiek in financiële regulering: de proliferatie van formele risicomanagementprocedures die auditors tevreden stellen terwijl ze het substantieve risicomanagement dat ze nominaal vertegenwoordigen verdringen. Strategische red teaming uitgevoerd onder deze incentive-omstandigheden riskeert de gevaarlijkste governance-uitkomst van allemaal te genereren: de schijn van rigoureus onderzoek dat een fundamenteel ontoereikende governance-houding valideert in plaats van uitdaagt.
6.4 False Precision and the Cost-Benefit Question6.4 Valse precisie en de kosten-batenafweging
Strategic red teaming generates evidence-quality assessments, not forecasts. The output — a classification of assumptions by evidence grade, a dependency heat map, a regulatory gap register — does not carry the quantitative precision of a financial model or a software test suite. Organizations that mistake the red team's finding that an assumption is 'weakly evidenced' for a probabilistic prediction of failure are likely to miscalibrate their governance response.Strategische red teaming genereert bewijskwaliteitsbeoordelingen, geen voorspellingen. De output — een classificatie van aannames naar bewijsgradering, een afhankelijkheidsheatmap, een regulatoir gapregister — draagt niet de kwantitatieve precisie van een financieel model of een softwaretestsuite. Organisaties die de bevinding van het red team dat een aanname 'zwak onderbouwd' is verwarren met een probabilistische voorspelling van falen, zullen waarschijnlijk hun governance-reactie verkeerd kalibreren.
The cost-benefit question also deserves direct engagement. Strategic red teaming is resource-intensive. The argument for necessity advanced in this essay applies specifically to organizations with material High Risk AI deployments under EU AI Act classification, significant economic dependency on AI-provider relationships, or strategic commitments to AI adoption large enough to produce material harm if the underlying assumptions prove false.De kosten-batenvraag verdient ook directe aandacht. Strategische red teaming is resource-intensief. Het noodzaakargument dat in dit essay wordt gemaakt, is specifiek van toepassing op organisaties met materiële Hoog Risico AI-implementaties onder EU AI Act-classificatie, significante economische afhankelijkheid van AI-aanbiederrelaties, of strategische verplichtingen aan AI-adoptie die groot genoeg zijn om materiële schade te veroorzaken als de onderliggende aannames onjuist blijken.
ImplicationsImplicaties
7.1 For Board Governance and Fiduciary Accountability7.1 Voor bestuursgovernance en fiduciaire verantwoording
The five AI structural properties analyzed in Section 4 collectively transform the board's fiduciary position. Boards that approve AI investment programs without adversarially examining the assumptions on which those programs depend are not merely making suboptimal governance decisions. They may be accepting liabilities — under the EU AI Act and analogous regulatory frameworks — that they do not know they have incurred. The assignment of conformity assessment obligations to the deploying organization (European Commission, 2024, Article 43) places a technical accountability burden on boards that is not satisfied by vendor certification, management representation, or standard audit procedures.De vijf structurele AI-eigenschappen geanalyseerd in Sectie 4 transformeren gezamenlijk de fiduciaire positie van het bestuur. Besturen die AI-investeringsprogramma's goedkeuren zonder de aannames waarop die programma's berusten adversarieel te onderzoeken, nemen niet slechts suboptimale governance-beslissingen. Ze accepteren mogelijk aansprakelijkheden — onder de EU AI Act en analoge regulatoire kaders — waarvan ze niet weten dat ze deze zijn aangegaan. De toewijzing van conformiteitsbeoordelingsverplichtingen aan de implementerende organisatie (Europese Commissie, 2024, Artikel 43) legt een technische verantwoordingslast op besturen die niet wordt voldaan door leverancierscertificering, managementverklaringen of standaard auditprocedures.
7.2 For Risk Governance Frameworks7.2 Voor risicogovernance-kaders
NIST's AI Risk Management Framework (2023), with its four-function structure of Govern, Map, Measure, and Manage, conceptually supports the integration of strategic red teaming as a mapping and measurement instrument. The framework does not, however, specify the operational design, independence requirements, or evidence standards that distinguish substantive from performative risk assessment. Strategic red teaming, formalized along the lines proposed in Table 2, provides the operational complement to NIST's architectural framework.NIST's AI Risk Management Framework (2023), met zijn vierfunctiestructuur van Govern, Map, Measure en Manage, ondersteunt conceptueel de integratie van strategische red teaming als mapping- en meetinstrument. Het raamwerk specificeert echter niet het operationele ontwerp, de onafhankelijkheidsvereisten of de bewijsstandaarden die substantieve van performatieve risicobeoordeling onderscheiden. Strategische red teaming, geformaliseerd langs de lijnen voorgesteld in Tabel 2, biedt het operationele complement aan NIST's architectonisch raamwerk.
7.3 For AI Adoption Strategy7.3 Voor AI-adoptiestrategie
The practical implication for organizations designing AI adoption strategies is that the approval gate for material AI commitments should include an adversarial stage that is structurally separated from the advocacy stage. The distinction between evidence-backed strategic propositions and belief-backed propositions — between what an organization knows and what it assumes — is the primary output of strategic red teaming, and it is information that boards cannot generate without an independent adversarial function. Argyris and Schön's (1978) double-loop learning framework suggests that organizations unable to challenge the governing assumptions of their AI strategies will not learn from AI failures in ways that change those assumptions; they will only adjust operating procedures within an unchanged strategic frame, repeating structurally similar failures under different surface conditions.De praktische implicatie voor organisaties die AI-adoptiestrategien ontwerpen is dat de goedkeuringspoort voor materiële AI-verplichtingen een adversariële fase moet omvatten die structureel is gescheiden van de advocaatfase. Het onderscheid tussen op bewijs gebaseerde strategische proposities en op overtuiging gebaseerde proposities — tussen wat een organisatie weet en wat ze aanneemt — is de primaire output van strategische red teaming, en het is informatie die besturen niet kunnen genereren zonder een onafhankelijke adversariële functie. Het double-loop learning-raamwerk van Argyris en Schön (1978) suggereert dat organisaties die niet in staat zijn de sturende aannames van hun AI-strategieën uit te dagen, niet zullen leren van AI-falen op manieren die die aannames veranderen; ze zullen alleen operationele procedures aanpassen binnen een ongewijzigd strategisch kader, en structureel vergelijkbare fouten herhalen onder andere oppervlakte-omstandigheden.
ConclusionConclusie
The thesis of this essay is that red teaming is fundamentally an epistemic discipline: a structured institutional response to bounded rationality under conditions of organizational complexity, and that the five structural properties of AI systems require its application to strategic decision-making as a matter of fiduciary necessity rather than governance preference. This is a stronger claim than the observation that red teaming would be useful at board level. It is the claim that AI integration — through operational leverage, transparency reduction, dependency concentration, regulatory liability, and accountability boundary shift — invalidates the assumption-set on which traditional risk governance rests, and that no instrument other than formal adversarial assumption testing can supply the epistemic accountability that fiduciary duty now requires.De stelling van dit essay is dat red teaming fundamenteel een epistemische discipline is: een gestructureerd institutioneel antwoord op begrensde rationaliteit onder omstandigheden van organisatorische complexiteit, en dat de vijf structurele eigenschappen van AI-systemen de toepassing ervan op strategische besluitvorming vereisen als een kwestie van fiduciaire noodzaak in plaats van governance-voorkeur. Dit is een sterkere claim dan de observatie dat red teaming nuttig zou zijn op bestuursniveau. Het is de claim dat AI-integratie — door operationele hefboomwerking, transparantievermindering, afhankelijkheidsconcentratie, regulatoire aansprakelijkheid en verschuiving van verantwoordelijkheidsgrenzen — de aannameset ongeldig maakt waarop traditionele risicogovernance rust, en dat geen ander instrument dan formele adversariële aanname-toetsing de epistemische verantwoording kan leveren die fiduciaire plicht nu vereist.
This contribution is positioned explicitly relative to three adjacent traditions. It extends Klein's (1993) pre-mortem method from an episodic cognitive intervention to a standing institutional governance function. It applies Schoemaker's (1995) scenario planning logic not to forecasting but to adversarial assumption classification. It translates the financial stress testing doctrine (Basel Committee on Banking Supervision, 2018) from quantitative model testing to qualitative assumption quality assessment. The synthesis produces a framework that is neither strategic planning nor technical evaluation but a third institutional form: a standing, independent, evidence-graded adversarial function whose primary output is the classification of strategic conviction by its distance from documented evidence.Deze bijdrage is expliciet gepositioneerd ten opzichte van drie aangrenzende tradities. Het breidt Kleins (1993) pre-mortem methode uit van een episodische cognitieve interventie naar een staande institutionele governance-functie. Het past Schoemakers (1995) scenarioplanningslogica niet toe op voorspellen maar op adversariële aannameclassificatie. Het vertaalt de financiële stresstestingdoctrine (Basel Committee on Banking Supervision, 2018) van kwantitatieve modeltoetsing naar kwalitatieve aannamekwaliteitsbeoordeling. De synthese produceert een raamwerk dat noch strategische planning noch technische evaluatie is maar een derde institutionele vorm: een staande, onafhankelijke, bewijsgeclassificeerde adversariële functie waarvan de primaire output de classificatie is van strategische overtuiging naar haar afstand tot gedocumenteerd bewijs.
Strategic red teaming becomes necessary when an organization is approving material AI initiatives with High-Risk regulatory classification, significant economic dependency on AI provider relationships, or strategic commitments to AI adoption large enough that foundational assumption failure would produce material harm.Strategische red teaming wordt noodzakelijk wanneer een organisatie materiële AI-initiatieven goedkeurt met Hoog Risico regulatoire classificatie, significante economische afhankelijkheid van AI-aanbiederrelaties, of strategische verplichtingen aan AI-adoptie die groot genoeg zijn dat fundamenteel aanname-falen materiële schade zou produceren.
It becomes optional when AI deployment is genuinely reversible, low-risk, and of limited strategic consequence. It is insufficient — necessary but not sufficient — when the assumptions it reveals to be unsupported point to structural governance deficits that exceed what any testing exercise can remedy: when the answer to 'what evidence supports this claim?' is not 'none yet' but 'none is possible, given how this strategy was designed.' In those cases, the red team's most important finding is not the identification of specific risks but the identification of a governance posture that has mistaken institutional momentum for epistemic authority.Het wordt optioneel wanneer AI-implementatie daadwerkelijk omkeerbaar, laagrisico en van beperkt strategisch gevolg is. Het is ontoereikend — noodzakelijk maar niet voldoende — wanneer de aannames die het als ononderbouwd onthult wijzen op structurele governance-tekorten die verder gaan dan wat enige toetsingsoefening kan verhelpen: wanneer het antwoord op 'welk bewijs ondersteunt deze claim?' niet 'nog geen' is maar 'geen is mogelijk, gezien hoe deze strategie is ontworpen.' In die gevallen is de belangrijkste bevinding van het red team niet de identificatie van specifieke risico's maar de identificatie van een governance-houding die institutioneel momentum heeft verward met epistemische autoriteit.
© 2026 J. Janssen · Apparens. All rights reserved.Alle rechten voorbehouden.
ReferencesReferenties
- Argyris, C. and Schön, D. A. (1978) Organizational Learning: A Theory of Action Perspective. Reading, MA: Addison-Wesley.
- Basel Committee on Banking Supervision (2018) Stress Testing Principles. Basel: Bank for International Settlements.
- Das, S. (2017) 'Relevance of Red Teaming in Strategic Military Decision-Making.' CLAWS Journal, Winter 2017, pp. 132–143.
- DiMaggio, P. J. and Powell, W. W. (1983) 'The Iron Cage Revisited: Institutional Isomorphism and Collective Rationality in Organizational Fields.' American Sociological Review, 48(2), pp. 147–160.
- European Commission (2024) Regulation (EU) 2024/1689 — Artificial Intelligence Act. OJ L, 2024/1689. Brussels: European Commission.
- Eisenhardt, K. M. (1989) 'Agency Theory: An Assessment and Review.' Academy of Management Review, 14(1), pp. 57–74.
- Feffer, M., Sinha, A., Deng, W. H., Lipton, Z. C. and Heidari, H. (2024) 'Red-Teaming for Generative AI: Silver Bullet or Security Theater?' Proceedings of the Seventh AAAI/ACM Conference on AI, Ethics, and Society (AIES 2024), pp. 421–437.
- Ganguli, D. et al. (2022) 'Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned.' arXiv preprint arXiv:2209.07858.
- Goodfellow, I. J., Shlens, J. and Szegedy, C. (2015) 'Explaining and Harnessing Adversarial Examples.' International Conference on Learning Representations (ICLR 2015). arXiv preprint arXiv:1412.6572.
- Hood, C. and Rothstein, H. (2001) 'Risk Regulation Under Pressure: Problem Solving or Blame Shifting?' Administration and Society, 33(1), pp. 21–53.
- International Journal of Engineering Technology Research and Management (IJETRM) (2025) 'AI Governance and Risk in Financial Systems.' IJETRM, 9(4), pp. 451–460.
- Kahneman, D. and Lovallo, D. (1993) 'Timid Choices and Bold Forecasts: A Cognitive Perspective on Risk Taking.' Management Science, 39(1), pp. 17–31.
- Klein, G. A. (1993) 'A Recognition-Primed Decision (RPD) Model of Rapid Decision Making.' In G. A. Klein, J. Orasanu, R. Calderwood and C. E. Zsambok (eds.) Decision Making in Action: Models and Methods. Norwood, NJ: Ablex, pp. 138–147.
- Knight, F. H. (1921) Risk, Uncertainty and Profit. Boston, MA: Hart, Schaffner and Marx.
- Lovallo, D. and Kahneman, D. (2003) 'Delusions of Success: How Optimism Undermines Executives' Decisions.' Harvard Business Review, 81(7), pp. 56–63.
- Majumdar, S., Pendleton, B. and Gupta, A. (2025) 'Red Teaming AI Red Teaming.' Proceedings of Machine Learning Research, 299, pp. 1–20.
- March, J. G. and Simon, H. A. (1958) Organizations. New York: John Wiley and Sons.
- Mintzberg, H. and Waters, J. A. (1985) 'Of Strategies, Deliberate and Emergent.' Strategic Management Journal, 6(3), pp. 257–272.
- National Institute of Standards and Technology (NIST) (2023) Artificial Intelligence Risk Management Framework (AI RMF 1.0). Gaithersburg, MD: NIST.
- Pemmasani, P. K. and Osaka, M. (2019) 'Red Teaming as a Service (RTaaS): Proactive Defense Strategies for IT Cloud Ecosystems.' The ComputerTech, 5(1), pp. 24–31.
- Perrow, C. (1984) Normal Accidents: Living with High-Risk Technologies. New York: Basic Books.
- Power, M. (2007) Organized Uncertainty: Designing a World of Risk Management. Oxford: Oxford University Press.
- Schoemaker, P. J. H. (1995) 'Scenario Planning: A Tool for Strategic Thinking.' Sloan Management Review, 36(2), pp. 25–40.
- Simon, H. A. (1957) Models of Man: Social and Rational. New York: John Wiley and Sons.
- Tetlock, P. E. (2005) Expert Political Judgment: How Good Is It? How Can We Know? Princeton, NJ: Princeton University Press.
- Walsh, J. P. and Fahey, L. (1986) 'The Role of Negotiated Belief Structures in Strategy Making.' Journal of Management, 12(3), pp. 325–338.
- Weick, K. E. (1995) Sensemaking in Organizations. Thousand Oaks, CA: Sage Publications.
- Zenko, M. (2015) Red Team: How to Succeed by Thinking Like the Enemy. New York: Basic Books.