KI-gestützte Testfallerstellung

Die KI-Arbeitsgruppe von Be Germany evaluiert ständig praktische Anwendungen von künstlicher Intelligenz in der Finanzindustrie.
Dieser Einblick ist eine Momentaufnahme unserer neuesten Erkenntnisse zum Thema KI-gestütztes Software-Testen.
Ziel dieser Studie ist es, die Effektivität verschiedener KI-Modelle bei der Generierung von Testfällen auf der Grundlage von Funktionsspezifikationen zu bewerten. Ziel dieser Studie ist es, die Auswirkungen verschiedener KI-Open-Source-Modelle, die lokal ausgeführt werden können, auf die Minimierung des für die Testfallerstellung erforderlichen Aufwands zu bewerten.

Die Ergebnisse wurden auf der Grundlage von Qualität, Vollständigkeit, logischem Ablauf, Organisation der Ausgabe und Übereinstimmung mit den ISTQB-Standards analysiert und verglichen. Die Ergebnisse geben Aufschluss über die verschiedenen Vorteile und Grenzen der einzelnen KI-Modelle im Zusammenhang mit der Testfallerstellung und bieten Möglichkeiten für ihren potenziellen Einsatz bei der Automatisierung von Testprozessen.

Einführung:

Eine der schwierigsten und arbeitsintensivsten Phasen des Lebenszyklus von Softwaretests ist die Phase der Ableitung von Testfällen. In der Vergangenheit erforderte dieser Prozess hochqualifizierte Qualitätssicherungsingenieure, um die Spezifikationen sorgfältig zu prüfen und detaillierte Testszenarien zu erstellen, die die Systemleistung unter verschiedenen Arbeitsbedingungen verifizieren und validieren. Wenn das System wächst, nimmt auch die Komplexität der zu testenden Software zu. Je größer das System wird, desto ressourcenintensiver und fehleranfälliger wird die manuelle Erstellung von Testfällen.

Um diesen Herausforderungen zu begegnen, wendet sich die Softwareindustrie zunehmend dem Megatrend der künstlichen Intelligenz (KI) zu. In unserer Studie wird die Leistung mehrerer KI-Modelle bei der Erstellung von Testfällen anhand eines Spezifikationsdokuments für ein kleines Segment einer Handelsanwendung bewertet.

Was bedeutet „AI“ in dieser Veröffentlichung?

In dieser Veröffentlichung bezieht sich der Begriff „KI“ speziell auf große Sprachmodelle (LLMs), eine Art künstlicher Intelligenz, die darauf ausgelegt ist, menschenähnlichen Text zu verarbeiten und zu erzeugen. LLMs sind fortschrittliche maschinelle Lernmodelle, die auf riesigen Mengen von Textdaten trainiert werden, um auf der Grundlage von Eingabeaufforderungen kohärente Antworten vorherzusagen und zu erzeugen. Sie verwenden tiefe neuronale Netze, insbesondere Transformer-Architekturen, um Kontext, Beziehungen und Muster in der Sprache zu verstehen.
Wir konzentrieren uns auf Open-Source-LLMs, die lokal ausgeführt werden können, was im Vergleich zu Cloud-basierten Alternativen mehr Kontrolle, Datenschutz und Anpassungsfähigkeit gewährleistet. Diese Modelle sind in der Lage, Aufgaben wie die Codegenerierung, das Debugging und die Erstellung von Testfällen zu übernehmen, was sie zu leistungsfähigen Werkzeugen für Softwaretests macht. Durch die Nutzung ihrer Fähigkeit, natürliche Sprache und Programmiersyntax zu verstehen, ermöglichen LLMs eine effiziente Automatisierung und Erweiterung von Testprozessen.

Methodik der Untersuchung:

In der Vorphase der Studie wurde eine umfassende Analyse mehrerer lokal ausführbarer Open-Source-KI-Modelle durchgeführt. Bei der Bewertung wurden verschiedene Faktoren wie Modellleistung, Effizienz, Kompatibilität mit der vorhandenen Infrastruktur, Benutzerfreundlichkeit und ethische Aspekte berücksichtigt.

Auf der Grundlage dieser umfassenden Analyse wurden vier KI-Modelle in die engere Auswahl für die abschließende Untersuchungsrunde genommen. Bei der Auswahl wurde darauf geachtet, dass die Modelle fundierte Erkenntnisse liefern und gleichzeitig den spezifischen Anforderungen der Studie entsprechen.

Der Forschungsansatz war so konzipiert, dass eine objektive und faire Untersuchung der Fähigkeit von KI-Modellen zur Generierung von Testfällen gewährleistet war. Jedes untersuchte Modell erhielt die gleiche Aufforderung und die gleiche funktionale Spezifikation. Auf diese Weise wurden mögliche Unstimmigkeiten bei den Eingabebedingungen, die das Ergebnis hätten beeinträchtigen können, vermieden.

Vorbereitung der Eingabe:Erstellung eines Prompts und einer standardisierten funktionalen Spezifikation, die das Auftragseingabefenster einer Handelsanwendung und die erforderlichen Bedingungen für das Testen beschreibt.
KI-Modell-Verarbeitung: Jedes Modell erhält unabhängig voneinander dieselbe Eingabe mit festgelegten Temperatures und anderen Attributen zur Texterzeugung.
Sammlung der Ergebnisse: Systematische und methodische Sammlung der von jedem Modell erzeugten Ergebnisse ohne jegliche Änderung oder Nachbearbeitung.
Auswertung: Überprüfung und Bewertung der Ergebnisse auf der Grundlage der unten genannten Kriterien:

ISTQB-Konformität: Einhaltung des Softwareteststandards
Qualität: Klarheit, Präzision und Detailgenauigkeit
Logischer Ablauf: Logische und gut strukturierte Prüfschritte
Vollständig: Abdeckung von Positiv-, Negativ- und Randfall-Testszenarien
Organization: Organised presentation of test cases

Der Überprüfungsprozess umfasste sowohl quantitative als auch qualitative Bewertungen. Faktoren wie die Anzahl der gültigen Testfälle, der wiederholten Testfälle, der ungültigen Testfälle und der neuen Testfälle wurden als Teil der quantitativen Metriken berücksichtigt. Die qualitative Überprüfung umfasste die Analyse durch erfahrene Softwaretest-Experten, die die ISTQB-Standards beherrschen. Dieser duale Ansatz lieferte ein umfassendes Wissen über die Vor- und Nachteile der Testfallerstellung aus der funktionalen Spezifikation.

Praktische Anwendungsmöglichkeiten:

Rationalisierung von QA-Workflows in der Softwareentwicklung
Verkürzung der Markteinführungszeit für Softwareprodukte
Verbesserung der Testabdeckung durch KI-Unterstützung
Optimierung der Ressourcenzuweisung in Testabteilungen

Vergleichende Analyse und numerische Ergebnisse:

Die vergleichende Analyse zeigt deutliche Unterschiede in den Kompetenzen der KI-Modelle bei der Testfallerstellung. Eine detaillierte quantitative Bewertung der Ergebnisse in Bezug auf die Bewertungsfaktoren zeigt die Stärken und Schwächen der einzelnen Modelle auf.

Aus der obigen Tabelle geht hervor, dass:

Modell 1 zeigt eine hohe Fähigkeit zur Erzeugung von Ergebnissen mit einer Testabdeckung von 80 % ohne wiederholte oder ungültige Testfälle, wobei nur 20 % der Szenarien fehlen, verglichen mit der vom QA-Team durchgeführten Aufgabe. Das Modell führte keine neuen Testszenarien ein und legte den Schwerpunkt auf die Testabdeckung und nicht auf die Erstellung kreativer Fälle. Das Modell zeigte auch hervorragende Fähigkeiten bei der Strukturierung von Testfällen mit klarem und logischem Ablauf.

Modell 2 bietet eine ausgewogene Leistung mit einer respektablen Abdeckung von 66,67 % und einem bemerkenswerten Maß an Kreativität. Eine Testwiederholung von 13,33 % deutet jedoch darauf hin, dass bei der Ausgangsfilterung noch Verbesserungspotenzial besteht. Während das Modell mäßig mit dem manuellen Benchmark-Set übereinstimmt, deutet das Delta darauf hin, dass das Modell für ergänzende Tests verwendet werden kann.

Modell 3 weist ein geringes Ergebnisvolumen und eine schwache Validität auf, da mehr als 50 % der Szenarien fehlen. Es wurden keine neuen Szenarien eingeführt, was auf eine begrenzte Vielfalt bei der Testfallerstellung schließen lässt. Daher sollte dieses Modell nur für leichtgewichtige Testaufgaben verwendet werden, bei denen eine geringere Testabdeckung in Kauf genommen wird, als bei der Verwendung als eigenständige Option.

Modell 4 zeichnet sich durch seine Kreativität aus, hat aber mit der Zuverlässigkeit zu kämpfen. Obwohl es im Vergleich zur manuellen Testfallerstellung 66,67 % der Testfälle generierte, waren nur 40 % gültig. Die wiederholten und ungültigen Testfälle zeigen das Rauschen im Testprozess. Die Generierung von 26,67 % neuen Testfällen zeigt, dass das Modell kreativ sein kann, was auf eine Erweiterung über den definierten Umfang hinaus hinweist.

Fazit:

Unsere umfassende Analyse von Testfällen, die von KI-Modellen aus funktionalen Spezifikationen generiert wurden, bietet wichtige Einblicke in die Stärken und Schwächen der wichtigsten KI-Modelle auf dem heutigen Markt. Das wichtigste Ergebnis ist, dass die KI-gestützte Testgenerierung zwar ein großes Potenzial hat, ihre Effektivität jedoch je nach Modell und Implementierungsansatz erheblich variiert.

Modell M1 zeigt eine überlegene Fähigkeit, strukturierte, ISTQB-konforme Testfälle mit einem vernachlässigbaren Grad an Ungültigkeit oder Wiederholungen zu entwickeln.

Die Integration mehrerer KI-Modelle kann eine umfassendere Testabdeckung liefern als ein einzelnes Modell, das allein arbeitet.

Für das Testen wichtiger Anwendungen ist ein menschliches Eingreifen erforderlich, da der logische Ablauf und die Organisationsmöglichkeiten eines KI-Modells begrenzt sind.

Wirksame Eingabeaufforderungen haben einen erheblichen Einfluss auf die Qualität der Ergebnisse und die Einhaltung der Teststandards.

Die KI-gestützte Testfallerstellung kann die Abdeckung potenziell verbessern und den manuellen Aufwand verringern.