Språkmodeller kan tolka krav vid mjukvaruutveckling
Att sortera tusentals krav vid utveckling av programvara är både komplext och tidskrävande. Nu visar forskare vid Örebro universitet att stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan effektivisera arbetet – men att det samtidigt gäller att hitta rätt balans mellan modellernas stabilitet och kreativitet.
När nya IT-system ska utvecklas är det avgörande att användarkraven tolkas korrekt. Det gäller både funktionella krav, som beskriver vad systemet ska göra, och de icke-funktionella, som anger hur systemet ska fungera och vilken kvalitet det ska ha.
I en ny studie har Örebroforskare testat hur väl två stora språkmodeller – GPT-4o och LLAMA 3.3-70B – klarar att automatiskt klassificera dessa krav.
– De språkmodeller vi testade är väldigt bra på att klassa funktionella krav. De visade sig vara sämre på att klassificera icke-funktionella krav, säger Fredrik Karlsson, professor i informatik vid Örebro universitet.
Balans mellan precision och variation
Totalt testade forskarna 625 krav med en metod där modellerna inte har tränats på uppgiften i förväg. De undersökte också hur resultaten påverkas av en parameterinställning som kallas temperatur och hur konsekventa modellerna är i sina klassningar. En låg temperatur gör modellernas svar mer förutsägbara, medan en hög temperatur ger större variation.
– GPT-4o presterar bäst när temperaturinställning tillåter en viss variation. Modellen blir då relativt träffsäker när det kommer till funktionella krav, säger Fredrik Karlsson.
Samtidigt förbättrades klassificeringen av icke-funktionella krav vid högre temperaturer.
– Det innebär att det krävs en avvägning mellan stabilitet och kreativitet, beroende på vad som är viktigast i sammanhanget.
Studien visar också att LLAMA 3.3-70B uppvisar större konsekvens i sina klassificeringar, oavsett temperatur.
Kombination av språkmodeller och människa
Stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan kraftigt effektivisera arbetet med att klassificera krav uttryckta i naturligt språk. Men enligt forskarna får det inte ske helt utan mänsklig granskning.
– Modellerna kan spara mycket tid, men vi rekommenderar att en människa alltid granskar resultatet och regelbundet kontrollerar av att klassificeringen fungerar som den ska. Det gäller särskilt i sektorer med höga krav, som inom sjukvård eller flyg, säger Fredrik Karlsson.
Pressbilder
Bildlänk: https://via.tt.se/data/images/public/3236907/3960731/ff538858-5a7e-48fd-8a50-209c64eb1abb.jpg
Bildtext: Shang Gao, Tanja E. Havström, Panagiota Chatzipetrou och Fredrik Karlsson, informatikforskare vid Örebro universitet.
Länkar
How Reliable Are GPT-4o and LLAMA3.3-70B in Classifying Natural Language Requirements?
Kontaktuppgifter
Jasenka Dobric
Forskningskommunikatör
Tel: 019 303035
Mobil: 0735 930995
E-post: jasenka.dobric@oru.se