Der Promt ist prinzipiell wichtig. Oft treffen Menschen gedankliche Annahmen, die sie dort nicht aufschreiben. Dadurch weist das generierte Ergebnis unbewusst ab.
Eine Quote von 94% korrekter Antworten halte ich in realistischen, breiten Messungen für völlig utopisch. "KI" hat kein Empfinden, was wahr ist. Dementsprechend sind die Quoten in Studien weitaus schlechter. Den Chatbot zu fragen, ob das stimmt, ist daher absurd. Das weiß der nicht und kann es gar nicht wissen. Diesen Job musst du selbst machen. Vermutlich kommt daher die viel zu hohe Quote an korrekten Antworten.

Chatbots sind nie darauf ausgelegt, Wahrheiten zu liefern. Sondern, möglichst immer eine plausibel aussehende Antwort auszugeben. Im Zweifel wird daher irgendwas herbei Halluziniert. Klingt auf den ersten Blick super. Beim genaueren Prüfen entpuppt es sich als Bullshit. Nicht umsonst wird ChatGPT auch als "Bullshit generator" bezeichnet.