Comparison of adhesion scoring performance between humans and large language models in experimental rat laparotomy

OKUR, Sıtkıcan; Modoglu, Esra; Baykal, Busra; Yanmaz, Latif; Kirman, Esra; Bedir, Ayse; OKUR, Damla; Akcora, Yasemin

doi:10.1177/00236772261426654

Comparison of adhesion scoring performance between humans and large language models in experimental rat laparotomy

OKUR S., Modoglu E., Baykal B., Yanmaz L. E., Kirman E. M., Bedir A. G., ...Daha Fazla

LABORATORY ANIMALS, 2026 (SCI-Expanded, Scopus)

Yayın Türü: Makale / Tam Makale
Basım Tarihi: 2026
Doi Numarası: 10.1177/00236772261426654
Dergi Adı: LABORATORY ANIMALS
Derginin Tarandığı İndeksler: Science Citation Index Expanded (SCI-EXPANDED), Scopus, BIOSIS, Chemical Abstracts Core, EMBASE
Atatürk Üniversitesi Adresli: Evet

Özet

This study compared the macroscopic adhesion scoring performance of large language models (LLMs: ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro) with that of novice veterinary surgeons, using expert consensus as the reference. Eighty standardized postoperative laparotomy cases in Wistar rats were photographed and scored using the Nair 0-4 adhesion scale. Two novice surgeons and three LLMs independently evaluated each case; the expert reference was defined by a surgeon and a pathologist. Group differences were analyzed using the Kruskal-Wallis test with Dunn-Bonferroni post hoc comparisons, correlations by Bonferroni-adjusted Spearman coefficients, human interobserver reliability by intraclass correlation coefficient (ICC) (A,1), and agreement with the expert by quadratic-weighted Cohen's kappa and exact-match accuracy. Overall differences were significant. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro, and Novice 1 assigned lower scores, while Novice 2 assigned higher scores. Correlations with the expert were significant for Novice 1 (rho = 0.706), Novice 2 (rho = 0.593), and ChatGPT-o3 (rho = 0.617), but not for ChatGPT-5 or Gemini-2.5 Pro. Inter-observer reliability among human raters was moderate (ICC = 0.55). Importantly, absolute exact-match accuracies were modest across all evaluators, with the highest accuracy observed for Novice 1 (33.8%) and <= 26.3% for the LLMs. While novices outperformed the models, these findings highlight the intrinsic difficulty of fine-grained Nair 0-4 adhesion scoring on two-dimensional intraoperative images and indicate that current LLMs are better suited as calibrated decision-support tools rather than stand-alone raters. R & eacute;sum & eacute;Cette & eacute;tude comparait les performances macroscopiques de notation des adh & eacute;rences des mod & egrave;les de langage (LLM : ChatGPT-o3, ChatGPT-5, Gemini-2,5 Pro) avec celle des v & eacute;t & eacute;rinaires d & eacute;butants, en utilisant le consensus d'experts comme r & eacute;f & eacute;rence. Quatre-vingts cas standardis & eacute;s de laparotomie postop & eacute;ratoire pratiqu & eacute;e chez des rats Wistar ont & eacute;t & eacute; photographi & eacute;s et & eacute;valu & eacute;s & agrave; l'aide de l'& eacute;chelle d'adh & eacute;rences Nair 0-4. Deux chirurgiens d & eacute;butants et trois LLM ont & eacute;valu & eacute; ind & eacute;pendamment chaque cas ; la r & eacute;f & eacute;rence experte a & eacute;t & eacute; d & eacute;finie par un chirurgien et un pathologiste. Les diff & eacute;rences entre les groupes ont & eacute;t & eacute; analys & eacute;es & agrave; l'aide du test de Kruskal-Wallis avec des comparaisons post-hoc de Dunn-Bonferroni, les corr & eacute;lations par les coefficients de Spearman ajust & eacute;s selon Bonferroni, la fiabilit & eacute; inter-observateurs humaine par l'ICC (A,1), et la concordance avec l'expert par le kappa de Cohen & agrave; pond & eacute;ration quadratique et l'exactitude des correspondances (exact-match accuracy) Les diff & eacute;rences globales & eacute;taient significatives. ChatGPT-o3, ChatGPT-5, Gemini-2,5 Pro et Novice 1 ont attribu & eacute; des scores plus faibles, tandis que Novice 2 attribuait des scores plus & eacute;lev & eacute;s. Les corr & eacute;lations avec l'expert & eacute;taient significatives pour Novice 1 (rho = 0,706), Novice 2 (rho = 0,593) et ChatGPT-o3 (rho = 0,617), mais pas pour ChatGPT-5 ou Gemini-2,5 Pro. La fiabilit & eacute; interobservateurs chez les & eacute;valuateurs humains & eacute;tait mod & eacute;r & eacute;e (ICC = 0,55). Fait important, les exactitudes des correspondances exactes (exact-match accuracies) & eacute;taient modestes pour tous les & eacute;valuateurs, l'exactitude la plus & eacute;lev & eacute;e ayant & eacute;t & eacute; observ & eacute;e concernait Novice 1 (33,8 %) et & eacute;tait <= 26,3 % pour les LLM. Bien que les versions Novice aient surpass & eacute; les mod & egrave;les, ces r & eacute;sultats mettent en & eacute;vidence la difficult & eacute; intrins & egrave;que du score de Nair (adh & eacute;rence 0-4) & agrave; grain fin sur des images perop & eacute;ratoires bidimensionnelles et indiquent que les LLM actuels sont mieux adapt & eacute;s comme outils d'aide & agrave; la d & eacute;cision & eacute;talonn & eacute;s plut & ocirc;t que comme & eacute;valuateurs autonomes. In dieser Studie wurde die Leistung gro ss er Sprachmodelle (LLMs: ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro) bei der makroskopischen Bewertung von Adh & auml;sionen mit der von angehenden Tier & auml;rzten (Novizen) verglichen, wobei der Konsens von Experten als Referenz diente. Achtzig standardisierte postoperative Laparotomie-F & auml;lle bei Wistar-Ratten wurden fotografiert und anhand der Nair-0-4-Adh & auml;sionsskala bewertet. Zwei angehende Chirurgen (Novizen) und drei LLMs bewerteten jeden Fall unabh & auml;ngig voneinander; die Expertenreferenz wurde von einem Chirurgen und einem Pathologen definiert. Die Gruppenunterschiede wurden mit dem Kruskal-Wallis-Test mit Dunn-Bonferroni-Post-hoc-Vergleichen, Korrelationen mit Bonferroni-bereinigten Spearman-Koeffizienten, der Interobserver-Reliabilit & auml;t beim Menschen mit ICC (A,1) und der & Uuml;bereinstimmung mit dem Experten mit quadratisch gewichteten Cohen-kappa-Werten und exakter & Uuml;bereinstimmungsgenauigkeit analysiert. Die Gesamtunterschiede waren signifikant. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro und Novize 1 vergaben niedrigere Bewertungen, w & auml;hrend Novize 2 h & ouml;here Bewertungen vergab. Die Korrelationen mit dem Experten waren f & uuml;r Novize 1 (rho = 0,706), Novize 2 (rho = 0,593) und ChatGPT-o3 (rho = 0,617) signifikant, nicht jedoch f & uuml;r ChatGPT-5 oder Gemini-2.5 Pro. Die Interobserver-Reliabilit & auml;t unter den menschlichen Bewertern war moderat (ICC = 0,55). Wichtig ist, dass die absolute Genauigkeit der exakten & Uuml;bereinstimmungen bei allen Bewertern moderat war, wobei die h & ouml;chste Genauigkeit bei Novize 1 (33,8 %) und <= 26,3 % bei den LLMs beobachtet wurde. Zwar & uuml;bertrafen die Novizen die Modelle, doch unterstreichen diese Ergebnisse die inh & auml;rente Schwierigkeit einer detaillierten Nair-0-4-Adh & auml;sionsbewertung auf zweidimensionalen intraoperativen Bildern und deuten darauf hin, dass aktuelle LLMs eher als kalibrierte Entscheidungshilfen geeignet sind als eigenst & auml;ndige Bewerter. ResumenEste estudio compar & oacute; el rendimiento en la puntuaci & oacute;n macrosc & oacute;pica de adherencias de modelos de lenguaje de gran tama & ntilde;o (LLM: ChatGPT-o3, ChatGPT-5 y Gemini-2.5 Pro) con el de cirujanos veterinarios noveles, utilizando el consenso de expertos como referencia. Se fotografiaron ochenta casos estandarizados de laparotom & iacute;a postoperatoria en ratas Wistar y se puntuaron utilizando la escala de adherencias de Nair 0-4. Dos cirujanos noveles y tres LLM evaluaron cada caso de forma independiente; la referencia experta fue establecida por un cirujano y un pat & oacute;logo. Las diferencias entre grupos se analizaron mediante la prueba de Kruskal-Wallis con comparaciones post hoc de Dunn-Bonferroni; las correlaciones se evaluaron mediante coeficientes de Spearman ajustados por Bonferroni; la fiabilidad interobservador humana se determin & oacute; mediante el CCI (A,1); y la concordancia con el experto se evalu & oacute; mediante el coeficiente kappa de Cohen ponderado cuadr & aacute;ticamente y la exactitud de coincidencia exacta. Las diferencias globales fueron significativas. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro y el Novel 1 asignaron puntuaciones m & aacute;s bajas, mientras que el Novel 2 asign & oacute; puntuaciones m & aacute;s altas. Las correlaciones con el experto fueron significativas para el Novel 1 (rho = 0,706), el Novel 2 (rho = 0,593) y ChatGPT-o3 (rho = 0,617), pero no para ChatGPT-5 ni para Gemini-2.5 Pro. La fiabilidad interobservador entre los evaluadores humanos fue moderada (CCI = 0,55). Es importante destacar que las exactitudes absolutas de coincidencia exacta fueron modestas en todos los evaluadores, observ & aacute;ndose la mayor exactitud en el Novel 1 (33,8 %) y <= 26,3 % en los LLM. Aunque los noveles superaron a los modelos, estos hallazgos ponen de manifiesto la dificultad intr & iacute;nseca de la puntuaci & oacute;n fina de adherencias Nair 0-4 en im & aacute;genes intraoperatorias bidimensionales e indican que los LLM actuales est & aacute;n mejor orientados como herramientas de apoyo a la decisi & oacute;n calibradas que como evaluadores independientes.