LABORATORY ANIMALS, 2026 (SCI-Expanded, Scopus)
This study compared the macroscopic adhesion scoring performance of large language models (LLMs: ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro) with that of novice veterinary surgeons, using expert consensus as the reference. Eighty standardized postoperative laparotomy cases in Wistar rats were photographed and scored using the Nair 0-4 adhesion scale. Two novice surgeons and three LLMs independently evaluated each case; the expert reference was defined by a surgeon and a pathologist. Group differences were analyzed using the Kruskal-Wallis test with Dunn-Bonferroni post hoc comparisons, correlations by Bonferroni-adjusted Spearman coefficients, human interobserver reliability by intraclass correlation coefficient (ICC) (A,1), and agreement with the expert by quadratic-weighted Cohen's kappa and exact-match accuracy. Overall differences were significant. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro, and Novice 1 assigned lower scores, while Novice 2 assigned higher scores. Correlations with the expert were significant for Novice 1 (rho = 0.706), Novice 2 (rho = 0.593), and ChatGPT-o3 (rho = 0.617), but not for ChatGPT-5 or Gemini-2.5 Pro. Inter-observer reliability among human raters was moderate (ICC = 0.55). Importantly, absolute exact-match accuracies were modest across all evaluators, with the highest accuracy observed for Novice 1 (33.8%) and <= 26.3% for the LLMs. While novices outperformed the models, these findings highlight the intrinsic difficulty of fine-grained Nair 0-4 adhesion scoring on two-dimensional intraoperative images and indicate that current LLMs are better suited as calibrated decision-support tools rather than stand-alone raters. R & eacute;sum & eacute;Cette & eacute;tude comparait les performances macroscopiques de notation des adh & eacute;rences des mod & egrave;les de langage (LLM : ChatGPT-o3, ChatGPT-5, Gemini-2,5 Pro) avec celle des v & eacute;t & eacute;rinaires d & eacute;butants, en utilisant le consensus d'experts comme r & eacute;f & eacute;rence. Quatre-vingts cas standardis & eacute;s de laparotomie postop & eacute;ratoire pratiqu & eacute;e chez des rats Wistar ont & eacute;t & eacute; photographi & eacute;s et & eacute;valu & eacute;s & agrave; l'aide de l'& eacute;chelle d'adh & eacute;rences Nair 0-4. Deux chirurgiens d & eacute;butants et trois LLM ont & eacute;valu & eacute; ind & eacute;pendamment chaque cas ; la r & eacute;f & eacute;rence experte a & eacute;t & eacute; d & eacute;finie par un chirurgien et un pathologiste. Les diff & eacute;rences entre les groupes ont & eacute;t & eacute; analys & eacute;es & agrave; l'aide du test de Kruskal-Wallis avec des comparaisons post-hoc de Dunn-Bonferroni, les corr & eacute;lations par les coefficients de Spearman ajust & eacute;s selon Bonferroni, la fiabilit & eacute; inter-observateurs humaine par l'ICC (A,1), et la concordance avec l'expert par le kappa de Cohen & agrave; pond & eacute;ration quadratique et l'exactitude des correspondances (exact-match accuracy) Les diff & eacute;rences globales & eacute;taient significatives. ChatGPT-o3, ChatGPT-5, Gemini-2,5 Pro et Novice 1 ont attribu & eacute; des scores plus faibles, tandis que Novice 2 attribuait des scores plus & eacute;lev & eacute;s. Les corr & eacute;lations avec l'expert & eacute;taient significatives pour Novice 1 (rho = 0,706), Novice 2 (rho = 0,593) et ChatGPT-o3 (rho = 0,617), mais pas pour ChatGPT-5 ou Gemini-2,5 Pro. La fiabilit & eacute; interobservateurs chez les & eacute;valuateurs humains & eacute;tait mod & eacute;r & eacute;e (ICC = 0,55). Fait important, les exactitudes des correspondances exactes (exact-match accuracies) & eacute;taient modestes pour tous les & eacute;valuateurs, l'exactitude la plus & eacute;lev & eacute;e ayant & eacute;t & eacute; observ & eacute;e concernait Novice 1 (33,8 %) et & eacute;tait <= 26,3 % pour les LLM. Bien que les versions Novice aient surpass & eacute; les mod & egrave;les, ces r & eacute;sultats mettent en & eacute;vidence la difficult & eacute; intrins & egrave;que du score de Nair (adh & eacute;rence 0-4) & agrave; grain fin sur des images perop & eacute;ratoires bidimensionnelles et indiquent que les LLM actuels sont mieux adapt & eacute;s comme outils d'aide & agrave; la d & eacute;cision & eacute;talonn & eacute;s plut & ocirc;t que comme & eacute;valuateurs autonomes. In dieser Studie wurde die Leistung gro ss er Sprachmodelle (LLMs: ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro) bei der makroskopischen Bewertung von Adh & auml;sionen mit der von angehenden Tier & auml;rzten (Novizen) verglichen, wobei der Konsens von Experten als Referenz diente. Achtzig standardisierte postoperative Laparotomie-F & auml;lle bei Wistar-Ratten wurden fotografiert und anhand der Nair-0-4-Adh & auml;sionsskala bewertet. Zwei angehende Chirurgen (Novizen) und drei LLMs bewerteten jeden Fall unabh & auml;ngig voneinander; die Expertenreferenz wurde von einem Chirurgen und einem Pathologen definiert. Die Gruppenunterschiede wurden mit dem Kruskal-Wallis-Test mit Dunn-Bonferroni-Post-hoc-Vergleichen, Korrelationen mit Bonferroni-bereinigten Spearman-Koeffizienten, der Interobserver-Reliabilit & auml;t beim Menschen mit ICC (A,1) und der & Uuml;bereinstimmung mit dem Experten mit quadratisch gewichteten Cohen-kappa-Werten und exakter & Uuml;bereinstimmungsgenauigkeit analysiert. Die Gesamtunterschiede waren signifikant. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro und Novize 1 vergaben niedrigere Bewertungen, w & auml;hrend Novize 2 h & ouml;here Bewertungen vergab. Die Korrelationen mit dem Experten waren f & uuml;r Novize 1 (rho = 0,706), Novize 2 (rho = 0,593) und ChatGPT-o3 (rho = 0,617) signifikant, nicht jedoch f & uuml;r ChatGPT-5 oder Gemini-2.5 Pro. Die Interobserver-Reliabilit & auml;t unter den menschlichen Bewertern war moderat (ICC = 0,55). Wichtig ist, dass die absolute Genauigkeit der exakten & Uuml;bereinstimmungen bei allen Bewertern moderat war, wobei die h & ouml;chste Genauigkeit bei Novize 1 (33,8 %) und <= 26,3 % bei den LLMs beobachtet wurde. Zwar & uuml;bertrafen die Novizen die Modelle, doch unterstreichen diese Ergebnisse die inh & auml;rente Schwierigkeit einer detaillierten Nair-0-4-Adh & auml;sionsbewertung auf zweidimensionalen intraoperativen Bildern und deuten darauf hin, dass aktuelle LLMs eher als kalibrierte Entscheidungshilfen geeignet sind als eigenst & auml;ndige Bewerter. ResumenEste estudio compar & oacute; el rendimiento en la puntuaci & oacute;n macrosc & oacute;pica de adherencias de modelos de lenguaje de gran tama & ntilde;o (LLM: ChatGPT-o3, ChatGPT-5 y Gemini-2.5 Pro) con el de cirujanos veterinarios noveles, utilizando el consenso de expertos como referencia. Se fotografiaron ochenta casos estandarizados de laparotom & iacute;a postoperatoria en ratas Wistar y se puntuaron utilizando la escala de adherencias de Nair 0-4. Dos cirujanos noveles y tres LLM evaluaron cada caso de forma independiente; la referencia experta fue establecida por un cirujano y un pat & oacute;logo. Las diferencias entre grupos se analizaron mediante la prueba de Kruskal-Wallis con comparaciones post hoc de Dunn-Bonferroni; las correlaciones se evaluaron mediante coeficientes de Spearman ajustados por Bonferroni; la fiabilidad interobservador humana se determin & oacute; mediante el CCI (A,1); y la concordancia con el experto se evalu & oacute; mediante el coeficiente kappa de Cohen ponderado cuadr & aacute;ticamente y la exactitud de coincidencia exacta. Las diferencias globales fueron significativas. ChatGPT-o3, ChatGPT-5, Gemini-2.5 Pro y el Novel 1 asignaron puntuaciones m & aacute;s bajas, mientras que el Novel 2 asign & oacute; puntuaciones m & aacute;s altas. Las correlaciones con el experto fueron significativas para el Novel 1 (rho = 0,706), el Novel 2 (rho = 0,593) y ChatGPT-o3 (rho = 0,617), pero no para ChatGPT-5 ni para Gemini-2.5 Pro. La fiabilidad interobservador entre los evaluadores humanos fue moderada (CCI = 0,55). Es importante destacar que las exactitudes absolutas de coincidencia exacta fueron modestas en todos los evaluadores, observ & aacute;ndose la mayor exactitud en el Novel 1 (33,8 %) y <= 26,3 % en los LLM. Aunque los noveles superaron a los modelos, estos hallazgos ponen de manifiesto la dificultad intr & iacute;nseca de la puntuaci & oacute;n fina de adherencias Nair 0-4 en im & aacute;genes intraoperatorias bidimensionales e indican que los LLM actuales est & aacute;n mejor orientados como herramientas de apoyo a la decisi & oacute;n calibradas que como evaluadores independientes.