Разкриха стотици изфабрикувани с ИИ научни публикации по изопачени фрази

През април 2021 г. поредица от странни фрази в статии в списания предизвикала интереса на група компютърни учени. Групата, ръководена от Гийом Кабанак от Университета в Тулуза, Франция, не можела да разбере защо изследователите биха използвали термините "фалшиво съзнание", "дълбока невронна организация" и "колосална информация" вместо масово признатите термини "изкуствен интелект", "дълбока невронна мрежа" и "големи  данни".

По-нататъшното разследване разкри, че тези странни термини, които те наричат ​​"изопачени фрази", вероятно са резултат от автоматизиран превод или софтуер, който се опитва да прикрие плагиатство. И те изглежда са в изобилие в статии по компютърни науки.

Робо-писатели: Възходът и рисковете на генериращия език ИИ

Изследванията показват, че Кабанак и неговите колеги са открили нов тип изфабрикувана изследователска статия и че тяхната работа, публикувана в предпечат на arXiv, може да разкрива само върха на айсберга, когато става въпрос за засегнатата литература.

За да разберат колко документи са засегнати, изследователите провели търсене за 30 изопачени фрази в статии от списания, индексирани в базата данни с цитати Dimensions. Те открили повече от 860 публикации с поне една от фразите, 500 от които били публикувани в едно списание -  "Микропроцесори и Микросистеми".

"Това вреди на науката. Не можете да се доверите на тези документи, затова ние трябва да ги намерим и да ги оттеглим", казва Кабанак.

Научен термин - Изoпачена фраза

Big data
Големи данни

Colossal information
Колосална информация

Artificial intelligence
Изкуствен интелект

Counterfeit consciousness
Фалшиво съзнание

Deep neural network
Дълбока невронна мрежа

Profound neural organization
Дълбока невронна организация

Remaining energy
Оставаща енергия

Leftover vitality
Остатъчна жизненост

Cloud computing
Облачни изчисления

Haze figuring
Мъгляво фигуриране

Signal to noise
Сигнал към шум

Flag commotion
Флаг вълнение

Random value
Случайна стойност

Irregular esteem
Неравномерно уважение

Подозирайки, че изопачените фрази са резултат от автоматизиран превод или софтуер, който пренаписва съществуващ текст, Кабанак и колеги пуснали селекция от резюмета от "Микропроцесори и микросистеми" и други списания през инструмент, който може да идентифицира дали текстовете са генерирани от инструмента за изкуствен интелект GPT. В публикациите в "Микропроцесори и микросистеми", маркирани от инструмента, ръчната проверка разкрила "критични недостатъци", като например безсмислен текст, както и плагиатски текст и изображения.

За да търсят по-задълбочено, изследователите изтеглили всички документи, публикувани в "Микропроцесори и микросистеми" между 2018 и 2021 г., времева рамка, която те избрали, тъй като през 2019 г. е пусната обновена версия на GPT. Анализът показал, че документите, публикувани след февруари 2021 г., са били приети е средно пет пъти по-бързо от публикуваните преди тази дата. Голяма част от тези статии идвали от автори в Китай. И една подгрупа документи имала идентични дати на подаване, преразглеждане и приемане, като повечето са били подадени в специални издания на списанието. Това е подозрително, казват авторите. За разлика от стандартните издания, наблюдавани от главния редактор, специалните обикновено се предлагат и контролират от гост-редактор и се фокусират върху конкретна област на изследване.

"Микропроцесори и микросистеми" не били единствените засегнати. Изследователите са открили доказателства за изопачени фрази в статии, публикувани в 35 други списания. "Предварителните проучвания показват, че няколко хиляди документи с измъчени фрази са индексирани в големи бази данни", пишат те, добавяйки, че "други изопачени фрази, свързани с терминологията в други научни области, тепърва ще бъдат разкрити".

Специално разследване

По времето, когато Кабанак и колегите му за първи път забелязват изопачените фрази, редакторът на "Микропроцесори и микросистеми" започнал да се притеснява за целостта и строгостта на рецензирането на статии, публикувани в някои от специалните издания на списанието.

Издателят на списанието Elsevier е започнал разследване. То все още е в ход, но в средата на юли издателят добавил обозначение за загриженост към повече от 400 статии, които се появиха в шест специални броя на списанието.

Обозначаването като предизвикващи загриженост означава, че документите в засегнатите специални издания на "Микропроцесори и микросистеми" се "преоценяват независимо" един по един и списанието допълнително ще актуализира тяхното състояние след приключване на разследванията.

Борбата срещу фабрикуваните фалшиви публикации, които лансират фалшива наука

Издателят допълва, че поради "грешка в конфигурацията в системата за редактиране" в списанието, нито главният редактор, нито редакторът, определен за обработка на документите, не са ги получили за одобрение, както трябва. "Тази грешка в конфигурацията беше временен проблем поради миграцията на системата и беше коригирана веднага след като бе открита", се казва в съобщението.

Говорител на Elsevier заяви, че разследването на "Микропроцесори и микросистеми" е установило, че авторите вероятно са използвали софтуер за обратен превод, за да прикрият плагиатство, и че това е вероятно източникът на измъчените фрази.

Разследването също така разкрива, че 49 статии, отбелязани като подозрителни от Кабанак и неговите колеги и публикувани в стандартни издания на списанието, първоначално са били изпратени към специализираните му издания и са приети от гост-редактори, "но впоследствие са публикувани в редовни издания, по заявка на авторите", се казва в изявлението. Тези документи вече са част от разследването на Elsevier, добавя той.

Елизабет Бик, анализатор на целостта на изследванията в Калифорния, известна с уменията си да забелязва дублирани изображения в документи, казва, че констатациите от изследването на Кабанак са "шокиращи". "Това е много нов и обезпокоителен тип фабрикуване на доклади", добавя тя.

Дженифър Бърн, изследовател по молекулярна онкология от Университета в Сидни, Австралия, която също работи за откриване на фабрикувани документи, казва, че това вероятно е върхът на айсберга, защото изследователите са разгледали задълбочено само едно списание от един издател. "Тези документи също така бяха открити, защото бяха с много лошо качество, но в литературата може да има по-правдоподобни документи, генерирани от AI, които да са по-трудни за откриване", добавя тя.

Cabanac, G., Labbé, C. & Magazinov, A. Preprint at arXiv https://arxiv.org/abs/2107.06751 (2021)

doi: https://doi.org/10.1038/d41586-021-02134-0

Коментари в сайта

Случаен виц

Последни новини