Новини України та Світу

Дослідження показують, що детектори ChatGPT упереджені і їх легко обдурити

Share

Дослідники зі Стенфорда виявили, що програмне забезпечення для виявлення GPT регулярно помилково класифікує листи, написані не носіями англійської мови, і може бути обдурене “літературною мовою”.

Текст, який ви зараз читаєте, був набраний людиною в Google Doc. Але це може бути не так із текстом, який ви зустрічаєте в іншому місці. З появою генеративних програм ШІ, до яких громадськість може отримати безкоштовний доступ, як-от ChatGPT для тексту і Midjourney для зображень, стає дедалі важче відрізнити текст, створений людьми, від тексту, згенерованого ШІ.

Штучний інтелект – автоматизовані комп’ютерні системи, алгоритми і машинне навчання – вже давно використовується в соціальних мережах, наукових дослідженнях, рекламі, сільському господарстві та промисловості, в основному непомітно. Але поширення ChatGPT від OpenAI спровокувало перегони озброєнь у таких місцях, як класна кімната, де учні зверталися до програми, щоб обманювати, створюючи цілі есе, що звучать як людські. Вчителі розгорнули програмне забезпечення для виявлення, сподіваючись зловити плагіаторів на місці.

ПРОДОВЖЕННЯ ПІСЛЯ РЕКЛАМИ

У новому дослідженні, опублікованому в журналі Patterns у понеділок, дослідники зі Стенфордського університету вивчили, наскільки надійні ці генеративні детектори ШІ під час визначення того, чи був текст написаний людиною або ШІ. Дослідницька група була здивована, виявивши, що деякі з найпопулярніших детекторів GPT, створені для виявлення тексту, створеного такими додатками, як ChatGPT, регулярно помилково класифікують тексти, написані не носіями англійської мови, як створені штучним інтелектом, наголошуючи на обмеженнях і упередженнях, про які повинні знати користувачі. з.

Команда взяла 91 есе TOEFL (тест на знання англійської мови як іноземної) з китайського форуму і 88 есе, написаних восьмикласниками зі США. Вони перевірили їх за допомогою семи готових детекторів GPT, включно з детектором OpenAI і GPTZero , і виявили, що тільки 5,1% студентських есе в США були класифіковані як “створені ШІ”. З іншого боку, написані людьми есе TOEFL були неправильно класифіковані в 61% випадків. Один конкретний детектор позначив 97,8% есе TOEFL як згенеровані ШІ.

Усі сім детекторів позначили 18 із 91 есе TOEFL як згенеровані ШІ. Коли дослідники заглибилися в ці 18 есе, вони зазначили, що причиною, ймовірно, було менше “текстового здивування”. Здивування – це свого роду непряма міра мінливості або випадковості в даному тексті. Раніше було показано, що письменники, які не є носіями англійської мови, мають менш багатий словниковий запас і використовують менш багату граматику. Детекторам GPT здається, що це було написано штучним інтелектом.

По суті, якщо ви використовуєте багатослівний і художній текст, вас навряд чи зарахують до ШІ. Але це свідчить про тривожну упередженість і викликає побоювання, що на тих, для кого англійська мова не є рідною, може негативно вплинути, наприклад, приймання на роботу або шкільні іспити, де їхній текст позначається як згенерований ШІ.

ChatGPT і “літературна мова”

Дослідники провели другий експеримент, фактично перевернувши перший з ніг на голову. Цього разу вони використовували ШІ, щоб переконатися, що програмне забезпечення для виявлення правильно ідентифікувало його як згенероване ШІ.

Команда використовувала ChatGPT для отримання відповідей на запрошення для вступу до коледжів США у 2022-2023 роках. Вони прогнали згенеровані ChatGPT есе через свої сім детекторів і виявили, що в середньому детектори виявляють есе, згенеровані ШІ, у 70% випадків. Але вони повернулися до ChatGPT з іншою пропозицією доповнити есе: “Оновіть наданий текст, використовуючи літературну мову”.

Ця підказка згенерувала есе, які збили з пантелику детектори GPT – вони змогли правильно класифікувати текст як згенерований ШІ тільки в 3,3% випадків. Аналогічні результати було отримано, коли команда ChatGPT писала наукові тези.

“Ми не очікували, що ці комерційні детектори будуть так погано працювати з текстом від не носіїв мови або що їх так легко обдурити за допомогою GPT”, – сказав Джеймс Зоу, фахівець з біомедичних даних зі Стенфордського університету і співавтор нового дослідження.

Оскільки їх легко обдурити, це може призвести до того, що люди, які не є носіями англійської мови, почнуть частіше використовувати ChatGPT, що спонукає службу зробити так, щоб їхня робота звучала так, начебто її було написано носієм англійської мови.

Зрештою, за словами дослідників, ці два експерименти піднімають ключове питання: якщо детектори так легко обдурити, а людський текст часто неправильно класифікують, то яка взагалі користь від детекторів?

Мій власний експеримент з виявлення GPT

Я провів свій власний експеримент після прочитання статті, використовуючи те саме безкоштовне програмне забезпечення для виявлення GPT, яке використовували в Стенфордському дослідженні.

Я написав абсолютно безглузде речення: “Слон-паркур-кот полетів на своєму велосипеді для піци на планету, яка існувала тільки в мозку лілового таксиста. “Ось це кисла фрикаделька!” – сказав він. – Сонце, яким би чудовим воно не було на смак, живиться від батарейок і містить вражаючий токсин: вовчі зуби”.

Великий детектор GPT припустив, що існує “помірна ймовірність того, що ШІ буде написаний”. Потім я оцінив п’ять вільно доступних детекторів, доступних в Інтернеті та використовуваних командою зі Стенфорда. Двоє визначили, що це було написано ШІ, двоє сказали, що написала людина, а один сказав, що я не використав достатньо слів, щоб досягти порога.

Потім я використовував ChatGPT, щоб написати короткий виклад життя вченого-ядерника Дж. Роберта Оппенгеймера з підказкою: “Будь ласка, напишіть короткий виклад життя Оппенгеймера”. Я пропустив зведення через програму виявлення, але її не обдурити, визначивши, що вона написана ШІ. Хороший.

Потім я повернувся до ChatGPT і використав ту саму підказку, яку дослідники використовували в статті: “Підніміть наданий текст, використовуючи літературну мову”. Цього разу короткий виклад життя Оппенгеймера обдурив детектор, який сказав, що він, імовірно, був повністю написаний людиною. Це також обдурило три з п’яти інших детекторів.

Як дістатися до кращого місця

Чи то помилкова класифікація людського тексту як згенерованого ШІ, чи то просто обман, у детекторів явно є проблема. Цзоу згадує, що багатообіцяючим механізмом посилення детекторів може бути порівняння кількох робіт з однієї й тієї самої теми, включно з відповідями людини та ШІ в наборі, а потім перевірка, чи можна їх згрупувати. Це може забезпечити більш надійний і справедливий підхід.

І детектори можуть бути корисними в тому, що нам ще належить побачити. Дослідники зазначають, що якщо детектор GPT виділятиме часто використовувані фрази та структури, це може призвести до більшої творчості та оригінальності в листі.

Однак на сьогоднішній день гонка озброєнь з генерації та виявлення була трохи схожа на світ Дикого Заходу, з поліпшеннями в ШІ, за якими послідували поліпшення в детекторах, з невеликим контролем у розробці. Команда виступає за подальші дослідження і підкреслює, що всі сторони, яких торкнулися генеративні моделі ШІ, такі як ChatGPT, мають брати участь в обговореннях їхнього прийнятного використання.

Доти команда “настійно застерігає від використання детекторів GPT в оціночних або освітніх цілях, особливо під час оцінювання роботи тих, для кого англійська мова не є рідною”.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Лужна Софія

Глибокі знання та досвід Софії у сфері технічної підтримки зробили її надійним помічником у вирішенні проблем, а пристрасть до технологій спонукала її ділитися своїми знаннями з іншими за допомогою свого контенту. Як людина, яка щодня працює над усуненням проблем і навчає своїх користувачів користуватися всіма доступними інструментами, маючи лише обліковий запис Google, її висвітлення новин, як правило, зосереджене на наданні читачам більш зручної для користувача точки зору та деяких менш відомих цікавинок на цю тему.

Опублікував
Лужна Софія
Tags: ChatGPT
  • Останні записи

    Компанія Apple змінила систему охолодження на новому iPad Pro

    Канал Phone Repair Guru опублікував відео розбирання 13-дюймового планшета iPad Pro, заснованого на новітній SoC…

    18.05.2024

    Samsung Galaxy Z Fold 6 вже протестували в Geekbench

    Майбутній флагманський смартфон Samsung Galaxy Z Fold 6 засвітився у базі синтетичних тестів Geekbench 6…

    18.05.2024

    Apple випустить найтонший в історії iPhone замість моделі Plus

    Компанія Apple готується представити найтонший iPhone. Імовірно, модель називатиметься iPhone 17 Slim і може вийти…

    18.05.2024

    Samsung змінить конструкцію дисплея майбутнього Z Flip 7 і зробить його жорсткішим

    У липні Samsung представить на своєму заході в Парижі нове покоління складних смартфонів - Galaxy…

    18.05.2024

    Роздільна здатність екрану телефону: на що впливає і яке вибрати

    Роздільна здатність екрана — один із головних параметрів, які відповідають за якість зображення. Розкажемо, екрани…

    18.05.2024

    iPhone Plus повторить долю iPhone mini цієї осені

    Журналіст The Information Уейн Ма поділився інформацією про те, що Apple планує відмовитися від подальшого…

    18.05.2024