Skip to content

Україна ділова

Економічні новини України: фінанси, аналітика, статті

Primary Menu
  • Економіка
  • Інвестиції
  • Фінанси
  • Малий бізнес
  • Технології
  • Криптовалюта
  • Аграрії
  • Нерухомість
  • Home
  • Технології
  • Учені створили математичний тест, який поки що не проходить жоден штучний інтелект
  • Технології

Учені створили математичний тест, який поки що не проходить жоден штучний інтелект

Admin Posted on 7 місяців ago
290e47ef751cfa8b49482391b77a32f3

Джерело: unian.ua

FrontierMath став справжнісіньким викликом для ChatGPT і Gemini.

Схоже, що до технологічної сингулярності нам ще далеко. Дослідники з організації Epoch AI представили новий математичний бенчмарк FrontierMath, з яким поки не можуть впоратися навіть найбільш просунуті моделі штучного інтелекту.

FrontierMath містить у собі безліч найскладніших математичних виразів. Моделі Claude 3.5 Sonnet, GPT-4o, o1-preview і Gemini 1.5 Pro вирішують менше двох відсотків завдань. При цьому під час тестування у ШІ є повний доступ до середовища Python для обчислень і дебагінгу. Для порівняння, у старіших бенчмарках, на кшталт GSM8K або MATH, моделі правильно розв’язують понад 90% рівнянь.

Головною особливістю FrontierMath є те, що задачі звідти раніше ніде не публікувалися, тобто нейромережі не могли заздалегідь навчитися розв’язувати такі вирази.

Як видно на графіку, найпродуктивнішою моделлю виявилася Gemini 1.5 Pro, але навіть вона змогла розв’язати менше ніж 2% завдань. Головним аутсайдером стала LLM від Ілона Маска Grok 2 Beta, яка зараз тестується у Twitter, вона не змогла розв’язати жодного рівняння.

Для створення тесту FrontierMath було задіяно 60 математиків з університетів по всьому світу. Завдання в бенчмарку охоплюють безліч галузей, включно з теорією чисел і алгеабраїчною геометрією. У фахівців може піти кілька днів, щоб вирішити одне завдання з тесту.

Раніше ми розповідали, що генеральний директор OpenAI Сем Альтман вважає, що в найближчі 5 років людство створить ШІ-модель, яка усвідомлює себе.

Continue Reading

Previous: Співвласник АТБ Геннадій Буткевич інвестує понад $20 млн у котеджне містечко Equides Villas InVenture
Next: В Україні запустили безкоштовні курси для вивчення штучного інтелекту

Схожі

77b0687b5d998a42b540af0b1e026bcf
  • Технології

Названо найкращі недорогі смартфони для купівлі у 2025 році

Admin Posted on 2 місяці ago
597fdbde841a5a422c4d37dbbd31a8b5
  • Технології

Оверклокер поставив новий рекорд із розгону оперативної пам’яті, досягнувши частоти 6403 МГц

Admin Posted on 2 місяці ago
3414eef46fdf78a4d67210259f1b328c
  • Технології

Youtube змінив дизайн уперше за 10 років – користувачі його “захейтили” (фото)

Admin Posted on 2 місяці ago

Недавні записи

  • Названо найкращі недорогі смартфони для купівлі у 2025 році
  • Оверклокер поставив новий рекорд із розгону оперативної пам’яті, досягнувши частоти 6403 МГц
  • Youtube змінив дизайн уперше за 10 років – користувачі його “захейтили” (фото)
  • У Європі затвердили єдиний “екодизайн” для всіх смартфонів: що зміниться
  • У Великій Британії знайшли «шосе динозаврів»

Вам буде цікаво

77b0687b5d998a42b540af0b1e026bcf
  • Технології

Названо найкращі недорогі смартфони для купівлі у 2025 році

Admin Posted on 2 місяці ago
597fdbde841a5a422c4d37dbbd31a8b5
  • Технології

Оверклокер поставив новий рекорд із розгону оперативної пам’яті, досягнувши частоти 6403 МГц

Admin Posted on 2 місяці ago
3414eef46fdf78a4d67210259f1b328c
  • Технології

Youtube змінив дизайн уперше за 10 років – користувачі його “захейтили” (фото)

Admin Posted on 2 місяці ago
ff06d8d51f9699f3e5a12cbd7ffa326b
  • Технології

У Європі затвердили єдиний “екодизайн” для всіх смартфонів: що зміниться

Admin Posted on 2 місяці ago
  • Економіка
  • Інвестиції
  • Фінанси
  • Малий бізнес
  • Технології
  • Криптовалюта
  • Аграрії
  • Нерухомість
© Україна ділова | MoreNews by AF themes.