MLX: нативний шлях запуску LLM на Apple silicon

MLX цікавий не лише як дослідницький інструмент. Це показник того, як Apple бачить локальний AI на Mac — не як окрему “фічу”, а як частину базової архітектури системи. Саме через MLX добре видно, куди рухається екосистема Apple silicon у найближчі роки.

Нижче надаю переклад статті підрозділу машинного навчання Apple

Mac з Apple silicon стає все більш популярним серед розробників та дослідників штучного інтелекту, які зацікавлені у використанні своїх Mac для експериментів з новітніми моделями та технологіями. За допомогою MLX користувачі можуть ефективно досліджувати та запускати LLM на Mac. Це дозволяє дослідникам експериментувати з новими технологіями інференції або тонкої настройки, а також досліджувати технології штучного інтелекту в приватному середовищі, на власному обладнанні. MLX працює з усіма системами Apple silicon, а з останньою бета-версією macOS1 тепер використовує переваги нейронних прискорювачів у новому чіпі M5, представленому в новому 14-дюймовому MacBook Pro. Нейронні прискорювачі забезпечують спеціальні операції множення матриць, які є критично важливими для багатьох завдань машинного навчання, і дозволяють ще швидше виконувати інференцію моделей на Apple silicon, як показано в цій публікації.

Що таке MLX

MLX — це відкрита платформа для роботи з масивами даних, яка є ефективною, гнучкою та спеціально налагодженою для використання з чіпами Apple Silicon. MLX можна використовувати для широкого спектру завдань — від чисельних моделювань і наукових обчислень до машинного навчання. MLX має вбудовану підтримку навчання та інференції нейронних мереж, включаючи генерацію тексту та зображень. MLX спрощує генерацію тексту та налагодження великих мовних моделей на пристроях Apple Silicon.

MLX використовує переваги уніфікованої архітектури пам’яті Apple silicon. Операції в MLX можуть виконуватися як на CPU, так і на GPU без необхідності переміщення пам’яті. API тісно слідує NumPy і є одночасно звичним та гнучким. MLX також має пакети нейронних мереж та оптимізаторів вищого рівня, а також функції перетворення для автоматичного диференціювання та оптимізації графіків.

Почати роботу з MLX в Python дуже просто:

pip install mlx

Щоб дізнатися більше, ознайомтеся з документацією. MLX також містить численні приклади, які допоможуть вам розпочати створення та використання багатьох поширених моделей ML.

MLX Swift базується на тій самій базовій бібліотеці, що й інтерфейс MLX Python. Він також містить кілька прикладів, які допоможуть вам розпочати розробку додатків машинного навчання в Swift. Якщо ви віддаєте перевагу чомусь більш низького рівня, MLX має прості у використанні API C та C++, які можуть працювати на будь-якій платформі Apple Silicon.

Виконання LLM на Apple Silicon

MLX LM — це пакет, побудований на базі MLX для генерації тексту та тонкої настройки мовних моделей. Він дозволяє запускати більшість LLM, доступних на Hugging Face. Ви можете встановити MLX LM за допомогою:

pip install mlx-lm

Крім того, ви можете розпочати чат зі своєю улюбленою мовною моделлю, просто викликавши mlx_lm.chat у терміналі.

MLX вбудовано підтримує квантування — метод стиснення, який зменшує обсяг пам’яті, необхідний для мовної моделі, завдяки використанню меншої точності для зберігання параметрів моделі. За допомогою mlx_lm.convert модель, завантажену з Hugging Face, можна квантувати за кілька секунд. Наприклад, квантування моделі Mistral 7B до 4 бітів займає лише кілька секунд за допомогою виконання простої команди.

mlx_lm.convert \

–hf-path mistralai/Mistral-7B-Instruct-v0.3 \

-q \

–upload-repo mlx-community/Mistral-7B-Instruct-v0.3-4bit

Продуктивність виведення на M5 з MLX

Нейронні прискорювачі GPU, представлені в чіпі M5, забезпечують спеціальні операції множення матриць, які мають вирішальне значення для багатьох завдань машинного навчання. MLX використовує Tensor Operations (TensorOps) і фреймворк Metal Performance Primitives, представлені в Metal 4, для підтримки функцій нейронних прискорювачів. Щоб проілюструвати продуктивність M5 з MLX, ми протестували набір LLM різних розмірів і архітектур, що працюють на MacBook Pro з M5 і 24 ГБ об’єднаної пам’яті, і порівняли їх з MacBook Pro M4 з аналогічною конфігурацією.

Ми оцінюємо моделі Qwen 1.7B і 8B з нативною точністю BF16, а також 4-бітні квантовані моделі Qwen 8B і Qwen 14B. Крім того, ми тестуємо дві моделі Mixture of Experts (MoE): Qwen 30B (3B активних параметрів, 4-бітне квантування) і GPT OSS 20B (з нативною точністю MXFP4). Оцінка проводиться за допомогою mlx_lm.generate і подається у вигляді часу до генерації першого токена (у секундах) та швидкості генерації (у токенах/с). У всіх цих тестах розмір підказки становить 4096. Швидкість генерації оцінювалася під час генерації 128 додаткових токенів.

Продуктивність моделі представлена у вигляді часу до першого токена (TTFT) для MacBook Pro M4 і M5, а також відповідного прискорення.

У LLM-висновку генерація першого токена залежить від обчислювальної потужності і повністю використовує переваги нейронних прискорювачів. M5 скорочує час генерації першого токена до менше ніж 10 секунд для щільної архітектури 14B і до менше ніж 3 секунд для 30B MoE, забезпечуючи високу продуктивність цих архітектур на MacBook Pro.

Генерація наступних токенів залежить від пропускної здатності пам’яті, а не від обчислювальної потужності. На архітектурах, які ми тестували в цій публікації, M5 забезпечує підвищення продуктивності на 19-27% порівняно з M4 завдяки більшій пропускній здатності пам’яті (120 ГБ/с для M4, 153 ГБ/с для M5, що на 28% вище). Що стосується обсягу пам’яті, MacBook Pro 24 ГБ може легко вмістити 8 Б з точністю BF16 або 30 Б MoE з 4-бітним квантуванням, утримуючи навантаження на висновок нижче 18 ГБ для обох цих архітектур.

Нейронні прискорювачі GPU демонструють високу ефективність з MLX при виконанні завдань машинного навчання, що передбачають множення великих матриць, забезпечуючи до 4-кратного прискорення порівняно з базовим показником M4 за часом до першого токена в інференції мовної моделі. Аналогічно, генерація зображення розміром 1024×1024 за допомогою FLUX-dev-4bit (12B параметрів) з MLX на M5 відбувається в 3,8 рази швидше, ніж на M4. Ми продовжуємо додавати функції та покращувати продуктивність MLX і з нетерпінням чекаємо на нові архітектури та моделі, які спільнота ML буде досліджувати та запускати на Apple silicon.

Tags: Apple silicon LLM, MLX, локальний AI на Mac

Що таке MLX

Виконання LLM на Apple Silicon

Продуктивність виведення на M5 з MLX

Пошук по сайту

Останні дописи

Магазин

iLand

Офіс в Києві:

MLX: нативний шлях запуску LLM на Apple silicon

Що таке MLX

Виконання LLM на Apple Silicon

Продуктивність виведення на M5 з MLX

Пошук по сайту

Останні дописи

Пошук за тегом