LLM آفلاین

راهنمای جامع اجرای LLM آفلاین روی گوشی‌های موبایل

/post-111

این جزوه راهنمای عملی اجرای مدل‌های زبانی به‌صورت آفلاین روی موبایل است؛ وقتی اینترنت پایدار نیست، محدودیت/هزینه سرویس‌های آنلاین مهم می‌شود یا حریم خصوصی و کنترل داده اولویت دارد. مسیر کار ساده است: نصب موتور اجرا (Engine)، انتخاب مدل سازگار، بارگذاری و Initialize، سپس چت. برای انتخاب درست باید مفاهیم کلیدی را بشناسید: ورینت مدل (Base/Chat-Instruct/Coder/Multimodal) که برای بیشتر کاربران Chat/Instruct مناسب‌تر است؛ اندازه مدل (مثل 3B) که به RAM و توان پردازشی وابسته است؛ کوانتیز (Q3/Q4) برای کم‌حجم‌سازی و اجرای بهتر؛ کانتکست که هرچه بزرگ‌تر باشد RAM بیشتری می‌خواهد؛ و توکن و Tokens/s که سرعت واقعی پاسخ‌دهی را نشان می‌دهد. همچنین فرمت مدل مهم است: GGUF معمولاً با موتورهای مبتنی بر llama.cpp و MLC با مسیر بهینه‌سازی/گاهی کامپایل. نقطه حساس موبایل GPU/Vulkan است: سازگاری خوب یعنی سرعت بیشتر و ناسازگاری یعنی کرش/گیر روی Initialize؛ پس پلن B یعنی CPU-only ضروری است.

LLM آفلاین

راهنمای جامع اجرای LLM آفلاین روی گوشی‌های موبایل

اطلاعات تماس