LLM آفلاین
راهنمای جامع اجرای LLM آفلاین روی گوشیهای موبایل
/post-111این جزوه راهنمای عملی اجرای مدلهای زبانی بهصورت آفلاین روی موبایل است؛ وقتی اینترنت پایدار نیست، محدودیت/هزینه سرویسهای آنلاین مهم میشود یا حریم خصوصی و کنترل داده اولویت دارد. مسیر کار ساده است: نصب موتور اجرا (Engine)، انتخاب مدل سازگار، بارگذاری و Initialize، سپس چت. برای انتخاب درست باید مفاهیم کلیدی را بشناسید: ورینت مدل (Base/Chat-Instruct/Coder/Multimodal) که برای بیشتر کاربران Chat/Instruct مناسبتر است؛ اندازه مدل (مثل 3B) که به RAM و توان پردازشی وابسته است؛ کوانتیز (Q3/Q4) برای کمحجمسازی و اجرای بهتر؛ کانتکست که هرچه بزرگتر باشد RAM بیشتری میخواهد؛ و توکن و Tokens/s که سرعت واقعی پاسخدهی را نشان میدهد. همچنین فرمت مدل مهم است: GGUF معمولاً با موتورهای مبتنی بر llama.cpp و MLC با مسیر بهینهسازی/گاهی کامپایل. نقطه حساس موبایل GPU/Vulkan است: سازگاری خوب یعنی سرعت بیشتر و ناسازگاری یعنی کرش/گیر روی Initialize؛ پس پلن B یعنی CPU-only ضروری است.