Overview
Our client is a rapidly growing high-performance computing (HPC) cloud service provider and a leader in AI inference engine technology. This innovative organisation specialises in delivering state-of-the-art solutions for high-performance computing and AI workloads, empowering enterprises to harness advanced technologies for transformative results. The company is at the forefront of AI research and offers dynamic opportunities for career growth in a collaborative environment.
↔
AI Algorithm Engineer – Large Model Inference Optimisation
About the Opportunity:
Our client is seeking a highly skilled AI Algorithm Engineer. In this role, the successful candidate will focus on optimising the performance and efficiency of large-scale AI models, including large language models (LLMs) and other generative AI systems. This is a unique opportunity to shape the future of next-generation AI technologies within a dynamic and collaborative environment.
Key Responsibilities:
- Research and implement advanced optimisation algorithms to enhance the efficiency and performance of large model inference.
- Identify and address bottlenecks in inference processes, developing innovative solutions for improved computational power, reduced latency, and efficient memory utilisation.
- Conduct in-depth research on model quantisation techniques (e.g., INT8, INT4) to achieve optimal inference performance while maintaining model stability and accuracy.
- Design and refine speculative sampling algorithms to improve generation speed and output quality for large AI models.
- Translate cutting-edge research into deployable algorithmic tools and solutions for production use.
- Collaborate with internal engineering teams to seamlessly integrate optimised algorithms into scalable, real-world systems.
- Stay at the forefront of industry trends and advancements in AI and large models, fostering a culture of continuous innovation.
Required Qualifications:
- Master’s degree or higher in Computer Science, Artificial Intelligence, Mathematics, or a related field (PhD strongly preferred).
- A minimum of 2 years of R&D experience in deep learning or related fields, particularly large model optimisation.
- Strong knowledge of mainstream large model architectures (e.g., Transformers, LLMs) and their inference processes.
- Expertise in model quantisation techniques, including Quantisation-Aware Training (QAT) and Post-Training Quantisation (PTQ).
- Deep understanding of speculative sampling methods (e.g., Top-k, Top-p, temperature sampling) and their optimisation strategies.
- Proficiency in deep learning frameworks such as TensorFlow and PyTorch, with experience in inference engines like vLLM and SGlang.
- Advanced Python programming skills; experience with C++ or CUDA is advantageous.
- Solid foundation in algorithms and coding implementation.
Preferred Qualifications:
- Demonstrable experience with open-source projects or published papers in large model optimisation.
- Familiarity with distributed training and inference technologies, such as model parallelism or pipeline parallelism.
- Understanding of hardware acceleration technologies (e.g., GPUs, TPUs, FPGAs) and their role in AI model inference.
To apply, please click here for available vacancies.
ملخص
عميلنا هو مزود خدمة سحابية للحوسبة عالية الأداء (HPC) سريع النمو ورائد في تكنولوجيا محرك الاستدلال بالذكاء الاصطناعي. تتخصص هذه المنظمة المبتكرة في تقديم حلول متطورة للحوسبة عالية الأداء وأحمال العمل المتعلقة بالذكاء الاصطناعي، وتمكين المؤسسات من الاستفادة من التقنيات المتقدمة لتحقيق نتائج تحويلية. الشركة في طليعة أبحاث الذكاء الاصطناعي وتقدم فرصًا ديناميكية للنمو الوظيفي في بيئة تعاونية.
مهندس خوارزميات الذكاء الاصطناعي – تحسين استدلال النموذج الكبير
معلومات عن الفرصة:
يبحث عميلنا عن مهندس خوارزميات ذكي في مجال الذكاء الاصطناعي. في هذا الدور، سيتركز دور المرشح الناجح على تحسين أداء وكفاءة النماذج الذكية على نطاق واسع، بما في ذلك النماذج اللغوية الكبيرة (LLMs) وأنظمة الذكاء الاصطناعي التوليدية الأخرى. هذه فرصة فريدة للمساهمة في تشكيل مستقبل تقنيات الذكاء الاصطناعي من الجيل التالي ضمن بيئة ديناميكية ومتعاونة.
المسؤوليات الرئيسية:
- البحث وتنفيذ خوارزميات تحسين متقدمة لتعزيز كفاءة وأداء استدلال النماذج الكبيرة.
- تحديد ومعالجة نقاط الضعف في عمليات الاستدلال، وتطوير حلول مبتكرة لتحسين القدرة الحاسوبية وتقليل الكمون واستخدام الذاكرة بشكل فعال.
- إجراء بحوث معمقة حول تقنيات التكميم للنماذج (مثل INT8، INT4) لتحقيق الأداء الأمثل للاستدلال مع الحفاظ على استقرار النموذج ودقته.
- تصميم وتحسين خوارزميات أخذ العينات التكهنية لتحسين سرعة التوليد وجودة المخرجات للنماذج الكبيرة.
- ترجمة الأبحاث المتطورة إلى أدوات وحلول خوارزمية قابلة للنشر للاستخدام في الإنتاج.
- التعاون مع فرق الهندسة الداخلية لدمج الخوارزميات المحسّنة في الأنظمة القابلة للتوسع في العالم الواقعي.
- البقاء في طليعة اتجاهات الصناعة والتطورات في الذكاء الاصطناعي والنماذج الكبيرة، مما يعزز ثقافة الابتكار المستمر.
المؤهلات المطلوبة:
- درجة الماجستير أو أعلى في علوم الكمبيوتر، الذكاء الاصطناعي، الرياضيات أو مجال ذي صلة (يفضل درجة الدكتوراه).
- ما لا يقل عن سنتين من الخبرة في البحث والتطوير في التعلم العميق أو المجالات ذات الصلة، خاصة في تحسين النماذج الكبيرة.
- معرفة قوية بالهياكل الرئيسية للنماذج الكبيرة (مثل Transformers، LLMs) وعمليات الاستدلال الخاصة بها.
- خبرة في تقنيات تكميم النماذج، بما في ذلك التدريب القائم على التكميم (QAT) والتكميم بعد التدريب (PTQ).
- فهم عميق لطرق أخذ العينات التكهنية (مثل Top-k، Top-p، أخذ العينات الحرارية) واستراتيجيات تحسينها.
- إتقان أطر العمل للتعلم العميق مثل TensorFlow وPyTorch، مع خبرة في محركات الاستدلال مثل vLLM وSGlang.
- مهارات متقدمة في برمجة Python؛ والخبرة في C++ أو CUDA تعتبر ميزة إضافية.
- أساس قوي في الخوارزميات وتنفيذ البرمجة.
المؤهلات المفضلة:
- خبرة ملحوظة في المشاريع مفتوحة المصدر أو الأوراق البحثية المنشورة في تحسين النماذج الكبيرة.
- إلمام بتقنيات التدريب والاستدلال الموزعة، مثل التوازي في النماذج أو التوازي في الأنابيب.
- فهم لتقنيات تسريع الأجهزة (مثل GPUs، TPUs، FPGAs) ودورها في استدلال نماذج الذكاء الاصطناعي.