职位描述
我们的技术团队, 致力于为阿里业务提供高效、稳定的AI基础设施,算法工程基于对算法、引擎和高性能算力资源的理解,为超大规模的分布式训练/推理等AI业务提速、降本,协同AI引擎、调度系统、高性能网络及异构硬件的co-design,突破LLM/AIGC等机器学习任务的算力和性能瓶颈; 为阿里大模型业务的迭代、落地提供高效率的算力底座,系统性评测AI算法的效率和性能热点,准确评估算法在计算、存储、网络通信及I/O方面的资源需求及演进趋势,探索优化加速方案并系统化落地,万卡规模高性能数据中心的AIOps智能运维,自动化诊断和规避软硬件故障,支撑算法稳定迭代,开源AI框架、自研AI芯片平台的适配和性能调优; 与该领域密切相关的技术方向:AI infra, GPU资源调度,高性能RDMA网络,大模型训练/部署,软硬件联合优化,算法性能评测/调优,aiops/chatops。 我们的技术团队, 致力于深度学习从特征计算到训练及预估引擎端到端的平台建设(XDL),包括当前重点发展的图表征学习,正在定义大数据AI技术的未来;以广告/推荐/搜索引擎平台支持包括淘宝、天猫、菜鸟、优酷乃至海外电商在内整个集团的推荐与搜索的业务,也支撑集团的商业营销平台阿里妈妈,同时也通过阿里云对外部客户提供相应的搜索和推荐产品,我们支持各种深度学习网络的灵活拆分,支持超TB的模型,驱动异构计算和实时计算的发展,不断追求效率的极致,更重要的是,我们还拥有多项领先的算法技术,是阿里巴巴技术驱动商业变革的核心引擎。 与该领域密切相关的技术方向:统一的索引/图/模型存储召回/排序/预测的图化执行/在线图计算/路径索引与检索/在线引擎Serverless/图表征学习与向量匹配/全链路算法迭代平台/DL特征计算与建模框架/DL训练与预测加速/端上智能/结构化搜索/图像搜索/搜索与推荐云服务。
还没有评论呢,快来抢沙发~