注意事项:输入的分数越高,表示优先级越高,为了便于统计,请务必保证所有任务的分数各不相同,可输入的分数区间(1-9)
感谢您参与本次调查,请认真填写问卷,您的输入是平台工作计划和优先级设定的重要参考!如果下面的大部分任务和您的工作没有交集,可以直接跳过此问卷
数据存储方案
主要包括清单、图纸、图片、视频、问题答案等数据存储服务的技术选型,目前已经调研了RDS、OSS、S3,此任务包括如下子任务:
1. 云存储是选用both OSS and S3还是 either OSS or S3?
2.如何设定本地和异地的存储空间(bucket)?
3.本地与异地的存储空间(bucket)是否需要互为backup?
数据管理方案
1.各种数据的存放规则、权限控制规则等
2.原始数据、标注后的数据、模型与训练数据集的对应关系存储和版本控制等
多媒体数据上传、查询和检索系统(数据IO)
1.在云存储的基础上搭建数据应用系统,来支持对多种数据的查询和检索
2.可以直接查看图片,根据条件筛选训练数据集合等
3.上传各种数据功能
4.标注数据的检索和查询等
Jupyter服务的统一和能力提升
1.jupyter服务映射到公网,方便总部和美国同事使用
2.jupyter服务多用户的能力提升,包括接入速度、运维能力、问题解决能力等
标注服务
1.规范标注的流程,改进标注的方式,商讨提升标注正确率的方法等
2.商讨外包标注服务的策略,例如根据项目的紧迫性和数据私密性来决定外包数据标注的规范
标注平台
统一标注平台,私有化部署或是使用开源的标注平台服务,直接在云上实现标注,数据不需要下载到本地,保证整个标注流程的效率,数据安全等
计算资源的分配和部署
1.调研并落地不同framework上GPU/CPU等动态资源分配的方案,提升计算资源利用率,避免资源使用冲突等
2.综合考虑GPU资源的部署位置,制定出部署在HQ/IDC/US/Cloud需要考虑的因素和部署规范等
服务(serving)& 部署(deployment)
1.serving不同model的方法的调研和方案落地,包括model形式、封装形式、web容器(uwsgi研究)、docker等
2.K8s操作GPU技术调研和落地
ML pipelines的价值探索和应用
1.TFX各个模板在各个NLP/CV等项目的价值探索
2.TFX在NLP项目中的试用和推行等
11题 | 被引用1次