今日上新——FCP

电子说

1.3w人已加入

描述

今年2月,我们FCC-E产品全新上线了专有D区专门满足用户对高性价比的稀缺大机型需求。

产品研发组的小伙伴们根本停不下来~

才几个月,我们又又上新了!今天的新品是

FCP

(fastone Compute Platform),我们的

一站式企业级软件平台

,主要面向的是已经有本地研发环境,但依然为一些问题而头疼的用户——

本地资源利用率为什么这么低??

设计仿真业务卡顿,怎么搞?加机器?扩存储?集群化?

如何搭建一个研发集群?LSF、Slurm、OpenLava、SGE?没有经验?

EDA/CAE等工具无法使用?仿真Case异常退出?验证出现中断?

项目高峰期或冲刺期,怎么确保业务稳定可靠,不掉链子?

有成熟稳定大规模实践的国产自主可控研发平台吗?

上市成熟企业如何中长期规划研发平台的演进持续性降本增效

01

先说FCP有啥用

四大典型适用场景

FCP是面向创新驱动型用户的一站式企业级软件平台,能够快速构建企业本地研发环境,高效管理用户资源。FCP充分支持企业向混合云架构演进,统一管理多本地及多云的复杂研发环境,提升研发效率并降低总体拥有成本。

emmmmm,官方说明有点过于官方了。

没事,接下来我们来具体看看,对企业来说,FCP的四个典型适用场景:

场景一:黑箱变白箱,提升资源利用率

用户将本地机器当单机使用,各干各的,也不加限制与管理,先到先得。一旦有人着急使用的时候要么机器拉满,内存爆掉,任务失败,要么排长队。本地资源使用情况,形同黑箱。

FCP搭载了速石调度器Fsched,把散乱的单机资源汇成集群支持灵活的调度策略,实现集群全生命周期管理,避免资源碎片化和资源抢夺问题,统一管理,资源共享,提升利用率。

配合可视化监控,资源使用状况了如指掌,安排得明明白白。如果任务运行触发了预设的告警指标,负责人会实时收到提醒,及时处理任务异常。

场景二:可视化界面+自动化运维,赢麻了

企业业务场景需求多样,比如突发大算力需求、混合云模式、外包团队管理、全球多地协同研发等等,整个IT基础架构通常比较复杂

而工业软件体系庞大,使用和维护都有一定的门槛,如工具版本管理、任务flow优化等既要基础IT能力,又要有业务认知。

企业内部有多个部门的,还要考虑审批流程与内部权限划分,保障自己的数字资产安全。

FCP实现了上述需求的产品化,只要在后台完成设置,不需要手动一一操作,可视化界面+自动化运维,赢麻了。

场景三:应用与资源双管齐下,研发战斗力加成100%

本地研发环境的集群模式能提高单人资源使用上限,而当本地资源不够用的时候,FCP还能开启混合云模式,自动调度云资源充分满足业务需求。

但是研发效率的症结可不止在资源层面——

FCP提供基于任务、资源或团队层面的灵活调度策略配置,最优化使用资源满足不同企业不同发展阶段的业务目标。对应用本身运行提供支持和优化,并结合应用和底层资源的联动和适配,给出最佳实践。

不同业务团队之间可以根据不同用户权限共享计算资源、存储资源、软件资源等,提高了整个团队的工作与协同效率。

场景四:业务目标稳定达成,中间不掉链子

资源利用率,运维效率,研发效率,统统上来了,最后一个要保证的,就是业务稳定性与可持续性了,尤其是项目高峰期或冲刺期。像我们在普冉案例里算的,停一天就是几百万,这谁扛得住?

我们FCP产品能支持整个研发全流程,同时,高可用的混合云架构保障平台自身稳定。我们能统一管理多本地及多云的复杂研发环境,且能随时拓展到云上,支持业务的扩展性和连续性,业务数据运营分析能为运营优化与决策提供数据支撑。专业的CSM服务能覆盖用户全生命周期,提供全天候专业服务与客户保障,确保用户业务目标的达成。

更长期来看,国产合规这个问题,不少企业已经开始早作打算了。

02

速石两大产品线:

FCP与FCC-E,啥关系?

我们的两大产品线FCC-E和FCP有什么关系呢?

用户应该怎么选?两者之间有冲突吗?

如果企业想轻资产快速起步,对未来发展不确定,对产品弹性要求高,我们首推FCC-E:即开即用的研发云平台,遍布全球的资源中心,满足全球化业务协同发展,能为企业提供一条研发的捷径。

如果企业需要部署或者优化本地研发环境,FCP可以说是不二之选:本地标准化集群部署,灵活的调度策略,可视化的监控与实时告警,IT运维自动化,能最大化本地资源的投入产出比。

发展到一定阶段后,有本地环境的企业,业务逐渐增多,波峰波谷明显,可能涉及外包团队管理,数据备份或容灾,或者多地研发中心协同。这时候,就需要混合云架构了。

本地+云端,这就是混合云了?

nonono ~~

由于FCP与FCC-E在底层架构的一致性,FCP能够随时向混合云架构演进,把本地的管理能力拓展到云端,并且实现算力、网络、存储、许可证和数据等关键资源的统一管理,保障资源调度、系统监控和性能分析的一致性和高效性。

之前怎么用,之后还是怎么用。

03

选择适合你的FCP版本:

Core核心版 vs Suite旗舰版

为了让FCP更贴合用户的实际需求,我们推出了两种不同的版本——FCP Core核心版FCP Suite旗舰版

下图中心区域即FCP Core核心版,中心和周边共同构成FCP Suite旗舰版。
 

二者相同点  

帮助企业提升研发效率,保障业务的连续性与扩展性;

自动化构建标准本地环境,榨干本地算力,让运维更简单;

提供可视化的资源监控告警,信息透明,便于决策支持。

  二者的区别  

Core提供的是核心功能模块,构建环境、集群管理、自动化运维这些都包括在内,因此更适合需要快速搭建本地环境的小微企业;

Suite涵盖Core的全部功能,并在这个基础上增加了六大高级能力加持,更适合用于大中型企业的复杂研发环境管理;

FCP目前只有Suite支持将工作负载溢出至云端,也只有Suite能满足深度定制化需求。

云平台

总的来说,Core是产品的地基,而Suite就是建立在这个基础上更全面、更符合企业级业务需求的产品

04

FCP的落地实践

举4个栗子叭

单机变集群,研发效率提升50% 

我们有一家做模拟芯片设计的用户,他们的研发工程师们都没有接触过集群,平时本地服务器就是当单机用,各干各的,没有明确的资源限制和任务管理机制。这就导致任务高峰期机器经常满载,内存爆掉也很常见,办公室里经常响起绝望的嘶吼。

OK,安排。

云平台

转成集群模式后,对研发工程师来说,一个任务可以拆分多机跑,多个任务可以同时跑,来了大任务也不用担心被一台机器的上限所限制

而原本碎片化的资源在统一汇入资源池后,IT负责人可以直接在可视化界面上做集群管理,根据各组的情况调度分配资源,从根本解决资源碎片化和资源抢夺等问题。

从单机模式到集群模式,最直接的效果是:计算效率提升30%-50%

单机转集群更多优点请戳:集群如何成为项目研发、IT和老板的最佳拍档?

FCP产品替代开源调度器,CAD精力节约40%+

普冉半导体在与我们合作前,是用SGE搭建集群的,但版本和新版操作系统、EDA工具软件兼容不佳,在满足一些更高阶功能的情况下受到一定限制。

为了保障公司整体业务的稳定性,同时最小化软件环境对研发进度的影响,普冉选择让FCP逐渐覆盖原有的研发环境,最终完全替代,以此提高自身的研发效率和体验。同时,研发人员无须改变操作习惯

我们提供了调度策略+任务&资源监控+实时告警三步走功能。

云平台

在调度策略上,普冉能按照任务优先级、资源空闲状况、许可证使用等维度安排任务进程,也能实现不同团队间的资源分配,随时设置,随时修改。

在监控层面,我们提供基于EDA任务层的监控、告警、数据统计分析功能与服务,管理者能监控重要指标变化,从全局角度掌握项目的整体任务及资源情况。

在实时告警上,普冉能自己设置关键指标,一旦触发告警,就通过邮件、微信、飞书等方式告知相关人员,提醒处理。

FCP作为标准化产品,IT自动化程度高,能帮CAD和IT把很多手动的工作自动化,省去大量繁琐的手动部署和对接调试工作。

在和普冉之前的研发表现做了量化对比后,我们帮助普冉提升了30%的整体研发效率,在上线初期就为CAD节省了40%的时间

更多详细内容可戳:【案例】普冉半导体逐步布局自主可控,渐次提升研发效率

海内外多site研发协同与统一管理 

我们有一家全球化的IC Design用户,在上海、美国、印度等地都有研发团队,每个团队都是独立的,但又存在业务上的交叉,还有云上云下多个不同研发环境。

这种跨国多地研发中心的协同与统一管理,算是最复杂的那种了。

用户统一使用了我们的产品,这对保障不同site间基础架构与用户体验的一致性起到了关键作用,可以减少大量的重复建设和协同过程中的沟通成本,显著提高了整体的工作效率。

在多地研发协同上——

FCP的标准化确保了各site间的环境一致性,可以减少大量的重复建设和协同过程中的沟通成本。全球的项目数据能按照需求手动或自动同步,各site间互为备份。还有应用的多版本管理,网络优化加速这种工作我们也顺手解决了。

在FCP的支持下,不管是环境、网络、数据还是工具,都得到了一致性的保障。

云平台

在全球统一管理上——

FCP能实现全球范围的统一身份认证,给不同的用户分别设定角色与访问权限,对项目的数据和计算资源等做统一的管理和隔离,提高运营效率与整体信息安全水平。

IT自动化和平台级的统一管理也释放了IT与CAD的精力,各site间无需重复配置同一职能,有效帮助团队节省了人力成本。

混合云架构,无需动辄六位数投入 

在和一家数模混合芯片设计企业的交流过程中,对方表示自己的团队扩张速度很快,业务量大且没有规律,突发算力需求和多项目并行是常事了。

之前虽然超额配置了一批服务器,现在也不够用了,考虑到自身需要一定的现金流储备,而且机器买多了也没有地方放,因此不想继续投入大量资金采购。

在详细分析了用户的业务数据后,我们整理出了三个重点:

精细化运营,给一些需要大内存的任务单独分区,避免内部的资源抢夺,进一步提升效率;

尽可能使用本地资源,如果有突发算力需求,或者到了业务高峰期,能使用云端弹性资源补足;

本地和云端统一管理,降低IT压力。

FCP的混合云架构,自带的Auto-Scale弹性伸缩功能,可以按照任务需求,动态开启和关闭云端资源,在资源灵活性和快速响应能力这一块拿捏得死死的。

我们提升了用户的资源利用率,混合云架构也完美解决了项目并行带来的短期算力缺口,无需动辄六位数的投入,需要多少用多少。

05

1000家企业

1000个CSM

1000家企业,可能有1000种不同需求。

大部分都可以用标准FCP产品来满足的。

但总有一些非标需求,需要深入企业自身的业务场景与使用现状,会涉及到一些定制化服务、专业分析评估、专家技术支持与行业经验的提炼输出。

当然,很多问题,用户自己也能在实践中慢慢摸索,这个得失权衡,取决于用户自己,可能是时间,可能是金钱,或其他。

我们的CSM(Customer Success Manager)服务,提供面向企业用户的全天候专业服务与客户保障,覆盖用户全生命周期使用场景。

CSM专业服务——单核时成本下降73% 

蓝箭航天

,我国民营商业航天的“破局者”,主打一个

自主研发

,发展速度非常快,使用速石研发平台的用户数从0到数百人,稳定增长,资源用量也随着业务周期长期稳定上升。

CSM服务效果:

提升用户研发效率,保障整体业务稳定性;

整个研发平台使用期间,单核时成本下降达73%。

我们大致把整个业务分为三个阶段

阶段一:在业务的磨合阶段,平台刚刚上线,用户的使用习惯比较粗放

CSM在调研和摸底后,结合实际业务和操作,向团队输出更精细的资源使用建议,并对CAE应用做了深度支持,建立基础监控告警策略。

阶段二:在中期优化阶段,GPU的使用量逐步增多,成本提升,不合理的资源使用带来的成本浪费也被放大

CSM通过监控数据发现这点后,指导了合理的资源选型和业务分配,让资源利用更加合理、高效。同时增设了核时波动告警、实例空闲告警,持续进行成本优化。

阶段三:持续优化的平稳期,蓝箭的业务稳定性和单核时成本均迈入了稳定向好的态势。

CSM持续提供主动巡检、定期数据分析、使用技巧赋能、安全加固规划、产品需求追踪落地等服务支撑,深耕细化,持续提升用户体验。

更多详细内容可以参考:

从“地狱级开局”到全球首款液氧甲烷火箭,我们如何助力蓝箭冲破云霄

 - END -

速石科技(ID:Fastone_tech)

我们为创新驱动型用户提供为应用优化的一站式研发云平台,致力于构建为应用定义的云,让任何应用程序,始终以自动化、更优化和可扩展的方式,在任何基础架构上运行。

说出你的应用,我们就有故事~~

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分