-
Notifications
You must be signed in to change notification settings - Fork 1.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于性能问题 #5711
Comments
我们的硬件水平比较有限 |
确实,我也发现了该问题。我测试的是fate1.11.4和2.1.0版本,测试环境:本地windows安装的WSL环境,集群部署,单边测试,数据集4000。分别使用了flow table bind 和flow data upload方式绑定数据,最终提交任务完成时间1.11版本都是少于2.1版本的。 |
问下,你们这个时间是整个任务时间是吗? 能否下看每个epoch时间,这样好对比。 |
1.9那个因为环境切换就不好找了,但是2.0的5w数据,重新执行之后。 [INFO][2024-09-23 17:01:26,667][29090][guest.fit_model][line:223]: self.optimizer set epoch 0 |
我们做整体测试就没法弄那么细,只能说是同一个算法,同一个流程,同一些机器,尽量控制变量只有版本不一样,正因为性能有问题,所以才需要研究具体可能是什么原因。因为如果不是算法本身的原因,那说明肯定其他部分会有原因,不然整体不会慢 |
你上面是跑一个host的任务还是2个host的任务 |
1 guest + 1 host |
最好也看下,你们1.9的结果是否可以复现,以及并发参数怎么设置的。 |
复现的事我们会安排一下。 |
像深度学习,逻辑回归这两个算法,会有更大的差距,之所以选纵向线性回归来研究,只是因为运行速度较快,容易看到结果 |
麻烦贴下,你们并发度,以及样本数和各自的特征数。也方便,我们内部复现看看。不然容易对不上
这个是1.9的,今天刚测,保持参数,也是10轮。 reader 9s 673[INFO] [2024-09-25 13:35:58,938] - [hetero_linr_guest.fit] [line:85]: fit_intercept:True |
还有一个提升树的差距更大,我们现在安排一下复现,也把数据发上来 |
我想控制下变量 我们用同一份数据看看能不能跑出结果 数据 1.9.2 配置文件 2.1.0 pipeline linr_0 = CoordinatedLinR("linr_0", |
2.1.0 pipeline 需要将txt 改py 文件 |
咨询一个问题,同样一个算法,1.9的默认参数和2.1的默认参数应该是没有改变的吧?为了测试的时候便利,有些参数是默认或者不传的,这个具体体现在执行上时两个版本的默认参数是否是一致的。 |
在参数的表现形式上会有些差别, 但基本是一致的 |
请问一下, 你任务的数据是怎样的,多少行,多少特征维度, 任务的配置是怎样的 |
根据你给的图的示例 我看你的工作流是不一致的 |
灰色的部分都是跳过不执行的 |
在树模型且特征较少的情况下,1.9 是要比2.1快一些的, 我们当时测试的时候 10w X 300 的数据维度下,2.1 要比 1.9 的快,LR对硬盘读写操作不多,主要是计算, 有没有跑我上面提供的数据,配置呢 |
目前默认gh_pack="false",hist_sub="true",,至于维度可以做多测试,我们试试 5w * 300维的 |
最好设置gh_pack="true",hist_sub="true"。一般用户不用设置这两个参数,系统默认都是true |
上图是官方的性能图。
在我们实际测试中,fate 1.9版和2.0版作为对比。在基本排除运行环境的影响后,2.0版的性能普遍较1.9的低一些。
例如纵向线性回归:
5w数据量,1.9版本任务运行了23分3秒,2.0版本任务运行了25分13秒
纵向逻辑回归:
5w数据量,1.9版本任务运行了23分52秒,2.0版本任务运行了33分30秒
虽然不是非常精确,但是任务运行的硬件是同样的2-3台机器。据观察PSI似乎也不是性能瓶颈。
所以来咨询一下,引发这种性能问题的主要原因大概有哪几种可能?
The text was updated successfully, but these errors were encountered: