Deadline for TreeThreader
log in

Advanced search

Message boards : News : Deadline for TreeThreader

1 · 2 · Next
Author Message
wenjing wu
Volunteer moderator
Project administrator
Project developer
Project tester
Volunteer developer
Volunteer tester
Avatar
Send message
Joined: 13 Sep 10
Posts: 161
Credit: 751,216
RAC: 0
Message 1021 - Posted: 23 Apr 2013, 8:08:11 UTC
Last modified: 30 Apr 2013, 14:36:19 UTC

We adjusted the deadline several times for TreeThreader upon requests from volunteers. But due to the specific setup on the frontend server of TreeThreader which generate and submit jobs to CAS@home, this application needs a tighter deadline. The frontend server allows maximum 300 batches (9600 jobs) to run on CAS@home in parallel, so if the deadline is too loose, some batches do not get return in time and it will prevent the frontend server from submitting new jobs to CAS@home server. This leaves the fast voluteer hosts in a starving situation. To resolve this paradox, we examine the running time of all finished jobs of TreeThreader, and reach a conclusion that 98% jobs require less than 4.16hours on an average host and the longest running time job is 26.1hours on an exremely slow host (0.7GFLOS/s). Based on above analysis, we reset the TreeThreader job deadline to be 36hours. Please leave your feedback here if any exceptions happen on your host. Thanks!

Clients can not get new jobs?:

The TreeThreader Job Submission portal only allows 9600 jobs running in parallel(each sequence needs to be pre-processed before being submitted and also post-processed after collecting the results), so when all these jobs are being claimed and run on volunteer hosts, there won't be any new jobs generated from the server for the clients to request

应志愿者要求,我们几次调整过TreeThreader的deadline.但是由于TreeThreader前端提交作业服务器的限制,我们目前设置的deadline(72小时)太松了,使得TreeThreader不能充分利用CAS@home的资源。TreeThreader前端服务器允许在CAS@home平台上同时运行300个batch的作业(9600个作业),如果deadline太松,某些batch由于等待一两个晚到的作业结果,不能及时返回到前端服务器,从而阻止前端服务器产生更多的新的作业。这种状况使得大部分空闲的志愿主机处于“饥荒”状态。为了解决这一矛盾,我们仔细分析了所有作业的完成时间,得出以下结论:TreeThreader 98%的作业运行时间低于4.16小时(在一台普通主机上),数据库中记录运行时间最长的作业为26.1小时(该作业运行在一个速率极低的主机上,该主机的计算能力为0.79GFLOPS每秒)。 基于上述分析,我们将TreeThreader作业的deadline设置为36小时。如果在您主机上出现任何异常,请在此反馈!谢谢!

关于客户端领取不到新任务的原因:

没有可下载的新任务,是因为前端作业提交服务器最多运行同时运行9600个作业(每条蛋白质序列在被提交前都要进行验证处理,收回结果后需要进行后期处理),所以当这些作业被主机认领但是没有返回结果之前,服务器端是没有新的作业可认领的。
____________
加油!CAS@home!我们帮助科学家跟时间赛跑!
Go CAS@home! We help scientists to race against time!

nrstudio
Send message
Joined: 17 Apr 13
Posts: 2
Credit: 154,269
RAC: 0
Message 1024 - Posted: 23 Apr 2013, 11:35:13 UTC - in response to Message 1021.
Last modified: 23 Apr 2013, 11:48:38 UTC

新方案什么时候启用的?
今天上午几个任务似乎有这样的问题:开始计算后,剩余时间随着已用时间的增加而增加,进度达到50%时便显示完成并上报,也都通过验证。(下午不在电脑旁,现在没有protein任务,无法进一步观察确认。)

补充:nano任务的剩余时间也在增加,前几天有时候也是,4月17日开始计算时剩余150+hr,之后有几天都显示151+hr。现在显示的进度是26.45%,已用时间是68+hr,剩余时间是147+hr。

Baomin
Send message
Joined: 3 Mar 12
Posts: 4
Credit: 6,806
RAC: 0
Message 1026 - Posted: 24 Apr 2013, 2:32:11 UTC

大部分CAS的任务我都不能在规定时间内算完成,可是我觉得自己已经用很多时间去计算了。比如,任务规定提交日期为明天,我今天才计算到50%左右……而且预计还需要十多天……让我果断放弃任务……
我平时都保持在50%的CPU,50%的CPU计算时间,用时50%内存,闲时100%内存,这样一个计算条件,而且我还要做我的其他事情,不可能像超级计算机那样,全资源来计算。
我希望能把任务弄得更方便计算,或者提交日期充裕些,或者任务量更小一些。一点建议。

Yin Gang
Send message
Joined: 13 Jun 10
Posts: 3
Credit: 13,923
RAC: 0
Message 1027 - Posted: 24 Apr 2013, 4:40:02 UTC - in response to Message 1021.

这个问题是不是可以通过增加任务的replication来部分解决?treethreader目前每个任务同时会分发给几个人计算?

ps. 36小时实在有点短。

王梓任
Send message
Joined: 30 Jan 12
Posts: 6
Credit: 73,590
RAC: 0
Message 1028 - Posted: 25 Apr 2013, 2:59:05 UTC

我倒是有个问题:很多时候CAS完成任务上传完毕后不自动下载新任务。甚至放置play一两天都不带动弹的,只有手动更新才会有新任务下载。这是什么原因??

HP
Send message
Joined: 9 Feb 13
Posts: 2
Credit: 243,617
RAC: 0
Message 1029 - Posted: 25 Apr 2013, 3:14:49 UTC

就是啦,经常没看进任务下来,

dickgb
Send message
Joined: 25 Oct 11
Posts: 1
Credit: 18,782
RAC: 0
Message 1030 - Posted: 25 Apr 2013, 4:08:42 UTC

我现在是连手动更新也没有用了,都好几天没有任务下载了

加佳钙
Send message
Joined: 22 Jun 10
Posts: 34
Credit: 1,549,597
RAC: 0
Message 1033 - Posted: 27 Apr 2013, 0:51:37 UTC

看一下我的9301350 任务 Tsinghua Nano Tech Research v1.29 这个任务只有我一个人计算啊,已经计算210小时了,还有395小时,别计算完了,没有人跟我验证哦。
我看之前计算的出错的都是Tsinghua Nano Tech Research v1.28及其以前的老版本。看我看看哈。谢谢。

也同样的问题,任务量不够啊,经常机器就空在那里。++后台的任务服务器数量哦。 这样我们的计算能力才能发挥出来哦
____________

franky
Send message
Joined: 20 Apr 13
Posts: 2
Credit: 7,773
RAC: 0
Message 1035 - Posted: 27 Apr 2013, 12:14:32 UTC - in response to Message 1033.

收到两个包,算了1小时的,然后又没有了,不知道什么情况。

Profile Rensk
Send message
Joined: 16 May 11
Posts: 4
Credit: 276,418
RAC: 0
Message 1036 - Posted: 27 Apr 2013, 14:27:33 UTC

Bonjour,

Moi je n'ai aucun problème avec CAS@Home, je suis d'ailleurs flatté de la confiance que vous m’octroyez... Je crains par contre que vous donniez trop de confiance à Microsoft.

Je dois rendre un travail le 08.01.2014, j'ai déjà travaillé 313:50 et dois encore en faire 1229:26 selon l'estimation. (Tsinghua Nano Tech research 1.29 / Batch_761_804 / ID processus 6184). J'ai un ordinateur intel Core2 Quad Q9550 @ 2.83 GHz (bien sûr un vieux truc pour un Suisse)

Pour vous dire ; ce printemps la radio régionale a demandé aux gens ce qu'ils plantaient... un seul a répondu question jardin... Tous les autres ont dit que Microsoft plantais régulièrement mais qu'on ne retirais jamais aucun "légume" où fruits...

Dommage pour la perte de temps si cela nous arrive, les points... bof, ce n'est pas eux qui ferons avancer la recherche... Bonne continuation.

PS: Ai perdu deux PC pour surchauffe faite par DistrRTgen, ne faite pas la même chose qu'eux.

---- ImTtranslator----

你好,

我 CAS@Home 没有问题,我也是奉承你给我的信任......然而你给太多信任微软害怕我也要 08.01.2014

工作,我已经工作了 313:50,仍要使它 1229:26 的估计。(清华大学纳米科技研究 1.29 / Batch_761_804 / ID 进程 6184)。我有英特尔酷睿 2 四核 Q9550 @ 2.83 g h z (当然对于瑞士的老把戏)

告诉你 ; 区域无线电问人他们...种植今年春天一回答问题花园......其他人所说微软站定期但我们从来没有蔬菜哪里水果......

损坏而损失的时间如果发生我们,...点 bof,又不是他们会做的人研究......很好的延续。

PS: 失去了两个 PC 为过热由 DistrRTgen,作出不一样他们。

qfashly
Send message
Joined: 28 Apr 13
Posts: 1
Credit: 543
RAC: 0
Message 1038 - Posted: 28 Apr 2013, 5:44:49 UTC

加油!

mbh
Send message
Joined: 28 Apr 13
Posts: 8
Credit: 38,429
RAC: 0
Message 1040 - Posted: 28 Apr 2013, 19:15:32 UTC

为什么我总是没任务啊,4个任务一会就完成了,现在就一个任务了,更新了号几次,也不给我任务。郁闷啊。

mbh
Send message
Joined: 28 Apr 13
Posts: 8
Credit: 38,429
RAC: 0
Message 1041 - Posted: 28 Apr 2013, 19:43:43 UTC - in response to Message 1021.

空了一个小时没任务,郁闷啊

mbh
Send message
Joined: 28 Apr 13
Posts: 8
Credit: 38,429
RAC: 0
Message 1042 - Posted: 28 Apr 2013, 19:43:52 UTC - in response to Message 1021.

空了一个小时没任务,郁闷啊

wan
Project scientist
Send message
Joined: 22 Jun 12
Posts: 19
Credit: 0
RAC: 0
Message 1044 - Posted: 30 Apr 2013, 14:25:04 UTC - in response to Message 1028.

没有下载新任务,是因为前段作业生成服务器最多运行同时运行9600个作业,所以当这些作业被主机认领但是没有返回结果之前,服务器端是没有新的作业可认领的。

我倒是有个问题:很多时候CAS完成任务上传完毕后不自动下载新任务。甚至放置play一两天都不带动弹的,只有手动更新才会有新任务下载。这是什么原因??

wenjing wu
Volunteer moderator
Project administrator
Project developer
Project tester
Volunteer developer
Volunteer tester
Avatar
Send message
Joined: 13 Sep 10
Posts: 161
Credit: 751,216
RAC: 0
Message 1045 - Posted: 30 Apr 2013, 14:31:05 UTC - in response to Message 1027.

谢谢建议!这个我们可以尝试!如果能够达到同样效果的话,可以适当延长deadline!

这个问题是不是可以通过增加任务的replication来部分解决?treethreader目前每个任务同时会分发给几个人计算?

ps. 36小时实在有点短。


____________
加油!CAS@home!我们帮助科学家跟时间赛跑!
Go CAS@home! We help scientists to race against time!

nokia5510
Send message
Joined: 1 Feb 11
Posts: 1
Credit: 161,937
RAC: 0
Message 1051 - Posted: 2 May 2013, 1:05:25 UTC

我倒是觉得可以根据主机每天的平均计算能力来分配不同大小的任务包。不是每个志愿者都每天长时间开机全力运算的,很多人应该都是实际自己需要使用计算机时分配一定的计算资源给BONIC,这个计算资源还会被其他项目分享,所以实际上算力应该是不怎么强的,大任务包很多人可能都没有办法按时完成。像我的E350处理器上网本,根本就不会考虑现在的CAS任务。所以建议做一个程序,统计一下每台机器在一个月内真实提供了多少计算能力,根据这个时间去调整任务包大小和时限,应该会对志愿者的机器利用得充分一些。另外,OSX系统好像收不到任务包呢?

刘林
Send message
Joined: 25 Jan 13
Posts: 1
Credit: 38,480
RAC: 0
Message 1052 - Posted: 2 May 2013, 2:50:03 UTC - in response to Message 1021.

“众人拾柴火焰高”,大家一齐努力啊。

diz_Child
Send message
Joined: 25 Aug 10
Posts: 1
Credit: 67,722
RAC: 0
Message 1064 - Posted: 4 May 2013, 10:43:03 UTC - in response to Message 1021.

0.79GFLOPS。。。似乎是很小的计算能力?。。

因为我小本的GPU都有163GFLOPS,GPU浮点数等的计算能力早已远超CPU,虽然我也是最近才发现的,但我最近一个月的计算分数已经差不多超过了以往所有的分数累计。。。

你们是不是应该开发GPU程序了。。。

Profile Rensk
Send message
Joined: 16 May 11
Posts: 4
Credit: 276,418
RAC: 0
Message 1130 - Posted: 23 Jun 2013, 14:55:14 UTC

Ai perdu le travail en cour (pour 2014) signalé plus haut... Dommage vu que déjà travaillé plus de 1'200 heures (au moins).

1 · 2 · Next
Post to thread

Message boards : News : Deadline for TreeThreader