The SAGA use case FAQ

How to run a job on the Purdue Condor pool using the condor adaptor?

$ soft add +condor-current

+TGProject = "TG-STA080000N"

-append "log = /tmp/saga-condor-log-qToJzf" -append "log_xml = True"

# job_condor.py

import saga

try:
  job_service_url = saga.url("condor://localhost/")
  job_service = saga.job.service(job_service_url)

  job_description = saga.job.description()
  job_description.executable = "/bin/hostname"
  job_description.arguments = ["--fqdn"]

  my_job = job_service.create_job(job_description)
  my_job.run()

  print my_job.get_job_id()

except saga.exception, e:
  print "SAGA Error: ", e

lacinski@tg-condor ~ $ python job_condor.py
[condor://localhost/]-[2458734]

lacinski@tg-condor ~ $ condor_q 2458734 -better-analyze


-- Submitter: tg-condor.rcac.purdue.edu : <128.211.128.45:53085> : tg-condor.rcac.purdue.edu
---
2458734.000:  Run analysis summary.  Of 1828 machines,
     16 are rejected by your job's requirements
     89 reject your job because of their own requirements
    159 match but are serving users with a better priority in the pool
   1510 match but reject the job for unknown reasons
     27 match but will not currently preempt their existing job
     27 are available to run your job

The Requirements expression for your job is:

( ( JobUniverse == 7 || JobUniverse == 9 || JobUniverse == 12 ) || ( TGProject isnt undefined ) ) &&
( target.Arch == "X86_64" ) && ( target.OpSys == "LINUX" ) &&
( target.Disk >= DiskUsage ) && ( ( target.Memory * 1024 ) >= ImageSize ) &&
( ( target.HasFileTransfer ) || ( TARGET.FileSystemDomain == MY.FileSystemDomain ) )

    Condition                         Machines Matched    Suggestion
    ---------                         ----------------    ----------
1   ( target.Arch == "X86_64" )       1812                 
2   ( target.OpSys == "LINUX" )       1828                 
3   ( target.Disk >= 17 )             1828                 
4   ( ( 1024 * target.Memory ) >= 17 )1828                 
5   ( ( target.HasFileTransfer ) || ( TARGET.FileSystemDomain == "rcac.purdue.edu" ) )
                                      1828                 

The following attributes are missing from the job ClassAd:

CheckpointPlatform
lacinski@tg-condor ~ $ cat /tmp/saga-condor-log-HoWlw6
<c>
    <a n="MyType"><s>SubmitEvent</s></a>
    <a n="EventTypeNumber"><i>0</i></a>
    <a n="MyType"><s>SubmitEvent</s></a>
    <a n="EventTime"><s>2009-10-08T00:48:56</s></a>
    <a n="Cluster"><i>2458736</i></a>
    <a n="Proc"><i>0</i></a>
    <a n="Subproc"><i>0</i></a>
    <a n="SubmitHost"><s><128.211.128.45:53085></s></a>
</c>
lacinski@tg-condor ~ $

How to run a job on the TG clusters using Condor-G and the condor adaptor?

lacinski@qb1 ~$ condor_status

Name               OpSys      Arch   State     Activity LoadAv Mem   ActvtyTime

ncsa.cobalt.debug  LINUX      IA64   Unclaimed Idle     0.000  109967  0+00:00:00
ncsa.cobalt.extend LINUX      IA64   Unclaimed Idle     0.000  109967  0+00:00:00
ncsa.cobalt.long   LINUX      IA64   Unclaimed Idle     1.230  109967  0+00:00:00
ncsa.cobalt.standa LINUX      IA64   Unclaimed Idle     1.601  109967  0+00:00:00
ncsa.cobalt.workq  LINUX      IA64   Unclaimed Idle     0.000  109967  0+00:00:00
tacc.lonestar.deve LINUX      X86_64 Unclaimed Idle     0.000  1118433  0+00:00:01
tacc.lonestar.high LINUX      X86_64 Unclaimed Idle     100.000  1118433  0+00:00:01
tacc.lonestar.norm LINUX      X86_64 Unclaimed Idle     2.377  1118433  0+00:00:01
tacc.lonestar.seri LINUX      X86_64 Unclaimed Idle     4.500  1118433  0+00:00:01
tacc.ranger.develo LINUX      X86_64 Unclaimed Idle     1.118  55308288  0+00:00:00
tacc.ranger.large  LINUX      X86_64 Unclaimed Idle     100.000  55308288  0+00:00:01
tacc.ranger.long   LINUX      X86_64 Unclaimed Idle     2.596  55308288  0+00:00:00
tacc.ranger.normal LINUX      X86_64 Unclaimed Idle     6.809  55308288  0+00:00:00
tacc.ranger.serial LINUX      X86_64 Unclaimed Idle     0.000  55308288  0+00:00:01
ncsa.abe.cap1      LINUX      X86_64 Unclaimed Idle     0.000  8901860  0+00:00:00
ncsa.abe.debug     LINUX      X86_64 Unclaimed Idle     0.000  8901860  0+00:00:00
ncsa.abe.lincoln   LINUX      X86_64 Unclaimed Idle     0.000  8901860  0+00:00:00
ncsa.abe.long      LINUX      X86_64 Unclaimed Idle     1.721  8901860  0+00:00:00
ncsa.abe.normal    LINUX      X86_64 Unclaimed Idle     3.982  8901860  0+00:00:00
ncsa.abe.wide      LINUX      X86_64 Unclaimed Idle     100.000  8901860  0+00:00:00
loni-lsu.queenbee. LINUX      X86_64 Unclaimed Idle     1.827  502110  0+00:00:00
loni-lsu.queenbee. LINUX      X86_64 Unclaimed Idle     0.000  502110  0+00:00:00
loni-lsu.queenbee. LINUX      X86_64 Unclaimed Idle     2.771  502110  0+00:00:00

                     Total Owner Claimed Unclaimed Matched Preempting Backfill

          IA64/LINUX     5     0       0         5       0          0        0
        X86_64/LINUX    18     0       0        18       0          0        0

               Total    23     0       0        23       0          0        0
lacinski@qb1 ~$

executable = /bin/hostname
arguments = --fqdn
output = condor7-gt2.$(CLUSTER).$(PROCESS).out
error = condor7-gt2.$(CLUSTER).$(PROCESS).err
notification = NEVER
universe = grid
grid_resource = gt2 queenbee.loni-lsu.teragrid.org/jobmanager-pbs
globus_rsl = (project=TG-STA080000N)(maxWallTime=10)(jobType=single)
x509userproxy = /home/lacinski/.globus/userproxy.pem
queue

# Universe = Vanilla
universe = grid
grid_resource = gt2 queenbee.loni-lsu.teragrid.org/jobmanager-pbs
globus_rsl = (project=TG-STA080000N)(maxWallTime=10)(jobType=single)
x509userproxy = /home/lacinski/.globus/userproxy.pem

# job_condor.py

import saga

try:
  job_service_url = saga.url("condor://localhost/")
  job_service = saga.job.service(job_service_url)

  job_description = saga.job.description()
  job_description.executable = "/bin/hostname"
  job_description.arguments = ["--fqdn"]
  job_description.output = "condor7-gt2.$(CLUSTER).$(PROCESS).out"
  job_description.error = "condor7-gt2.$(CLUSTER).$(PROCESS).err"

  my_job = job_service.create_job(job_description)
  my_job.run()

  print my_job.get_job_id()

except saga.exception, e:
  print "SAGA Error: ", e

How to run a Condor-G job on the TG clusters without changing SAGA ini files?

lacinski@qb1 ~$ mkdir condor
lacinski@qb1 ~$ cd condor
lacinski@qb1 ~$ ln -s /usr/local/packages/condor-7.2.1-r1/bin/condor_q .
lacinski@qb1 ~$ ln -s /usr/local/packages/condor-7.2.1-r1/bin/condor_rm .
lacinski@qb1 ~$ cat > condor_submit
#!/bin/bash

HOME=/home/lacinski
ATTR=$HOME/condor/condor_attr
JOB=$HOME/condor/condor_job

cat $ATTR > $JOB

while read l; do
    if [[ $l == ${l/#universe/} ]]; then
        echo $l >> $JOB
    fi
done

exec /usr/local/packages/condor-7.2.1-r1/bin/condor_submit "$1" "$2" "$3" "$4" $JOB
<Ctrl+d>

# job_condor_py

import saga
import os

try:
  js_url = saga.url("condor://localhost/")
  job_service = saga.job.service(js_url)

  job_desc = saga.job.description()
  job_desc.executable = "/bin/hostname"
  job_desc.arguments = ["--fqdn"]
  job_desc.output = "condor7-gt2.$(CLUSTER).$(PROCESS).out"
  job_desc.error = "condor7-gt2.$(CLUSTER).$(PROCESS).err"

  home = os.environ.get("HOME")
  attr = open(home + "/condor/condor_attr", "w")
  attr.write("log = condor7-gt2.$(CLUSTER).$(PROCESS).log\n")
  attr.write("universe = grid\n")
  attr.write("grid_resource = gt2 queenbee.loni-lsu.teragrid.org/jobmanager-pbs\n")
  attr.write("globus_rsl = (project=TG-STA080000N)(maxWallTime=10)(jobType=single)\n")
  attr.write("x509userproxy = " + home + "/.globus/userproxy.pem\n")
  attr.close()

  my_job = job_service.create_job(job_desc)
  my_job.run()

except saga.exception, e: 
  print "SAGA Error: ", e