<HTML>
<HEAD>
<TITLE>Re: [RASMB] difference of p = 0.95, 0.68 and 0.55, the confidence level in the sedfit c(s) distribution</TITLE>
</HEAD>
<BODY>
<BLOCKQUOTE><FONT COLOR="#800000">There is an interesting topic here, concerning the optimal method to be used for various types of system. I suppose that there is no such thing as a totally 'good' approximation, merely one that is better (or at least less bad) than other ways of proceeding with an analysis. Use of ls-g(s) as compared to c(s) is a case in point. As the SEDIFT Manual makes clear, there are problems which can arise with c(s) profiles, in particular component rather close together* in s value and with a fair amount of inter-diffusion can fail to resolve as 2 components in c(s) analysis. Whereas ls-g(s) profiles can generally be decomposed into 2 species by standard fitting algorithms. We have good experimental data on test systems confirming this.<BR>
<BR>
However, <I>no-one</I> would wish to argue that one cannot get problems with ls-g(s), or that the assumption of 'one component - 1 gaussian' will always be fine. Among other problems, we ourselves (like others, I think) consistently find that the exact resolution used significantly affects the ls-g(s) profile for some systems (but not others - why?). 80 seems to be a good number here, but that is purely 'rule of thumb'. Of course one can get some very weird effects - whichever profile is computed - by taking large values for the resolution. <BR>
<BR>
As ever, you should 'know your system' , and do not believe odd bumps at implausible s values merely because the computer spits them out. Chi-Yuan Chou's original problem illustrates well what can happen with any data-fitting approach. There is no way out of making certain assumptions. The best thing you can ever do is found out what works with test systems as close as possible in physical characteristics to your own.<BR>
<BR>
<BR>
Arthur<BR>
</FONT><BR>
<BR>
</BLOCKQUOTE>-- <BR>
*************************<BR>
Arthur Rowe<BR>
Lab at Sutton Bonington<BR>
tel: +44 115 951 6156<BR>
fax: +44 115 951 6157<BR>
*************************<BR>
<BR>
<BLOCKQUOTE><BR>
</BLOCKQUOTE><BR>
<BLOCKQUOTE><FONT COLOR="#0000FF"><FONT SIZE="2"><FONT FACE="Arial">Sorry Arthur but I have to strongly disagree with your statement that the peaks from SEDFIT's least-squares g(s) method are Gaussians to a good approximation. You are making the assumption that this approach is really equivalent to Walter's original method, but it is not. Peter has never published any theory showing this Gaussian assumption is true. Fundamentally there is no reason I can see to believe that a least-squares fitter using a model that assumes no diffusion should always produce a Gaussian peak when applied to data broadened by diffusion.<BR>
</FONT></FONT></FONT> <BR>
<FONT COLOR="#0000FF"><FONT SIZE="2"><FONT FACE="Arial">While your statement is probably true in certain cases (particularly for high mass species and when you use a high degree of smoothing), it is quite easy to show it is NOT true in general, as I have done, by simulating a single species of say 20 kDa and then calculating the ls-g(s) distribution. The result will be distinctly non-Gaussian. <BR>
</FONT></FONT></FONT> <BR>
<FONT COLOR="#0000FF"><FONT SIZE="2"><FONT FACE="Arial">John Philo<BR>
Alliance Protein Laboratories<BR>
</FONT></FONT></FONT><BLOCKQUOTE><FONT SIZE="2">-----Original Message-----<BR>
<B>From:</B> rasmb-admin@server1.bbri.org [mailto:rasmb-admin@server1.bbri.org] <B>On Behalf Of </B>Arthur Rowe<BR>
<B>Sent:</B> Monday, July 12, 2004 9:15 AM<BR>
<B>To:</B> Jacob Lebowitz; medakachou; rasmb@server1.bbri.org<BR>
<B>Subject:</B> Re: [RASMB] difference of p = 0.95, 0.68 and 0.55, the confidencelevel in the sedfit c(s) distribution<BR>
<BR>
</FONT><BLOCKQUOTE><FONT COLOR="#800000">Hi all<BR>
<BR>
In Peter's absence let me make one point which he (very correctly) makes concerning estimation of s values and relative concentrations. Which is that the c(s) distribution for each individual species in a mixture is <U>not</U> a gaussian distribution. Hence one should not do 'peak fitting' by the usual algorithms, in ORIGIN or anything else. As Jack very correctly says, it is  numerical integration over appropriate ranges which you need.<BR>
<BR>
What <U>is</U> valid to a very good approximation is to fit multiple gaussians to the (least squares in SEDFIT) g(s) profile. Basically as per Walter Stafford's original approach.  In our own experience we find this gives a more objective description of such systems, albeit - since it is better at resolving closely related species including dimers of lower M (i.e. more rapidly diffusing) monomers - the outcome can be rather less flattering to the perceived 'quality' of one's precious preparation!<BR>
<BR>
All best wishes to everyone<BR>
<BR>
Arthur<BR>
</FONT><BR>
</BLOCKQUOTE>-- <BR>
*************************<BR>
Arthur Rowe<BR>
Lab at Sutton Bonington<BR>
tel: +44 115 951 6156<BR>
fax: +44 115 951 6157<BR>
*************************<BR>
<BR>
<BLOCKQUOTE><BR>
<BR>
</BLOCKQUOTE><BR>
<BLOCKQUOTE>Since Peter is on a long vacation, I will attempt to answer your question.  You can integrate the peaks by pressing the ctrl and I keys simultaneously which will give you a dialog box that states that you should hold the right mouse button down and draw a rectangle to cover the s range to be integrated. You will see once you do the integration you will obtain both the % of the loading signal in the integration range and the weight average s value. Also the results box states that this integration it is best done without regularization, confidence level of zero. Regularization gives the most parsimonious distribution for  the confidence level that you set. Total removal of regularization may give you too many peaks that will merge at higher confidence levels. You can still integrate over multiple peaks in the s range you have selected and compare the result with integration of the distribution you obtain at higher confidence levels. In my experience the integration results over the same s range are comparable from no regularization to using settings of <FONT SIZE="2">p = 0.68 to 0.95.  At the latter p selections you have the more realistic description of the sedimenting species. Hope that the above is clear.<BR>
<BR>
</FONT>Jack Lebowitz<BR>
<BR>
<BR>
At 10:29 PM 7/12/2004 +0800, medakachou wrote:<BR>
<BLOCKQUOTE><FONT SIZE="2">Dear all,<BR>
<BR>
Recently, I'm analyzing the sedimentation velocity spectra by continuous c(s) distribution (SEDFIT). I've analyzed my data in three kind of confidence level: p = 0.95, 0.68 and 0.55 and the regularization method is maximum entropy. The s limit is 0.1 to 25S. I found every species is not well seperated (they just fuse together) in p = 0.95. In p = 0.68, the situation is better and the peaks are more significant. p= 0.55 can give me the highest resolution and every peak is very clear cut. Now the question is: if I want to calculate the area of peaks by Origin peak fitting module, which results should I use? I've check Schuck's paper and he suggests using p = 0.68 to 0.95 is enough. How about 0.55? I appreciate your response and suggestion.<BR>
<BR>
Sincerely,<BR>
<BR>
<BR>
Chi-Yuan Chou<BR>
PhD student, the Institutes of Life sciences, National Defense Medical Center, Taipei, Taiwan<BR>
</FONT></BLOCKQUOTE><FONT SIZE="2">e-mail: r6243023@yahoo.com.tw<BR>
</FONT><BR>
</BLOCKQUOTE><BR>
<BR>
<BR>
This message has been scanned but we cannot guarantee that it and any attachments are free from viruses or other damaging content: you are advised to perform your own checks. Email communications with the University of Nottingham may be monitored as permitted by UK legislation. <BR>
</BLOCKQUOTE><BR>
</BLOCKQUOTE><BR>
</BODY>
<br/>
<p>
This message has been scanned but we cannot guarantee that it and any
attachments are free from viruses or other damaging content: you are
advised to perform your own checks. Email communications with the
University of Nottingham may be monitored as permitted by UK legislation.
</p>
</HTML>