Cultural Psychology and Me

2010年02月25号

Personal experience always has a great influence on one’s academic pursuit, so do I.
My father was fond of reading books on western philosophy and I gradually got interested in western philosophy under his influence, too. Discussing and debating with my father on philosophical problems in high school almost every night, I developed a habit to think in a rational way. On the other hand, my father used to take a negative perspective on Chinese traditional culture due to what he had come through in the past, which has changed a little bit recently. Because of father’s implicit influence on me, I never treated any Chinese philosophical theory as serious as western philosophical theory. The evidence is that there isn’t any Chinese Classics on the bookshelf at home except The History of Chinese Philosophy, which is written oringinally in English by Feng youlan, a famous Chinese philosopher.
Under the influence of the thoughts oringing from Antient Greece and Classical philosophy of Germany, I accepted some values from west which are somewhat different from those of people around me. Deify ideal world, despise real world (including my own body); Pursue rationality, restrain affect and instinct; Desperate for the profoundity and complexity of thinking, loathe superficiality. My own thinking styles grow out of these simple values. It is these values that lead me to argue with my classmates all the time because we did not share the same basic beliefs on topics such as the goal of life, what to think about life and death and what is our responsibility, et al. It seems to me that I am always on the opposite side of others. Ostensibly speaking, my arguments changed a lot during all these years, however, most importantly, what has not changed till now is my belief.
I was named as “little philosopher” by my classmates in high school because of my enthusiasm of debating on philosophical problems instead of examination. Frankly speaking, I sort of enjoyed the “fame” then, however, I felt lost somehow sometimes. Being treated as a “person with profound ideas”, it was pretty hard for me to find a person in my age who were willing and able to share some opinions with me. Students even treated me as an idol rather than a friend in college. Trying to get out of the feeling of loniess, I started to think about my own development in the past to find out why I am who I am now.
When I was a sophomore, I wrote an article named by Two Views on Modernization of China: From the Perspective of Philosophy. I wanted to deepen my understanding of the problems China has enccounted on the way of modernization at the very strat. However, what I learned from reading relevant books on modernization were so inspiring that I truely believed that I had found a way to answer my own question: why I am who I am now.   Talking about differences in thinking styles between the East and the West, some books pointed out that the differing philosophical ideas are the very roots of all the variety of values, thinking styles. From then on, I tend to understand myself as someone who is influenced by western values for learning western philosophy and accepting them all. I further inferred that philosophy was the very root of all cultural phenomena.
Another question then came to my mind: what way it is in which philosophy shape our values, beliefs and thinking styles and finally leads to a variety of cultural differences? At first glance, it seems to be a complicated process in which there are too many factors are resposible. Probably for being a students studying psychology, I inclined to believe that psychological researches would make a difference in settling this puzzle. It makes sense to assume that values, beliefs and thinking styles are all developed and expressed in terms of psychological process (not society as a whole), that is to say, philosophy firstly shapes man’s thinking styles and values and then influences culture through individuals.
Essentially speaking, my interest in cultural psychology is due to an attempt to prove that, on the one hand, differences in philosophy between the East and the West leads to cultural differences we can observe. On the other hand, the process can be explained by studying individual psychological mechanism becase philosophy influence culture by shaping human mind first. The key point here is that philosophy is placed as the root of culture to understand the very beginning of culture.
I know what encourages me to study cultural psychology all this way is the intuition that what I am going through is as same as what Chinese society are undergoing. I learned a lot of knowledge and accept values from the West and hence got a problem with adapting myself to my own culture. This institution is utterly irrational and unfounded in terms of science. However, it does not mean that I should not try to prove it. During the history of psychology, many famous theories raised by oustanding psychologists actually originated from their own experience of their lives. These psychological theories has a great influence on the field and some even change the way how we understand our world. I hope I could develop a theory out of my experience and give an alternative answer to me and the world as well.
It is my desire to get an answer to my own problem that encourages me to study cultural psychology. As a graduate student studying cultural psychology, I learn such theories of culture and psychology from the fields of cultural psychology as socio-cultural model, dynamic contructivist approach and situated cognition theory. Process model or structual model, system view or entity view, these approaches all enrich my understanding of the relationship of culture and psychology and will help me know better about myself and our society.

单因素独立样本固定效应方差分析分析总结

2009年02月23号

单因素独立样本固定效应方差分析分析总结——效应量及其置信区间、Power、趋势分析(One way ANOVA analysis review: effect size and its confidence intervals, power and trend analysis)
数据文件:OA3.sav,R中为OA3
模拟数据:
R:
n1<-n2<-n3require(pwr);require(MBESS);require(multicomp);require(car)
1 假设检验:
Anova(lm(Happy~ Type,data=OA3,contrasts=list(Type=contr.sum)),type=”III”)
##要注意当TypeIII和TypeII两者不一样的时候,需要加入语句:contrasts=list(fcategory=contr.sum, partner.status=contr.sum) ##Coding,适用TypeIII方法
参考R帮助文件>example(Anova)
(注:Type II和Type III的区别:
在没有交互作用,或不同组之间的被试数比例与总体比例相同时二者无区别;
Type II在有交互作用,且不同组之间的被试数比例与总体比例相同时适用;
Type III在有交互作用,总体为等比例但样本为不等比例时适用。
亦可以回归的方式来做:
lm.OA3<-lm(Happy~ Type,data=OA3)
summary(lm.OA3)
得到的结果中后面会用到的是:
R2=0.3719,F(2,90)=26.648
(注:回归方法当中只报告回归的一些参数,不报告SS,但是报告R2(SPSS中不报告),方便接下来计算f2(f2的求法列在下面))
2 效应量及其置信区间
①Cohen’s f2及其置信区间
f2=0.3719/(1-0.3719)
= 0.5921032
##Cohen’f2=R^2/(1-R^2 )(where R2 is the squared multiple correlation)
##参考
##Cohen’f2=ncp/N(N=n*k)
ci.ncp<-conf.limits.ncf(F.value=26.648,conf.level=0.95,df.1=2,df.2=90) ##求ncp置信区间
lambda <- c(ci.ncp$Lower.Limit,ci.ncp$Upper.Limit); ##以置信区间的形式显示结果
因为f2=ncp/N (N=nK)
sqrt(ci.f2 <- lambda / N); (进行转化)
#求非中心参数ncp的置信区间,然后根据ncp和f2的关系来求得f2的置信区间#
根据上面两个式子可得:f2的置信区间是(0.5151149 0.9806293)
参考
http://mars.wiwi.hu-berlin.de/mediawiki/slides/index.php?title=Comparison_of_noncentral_and_central_distributions&redirect=no
②求η2及其置信区间
η2= SSeffect / SStotal
在单因素方差分析当中,因为只有一个自变量,η2=R2,所以η2=0.3719
在SPSS当中用Analyze——General Linear Model——Univariate来进行单因素方差分析可以收集到ηp2、R2、校正R2等数据,而且可以进行更复杂的Contrast。
方差分析结果

由noncf.sav计算得到的结果(前四项手工输入,最后三项为所需要的结果):

可知η2置信区间为: [0.20966,0.49021]
其实更简单的方法是在R中直接根据f2与η2的代数关系换算出η2的置信区间(^_^)。
③求ω2
ω2 = (SSeffect - (dfeffect)(MSerror)) / (MSerror + SStotal)=(1280.416-2*24.025)/(24.025+3442.627)
= 0.3554917
当前没有求总体ω2置信区间的统计技术
参考《Experimental Design Using ANOVA》:P114。
注:ω2置信区间和η2置信区间的文献常见的问题是没有定义总体值而直接谈置信区间,这是范式上的错误。
④求ηp2(偏η2)
ηp2 = SSeffect / (SSeffect + SSerror)
=η2
=0.3719
置信区间为:[0.20966,0.49021]
两者相等可以从他们的公式看出来:
η2= SSeffect / SStotal
ηp2 = SSeffect / (SSeffect + SSerror)
η2在分母当中包括了其他自变量的效应。而在单因素方差分析中只有一个自变量,所以两者相等。
注:在多因素方差分析中,需要根据两者的代数关系来求ηp2的置信区间。
如果自变量是随机因素(Random Factor),还可以求效应量指标为。这里只给出计算公式:
 = (MSeffect - MSerror) / (MSeffect + (dfeffect)(MSerror))
其他的效应量还包括:Glass’sΔ、Hedges’ g等。
各效应量之间的比较:
η2和ηp2是对特定样本效应量的描述统计量,是对效应量总体参数的有偏估计,而ω2是对作为总体参数的效应量的无偏点估计。因此η2和ηp2会高估效应量,所以ω2比η2和ηp2小一点。根据公式:
η2= SSeffect / SStotal
ηp2 = SSeffect / (SSeffect + SSerror)
可以看出η2会随着自变量的变多而变小,无法准确体现一个自变量的“效应”,而ηp2则不会。根本原因是η2的的分母中是总和方SStotal,而ηp2的分母是效应变异和误差变异的和(SSeffect+SSerror),因此ηp2不随自变量的增多而变小。但也是正因为如此,各自变量的ηp2之和不等于1。总的来说,η2的值描述的是在样本当中自变量所产生的变异效果。对于自变量效应量的总体估计值是ω2。
3 Power
pwr.f2.test(u=2,v=90,f2=0.5921032,sig.level=0.05)
Power的主要作用是在研究开始前估计样本量。但是在统计分析之后如果研究结果不显著,可以通过求Power来看还需要多少样本才能够获得显著性结果。
4 Post Hoc
require(multcomp)
g<-glht(lm.OA3, linfct = mcp(Type =c(”Senior-Mid=0″,”Senior-Youth=0″,”Mid-Youth=0″)))
注:必须将所有的差异都写出来,不能一次只单独求一个差值:
g<- glht(lm.OA3, linfct = mcp(Type =c(”Senior-Mid=0,”)))
注:这是单个Planned test(事前检验)的做法。如果是多个检验,根据所要做的比较的次数会有对α的校正,因此求出的置信区间会比不做校正的要大。事后检验在数学上与对应的多个事前检验结果一样(比如:包括三次比较的时候检验与做了三个比较的事前检验结果是一样的)。因为简单主效应是事后检验,应该进行α的校正,所以在R中应该同时写出三个比较(有几个比较写几个比较)。
R中采用的是Turkey HSD的做法,结果与SPSS一致。如果在R中只进行一次比较,结果与SPSS中Post Hoc里面的LSD方法相同,也就是说SPSS当中的LSD方法没有对α进行校正。
summary(g) ##可以看显著性检验的结果
confint(g) ##求老年人与中年人的简单主效应的置信区间
## 关于事后检验的具体方法和优劣参考
http://www.uoregon.edu/~stevensj/posthoc.pdf
求非标准化简单主效应
非标准化简单主效应就是指并非简单的差值比较,而是较为复杂的多重比较:比如老年人和中年人的平均值与青年人的差值的显著性检验。
g<- glht(lm.OA3, linfct = mcp(Type =c(”0.5*Senior + 0.5*Mid – Youth=0″)))
##比较老年人和中年人的平均值与青年人的快乐指数
summary(g) ##显著性检验结果
confint(g) ##求置信区间:
在SPSS中选择Contrast,在Coefficients当中依次填入-1,0.5,0.5。结果与R一致。
注:这里面要注意一点:指定的系数之和必须是0才能保证各组之间的变异是正交的。
另外在网上提供的做法当中填入的系数为-2,1,1,虽然最后的显著性结果是一致的,但这个时候差值的点估计就不和题目相对应了,所以建议用第一种方法指定系数。)
SPSS做法参考http://www.ats.ucla.edu/stat/Spss/faq/contrast.htm,其中包括了SPSS的Syntax语句。
在进行Contrast比较的时候就涉及到Coding(指定各水平系数)和Orthogonality(正交性)的问题。首先在自变量、水平之间是独立的假设成立的前提下,Coding要保证系数之和等于0,这样就能保证水平之间是正交的。正交的好处在于将效应量完全独立的分解,每次比较不会有重复的部分。如图:
正交
当样本量不一致时就很不能保证正交。
注:这里所提到的Coding指的是对各个哑变量的系数赋值的过程。
参考《Experimental Designs Using ANOVA》P124
事后检验方法
事前检验的效力比事后检验更高。只有在没有条件进行事前检验、或者没有明确的理论预期的时候才进行事后检验。
常用的Post Hoc有LSD、Scheffe、Turkey HSD、Bonferroni等。
LSD需要等组条件,并且没有对α进行校正,在进行较多检验的时候会提高犯一类错误的可能。
Scheffe过于保守,损失大量的Power。但特别适用于不等组情况。
Turkey HSD要求等组。在SPSS中对α进行了校正。
5 趋势分析(Trend Analysis):
在SPSS中的Contrast选项中选择Polynomial。3个水平最多只能是二次型(Quadratic)。
SPSS中趋势分析结果为:
趋势分析
线性趋势结果显著(F=51.083,p0.001),Quadratic趋势不显著(F=2.213,p>0.001)。这里的Deviation就相当于回归分析当中的残差。
Reference:
http://web.uccs.edu/lbecker/SPSS/glm_effectsize.htm
http://en.wikipedia.org/wiki/Effect_size
http://psychology.anu.edu.au/people/smithson/details/CIstuff/CI.html
http://www.ats.ucla.edu/stat/Spss/faq/contrast.htm
http://mars.wiwi.hu-berlin.de/mediawiki/slides/index.php?title=Comparison_of_noncentral_and_central_distributions&redirect=no
http://www.uoregon.edu/~stevensj/posthoc.pdf

对效应量置信区间的一些理解——ncp与非中心分布

2009年01月6号

(Confidence intervals for effect size: ncp and non-central distribution)

在求效应量的置信区间的过程中,我们遇到了ncp这个概念(non-centrality parameter,非中心分布参数)。ncp到底是什么?为什么要通过ncp来求效应量的置信区间?这里以求Cohen’ δ的置信区间为例来进行简要说明。

ncp其实就是假设检验中H1分布与H0分布的相对距离(距离比上标准误)。

所谓的非中心分布就是指中心值不为0的分布,相对于我们在假设检验中采用的中心分布(中心值为0,其实也可以不为0,但是我们经常遇到的都是0,而且不影响理解)而言的。非中心分布的特征是:非对称分布,在同样的df下,距离中心分布越远(ncp越大)则不对称性越大;在同样的距离下,df越大,越趋于对称。可以说,就是ncp决定了非中心分布的性质。

之所以在常规的显著性检验当中我们可以采用中心分布来计算置信区间,是因为我们虚无假设是认为不存在效应的,也就是说总体是符合中心分布的,因此用样本统计量代替总体参数进行检验,并根据中心分布参数的特征来求均数的置信区间。

但是在求效应量的置信区间的时候,我们已经不能再假设不存在效应了(因为我们已经有了效应量了)。而这个时候的tF分布就是非中心分布了。而ncpcohen’sδ存在着简单的数学关系。因此在求效应量的置信区的时候,我们首先根据非中心分布特征来求出Δ的置信区间,之后再根据ncpδ的关系求出效应量Cohen’s δ的置信区间。

在根据一个非对称分布的特征来求其参数的置信区间的时候就不像中心分布那样简单了,是通过计算机的iterative algorithmic计算得出来的,也就是说对于数学外行来说是一个“黑箱”了,现在在不同的统计软件当中也有相应的计算预言,比以前方便许多。这也是像我这样非数学、统计学专业的学生所能理解的边界了(否则……)。

计算效应量的置信区间的意义,一般的说法是为了获得精确的描述。但是什么叫做精确的描述呢?我认为这是因为Cohen’d这个统计量都是用样本统计量算出来的,更多的是描述性(descriptive)的指标,而不是一种推论性(inferential)的指标,因此缺乏指标来表明这个指标的准确性、精确性。因此我们需要获得总体的信息,然后通过该统计量的总体分布信息来对其总体参数进行估计。非中心分布就好像样本分布一样将样本与总体联系起来(根据大数定律),使得我们能够对效应量的总体进行区间估计,也就是前面提到的Cohen’ δ,这样我们才能知道所获得样本效应量统计量(Cohen’d)在多大程度上准确的描述了效应量总体参数(Cohen’d δ)。这也是为什么在高级统计课程上李老师一再强调我们求的是Cohen’ δ的置信区间而不是Cohen’d的置信区间的原因了。

经过与李老师的探讨,发现我上面的一段论述是不全面的,或者说是因为对统计学不甚了解而做出比较片面的概括。是否根据某种总体参数就能确定总体分布从而求得置信区间是“具体问题具体分析的”,也就是说“不一定”,是一个涉及具体统计技术的问题。在当前遇到的求ncp的统计分布中,是可以根据总体分布求出置信区间的。有些情况下则不能通过总体分布求出置信区间(不知道转述李老师的话是否准确)。之所以还要像上面那样进行阐述是因为对于学习心理统计的学生来说这样的解释应该可以用来理解ncp、非中心分布与效应量的置信区间的关系了,而没有必要在统计学上钻牛角尖。

感谢李晓煦老师的指导。

参考:

Cumming, G., & Finch, S. (2001). A Primer on the Understanding, Use, and Calculation of Confidence Intervals that are Based on Central and Noncentral Distributions. Educational and Psychological Measurement, 61(4), 532.

Fidler, F., & Thompson, B. (2001). Computing correct confidence intervals for ANOVA fixed- and random-effects effect sizes. Educational and Psychological Measurement, 61(4), 575-604.

再论重复测量设计与区组设计方差分解上的异同

2008年12月29号

再论重复测量设计与区组设计方差分解上的异同

结束了《心理学研究方法》课程的学习,对心理学实验设计有了更进一步的认识。因此对重复测量设计与区组设计的区别又有了进一步的认识(曾经在基础心理统计课作业中进行过探讨),在这里和大家分享一下。

首先来看一下两种设计的方差分解公式:

     单因素区组设计:SS=SS处理间+SS区组+SS残差

     单因素重复测量设计:SS=SS被试间+SSA+SS残差

    二因素区组设计:SS=SSA+SSB+ SSAB+SS区组+SS残差

    二因素重复测量设计:SS=SS被试间+SSA+SSA*被试+SSB+SSB*被试+SSAB+SSA*B*被试

  ⑤  单因素拉丁方设计:SS=SS处理间+SSA+ SSB+SSC+SS单元内+SS残差

各自假设:

     自变量水平与无关变量的水平间没有交互作用。

区组内为同质多被试,每一个被试只接受一个处理。

:忽略了同去组内被试间差异

     处理对被试效应的没有延续性影响,无顺序效应。

:单因素区组设计的计算与单因素重复测量实验设计完全相同,但是解释不同。

单因素区组设计:SS区组:无关变量误差

单因素重复测量设计:SS被试间:个体差异误差

     假设与①一致。

SS残差:因为区组作为无关变量假设与自变量不存在交互作用,因此残差项中包括了

SS区组*ASS区组*BSS区组*A*B,因此SS残差作为所有处理效应的残差项。

     假设同②一致。

与区组设计不同,被试个体与处理存在交互作用,因此SS残差被分解为SSA*被试SSB*被试SSA*B*被试。与区组设计的不同关键在于设计的假设。

需要注意的是,在区组设计中,舒华老师教材中的案例不仅满足了一个被试只接受一个条件处理的设计要求,而且还多余的外加了一个条件:单元内只有一个被试。这影响了方差分解。

同理,在重复测量设计中,不仅满足了一个被试接受所有处理的设计条件,还外加了一个条件:每个单元内只有一个trail。这同样影响了方差的分解。

在心理学实验设计当中,区组设计中每个单元内有多个被试、重复测量设计中每个被试每个条件下进行多次trail是很常见的。而这都对方差的分解产生了影响,也影响了F检验的结果。

在舒华老师的教材当中因为是以案例的形式来进行讲述,因此包含了现实的局限性,没能涵盖实际上的所有情况,这大概就是直观形象化教学的缺陷所在吧。

言归正传。区组设计中单元内有多个被试、重复测量设计中单元内一个被试进行多次trail实际上是同样的一种变化。那么这种变化对方差分解产生了怎样的影响呢?这里面借鉴舒华老师教材当中单因素拉丁方实验设计中的分解方案。

当一个单元内有两个或两个以上被试或者有两次或两次以上的trail的时候,就会产生组内误差。这个误差的性质与单因素随机实验设计当中的组内误差的性质相同。因此在方差分解当中应单独列出。因为在区组设计当中假设被试同质,且无关变量与自变量没有交互作用;重复测量设计当中假设不存在延续效应,因此组内误差不存在与组间处理的交互作用。因此在方差分解中只增加SS单元内一项。

接下来的问题就是SS单元内SS残差谁作为误差项来求F值呢?同样根据舒华老师教材当中的对拉丁方实验设计的论述:首先做方差齐性检验。F=MS残差/MS单元内。如果结果显著表明实验设计假设不成立:即区组无关变量与自变量存在交互作用,重复测量设计当中存在延续效应,实验设计不合理。如果研究结果不显著,则SS单元内SS残差均可作为误差项。根据舒华老师的建议,两者之和作为误差项是更好的选择。

了解了区组设计和重复测量设计的前提假设、具体分解以及传统教科书中的描述的不完整性,我们可以得出结论:区组设计与重复测量设计是本质上不同的实验设计。在单因素的情况下,两者的分解是相同的,这是因为残差项中只包含一个项目:在区组设计中是无关变量与自变量的交互作用(假设不存在因此作为误差项),而在重复测量设计中就是被试与处理的交互作用。但是在二因素设计当中这种差异就明显了。区组设计将所有无关变量(区组)与自变量的交互作用均作为误差项;而在重复测量设计中因为没有假设被试与处理无交互作用,因此将误差项分解为三项:SSA*被试SSB*被试SSAB*被试,并且分别作为处理A、处理BAB交互作用的残差项。

强调区组设计与重复测量设计的区别是因为它们的区别正是它们各自的设计优点所在。区组设计强调区组内部的同质性,所以用不同的被试,从而消除了采用同一被试可能产生的延续效应、顺序效应;而重复测量设计则通过使用同一被试来提高统计分析的敏感性。两者优缺点互为补充。因为而这在单因素设计中相同的方差分解而将两者等同的说法是不恰当的。

谢宇老师在演讲中曾经引用过一位统计学家的话,忘记是谁说的了,用在这里作为结语:

  “统计学当中没有免费的信息,要么收集它,要么假设它”。

参考:

舒华(1994. 心理与教育研究中的多因素实验设计. 北京:北京师范大学出版社。

耿海燕《心理学研究方法》课件

王宝玉《基础心理统计》课程作业:《区组实验设计的基本假设相关问题》。

《科学哲学指南》 第六十六章 《社会科学哲学》 理解与反思

2008年12月22号

 标准字体是原文(难以用自己的语言来替代),斜体字是自己的理解,黑体字是原文重点。

       社会科学使用与自然科学相同的方法吗?如果不相同,它们能用个一样的方法进行研究吗?而且,如果已知它们的各种目的,它们应该这样做吗?这些问题需要我们对社会科学哲学的核心问题如何预设着自然科学方法的准确辨认。又有如下一个比较实际的问题:为什么在自然科学中显然是如此成功的那些方法,当人们有意识的将之应用于各个社会科学的研究项目时,却远没有那么成功?对这个问题的回答可以说就反映了不同的观点。

1 社会科学没有取得进步,是因为社会科学家迄今为止都没有很好的应用自然科学方法。

2 实证主义者获得的自然科学的方法是错误的,而且,社会科学家在阿门的学科中盲目的模仿错误的方法,是不会有结果的。

3 社会科学正在使用正确的方法并且获得成功,但是,社会科学面临的困难是如此的令人气馁,以致人们不要期望它们能有巨大的进步。

4 社会科学已经取得了很大的进步,但是衡量适合社会科学进步的标准,一定不同于自然科学中使用的那些标准。

         我认为,社会科学取得进步并不在人们预期其像自然科学一样的方向上,而是以另一种方式发生着。但是社会科学却是按照自然科学的方式去发展自身,而且也因为如此而获得了人们对他像自然科学一样的期望(由此而来的资助)。这种发展是不稳固的,社会科学没有找到自身真正的发展动力。

       社会科学与历史和常识共同享有的假定是:社会科学的研究对象是行动(action)、行动的后果,以及聚合而成的社会习俗与过程;而且达成的共识是,通过愿望和信念的共同作用来说明行动。这是一种未被言明的理性选择理论(认知主义)。这当中就包含着一种假定的因果律。而这就是科学哲学家最质疑的地方,也是反对自然主义最核心的攻击点:凭什么能够先验假定意愿和信念与行动存在着因果关系而不仅仅是一种非因果的说明而已?至于反自然主义者就需要说明,这样的说明力是否在于用某种非因果力阐释它们的说明项。自然主义就是说包括人类生活和社会在内的实体,就是那些存在于自然的因果秩序中的东西。在认识论上,自然主义意味着对所有形式的先验知识的反对,包括在认知上有效的更高层次的原理知识。自然主义者坚决认为,所有的知识都来自于人类与自然世界的互动。这包括了感官知觉,但也可能包括人类发明的技术和工艺,比如统计假说测试和显微镜。传统上,科学说明的关键是需要从因果律和初始条件或边界条件中推演出被说明项。人们的期望是:

L(x)(如果x希望d,而且x相信,经过深思熟虑产生了行动a的所有事情,是达到愿望d的最有效的手段,那么x会去做a)。

        为了使L成为定律,信念、愿望和行动的行为方式必须同原因与结果的行为方式一样。这要求的前提是:它们在逻辑上必须彼此独立:在特殊的一捆信念、愿望和随之发生的行动中,必须有可能在不避确定得到其他两项的情况下确定获得其中的任何一项。然而,长期以来,在心理学哲学领域内已经承认,这些状态的描述之间存在着逻辑关联,也就是不满足逻辑独立的前提。在非隐喻的意义上能够把信念和愿望描述成是“关于”,或意愿或意向性(信念和愿望是具有意向性特征的)。这里提到的行动与纯粹的身体运动截然不同;这里的行动反映的是愿望的信念的集合(是抽象的概念),因此,行动也渗透着意向性如果想要将心理学自然主义化(因果秩序解释、经验证明)的话,必须检验这样的判断:愿望和信念的某种结合引起了某种特殊的行动。在这个推理中面临着很多逻辑上的困难。首先,为了从行动中推断出信念和愿望,人们必须能够把信念与愿望的结合所支配的行动与纯粹的行为区别开来,可是,除非我们能够确定身体的运动构成了行动——即,由信念和愿望引起的运动——否则,这是不可能做到的。通俗的讲,行为与行动是不同的,而又是难以通过观察加以区分的,行为不能推出其信念和愿望的原因(假设行动与信念和愿望是直接里纳西的),必须通过行动;不能区分行动和行为,则无法通过行为得到其信念和愿望的原因。意向性使得行动和信念和意愿在逻辑上和方法论上是不独立的。我的理解是,信念和意愿由于和行动具有相同的意向性,具有相同内容的逻辑项有重叠部分就不可能是因果关系。所谓的逻辑上的区别开来是指不具有相同的内涵成分,但是其内涵当中都包含有同样的意向性内容。诚然,所得到的愿望与信念的某种结合不依赖于其所引起的神经活动,因此两者在原则上能够独立的鉴别出原因和结果。但是在原则上,至今没有人能回答笛卡尔和斯金纳在理论和实践上所提出的质疑。首先在理论上,没有一个人能够驳倒笛卡尔所提出的意向状态如何可能成为物理状态的一般满足条件的问题,也就是说神经活动的物理状态与意向性状态之间的不对应性,也找不到对应的一般性条件;在实践上,斯金纳给出了很好的批判。

       斯金纳在Science and Human Behavior当中将神经科学的解释和“心理主义”解释放在一起批判。而且对于企图采用神经科学对人类行为进行控制和预测的批判放在了心理主义批判的前面(^_^)。原文如下:Such inferences were legitimate enough as scientific theories, but they could not justifiably be used to explain the very behavior upon which they were based. …… they were no more satisfactory as explanations of behavior. ……However, we may note here that we do not have and may never have this sort of neurological information at the moment it is needed in order to predict a specific instance of behavior. It is even more unlikely that we shall be able to alter the nervous system directly in order to set up the antecedent conditions of a particular instance. The causes to be sought in the nervous system are, therefore, of limited usefulness in the prediction and control of specific behavior.

——Science and Human Behavior, Skinner,1953

       这就是书中提到的斯金纳所看到的实践上神经科学无法提供帮助的问题。

        以上这一部分是为了说明:因为心理现象(信念、意愿和行动)的意向性特征,导致不满足因果关系的一般性前提(逻辑和方法论上的独立),从而无法采用自然主义者所假设的那种自然科学通用的“演绎-律则”说明方式来进行因果说明。(演绎-律则说明指的是用现象加上一个定律得到对说明项的说明的基本说明过程)反自然主义者认为,由于意向状态和行动在逻辑上相互关联,所以诉诸它们的说明就不可能是因果性的。因此,科学实践中把信念与愿望当成是行动的原因,并把链接它们的概括看成是可以改进与提炼,以实质成为规律的经验概括,这被认为是混淆概念(意向性和行动作为有重叠的概念互相解释就是混淆)。很多反自然主义者认为,信念和愿望作为行动的理由在逻辑上与行为联系起来,而且这种联系是通过规则加以确定的。按照它们的观点,社会科学在很大程度上的空洞贫乏,是由于混淆了规则与规律性的结果。了解规则的途径是,向已经理解了规则的那些人提出正确的问题,而不是对行为进行实验观察。当我们试图将经验方法运用于本质桑的概念研究时,结果一定是令人失望的。首先,规则并不是向科学规律所被认为的那样是只要条件满足就会发生的事件。因此信念和愿望与行为的联系不是一种规律,而是一种恒常的经验上的联结,即规则。因此用一般的实验观察也只是得到了恒常联结的一部分,而不是获得了某种“规律”。所以书中说是对那些按照规则行为的人提出问题来理解规则,而不是企图用实验去将规则上升为规律。规则的研究只是一种概念的研究,一种将习俗(规则)概括出来的研究,而不是用经验方法去验证实体的过程。这是一种文化观点。

        反自然主义者曾受到下列观念的鼓舞:社会科学的目的不是因果性的说明和改进预言,而是揭露使社会生活成为它的参与者容易理解的规则。社会科学家的目标是饥饿时出使社会上发生的事情成为可理解的那些规则,尽管它们绝不会使生活的可预言性超出常识的民间心理学所设置的范围。Folk Psychology就是贯彻了这种想法。其研究的假设是行动及其起源的描述隐含在我们的 日常信念之中,并且在所有的文化中无处不在。自然主义者所假设的L的理性原则只是规则(而不是规律),这些规则是可以打破的,而且可能描绘的仅仅是西方文化的特征。社会科学就是探索可理解性,这将会说明,为什么它的理论不应该是在因果性的 意义上被构造出来,为什么它既不包含也不需要说明性的和预言性的定律。激励社会科学家不断研究的很重要的动力就是寻求揭示关于人类行动的一般性概括。而这种追求的结果往往是得到的一些可以作为定律的候选者的一般性概括(但现实是很难称之为定律,尤其是在心理学当中)。所以说,这种努力(现状)是失败的(标准问题比较复杂,暂且以一种情绪上的不满所引发的另一种追求作为进一步思考的理由)。以往说失败的理由是因为人类行为的复杂性,现在通过了解社会科学的目的我们可以给出另一个理由:探索这样的定律误解了社会科学的目的,而且也误解了像理性这样的概念在得到这个目的的过程中有时所起的作用。也就是说,社会科学的目的在于给出解释,不是追求规律;在社会科学的探索中理性并不是和在自然科学中一样作为一种追求规律的手段,而是一种探索对规则的解释的工具。理性本身并不和真理相连接,只是一种手段。并不能因为理性在自然科学中的巨大功能而赋予理性过多的功能。社会科学的目的是行动和事件的一种解释,它确定了行为与事件的意义:在参与者和观察的大多数及其广泛的信念和愿望中,总是预先假定了某种有意义的重叠。也就是说社会科学研究者是在探索那些假设的、隐含在其与所有大众共有的那一部分信念和愿望中所蕴含的意义。这是一种谈判的建构,社会科学研究者的研究过程其实是一种与大众在互动过程中所获得的理解行为与事件时所共有的意义——这就是规则。也正因为如此,所提供的适宜于社会科学的说明explanation)类型,根本不会成为预言人类行动的根据。因为这种说明首先是与那些参与者共有的(另一种文化就不相同);其次是这是一种规则,是大众用来理解世界,赋予事物以意义的体系,本身并不包含对信念和意愿与行为之间的因果关系假设,因此社会科学的研究成果——不同于自然科学的说明类型——不能作为预言人类行动的依据。第二部分想要论证的是:社会科学研究的是规则而不是规律。规则不包含对信念和意愿与行为的因果假设。因此社会科学研究的目的不是预测行为,而是揭示出那些使社会上发生的事情成为可理解的那些规则。在这个论证过程当中,明显包含了后现代主义的本体论、认识论观点,也契合了质性研究的基本观点。

    参考《科学哲学指南》第六十六章 “社会科学哲学”。

(转)理解矩阵(一)

2008年12月8号

 编者语:数学的抽象导致其教学的困难。

http://blog.csdn.net/myan/archive/2006/04/02/647511.aspx

      前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。

可怜的chensh,谁让你趟这个地雷阵?!色令智昏啊!

线性代数课程,无论你从行列式入手还是直接从矩阵入手,从一开始就充斥着莫名其妙。比如说,在全国一般工科院系教学 中应用最广泛的同济线性代数教材(现在到了第四版),一上来就介绍逆序数这个“前无古人,后无来者”的古怪概念,然后用逆序数给出行列式的一个极不直观的 定义,接着是一些简直犯傻的行列式性质和习题——把这行乘一个系数加到另一行上,再把那一列减过来,折腾得那叫一个热闹,可就是压根看不出这个东西有嘛 用。大多数像我一样资质平庸的学生到这里就有点犯晕:连这是个什么东西都模模糊糊的,就开始钻火圈表演了,这未免太“无厘头”了吧!于是开始有人逃课,更 多的人开始抄作业。这下就中招了,因为其后的发展可以用一句峰回路转来形容,紧跟着这个无厘头的行列式的,是一个同样无厘头但是伟大的无以复加的家伙的出 场——矩阵来了!多年之后,我才明白,当老师犯傻似地用中括号把一堆傻了吧叽的数括起来,并且不紧不慢地说:“这个东西叫做矩阵”的时候,我的数学生涯掀 开了何等悲壮辛酸、惨绝人寰的一幕!自那以后,在几乎所有跟“学问”二字稍微沾点边的东西里,矩阵这个家伙从不缺席。对于我这个没能一次搞定线性代数的笨 蛋来说,矩阵老大的不请自来每每搞得我灰头土脸,头破血流。长期以来,我在阅读中一见矩阵,就如同阿Q见到了假洋鬼子,揉揉额角就绕道走。

事实上,我并不是特例。一般工科学生初学线性代数,通常都会感到困难。这种情形在国内外皆然。瑞典数学家Lars Garding在其名著Encounter with Mathematics中说:“如果不熟悉线性代数的概念,要去学习自然科学,现在看来就和文盲差不多。”,然而“按照现行的国际标准,线性代数是通过公理化来表述的,它是第二代数学模型,…,这就带来了教学上的困难。”事 实上,当我们开始学习线性代数的时候,不知不觉就进入了“第二代数学模型”的范畴当中,这意味着数学的表述方式和抽象性有了一次全面的进化,对于从小一直 在“第一代数学模型”,即以实用为导向的、具体的数学模型中学习的我们来说,在没有并明确告知的情况下进行如此剧烈的paradigm shift,不感到困难才是奇怪的。

大部分工科学生,往往是在学习了一些后继课程,如数值分析、数学规划、矩阵论之后,才逐渐能够理解和熟练运用线性代数。即便如此,不少人即使能够很熟练地以线性代数为工具进行科研和应用工作,但对于很多这门课程的初学者提出的、看上去是很基础的问题却并不清楚。比如说:

* 矩阵究竟是什么东西?向量可以被认为是具有n个相互独立的性质(维度)的对象的表示,矩阵又是什么呢?我们如果认为矩阵是一组列(行)向量组成的新的复合 向量的展开式,那么为什么这种展开式具有如此广泛的应用?特别是,为什么偏偏二维的展开式如此有用?如果矩阵中每一个元素又是一个向量,那么我们再展开一 次,变成三维的立方阵,是不是更有用?

* 矩阵的乘法规则究竟为什么这样规定?为什么这样一种怪异的乘法规则却能够在实践中发挥如此巨大的功效?很多看上去似乎是完全不相关的问题,最后竟然都归结 到矩阵的乘法,这难道不是很奇妙的事情?难道在矩阵乘法那看上去莫名其妙的规则下面,包含着世界的某些本质规律?如果是的话,这些本质规律是什么?

* 行列式究竟是一个什么东西?为什么会有如此怪异的计算规则?行列式与其对应方阵本质上是什么关系?为什么只有方阵才有对应的行列式,而一般矩阵就没有(不 要觉得这个问题很蠢,如果必要,针对m x n矩阵定义行列式不是做不到的,之所以不做,是因为没有这个必要,但是为什么没有这个必要)?而且,行列式的计算规则,看上去跟矩阵的任何计算规则都没有 直观的联系,为什么又在很多方面决定了矩阵的性质?难道这一切仅是巧合?

* 矩阵为什么可以分块计算?分块计算这件事情看上去是那么随意,为什么竟是可行的?

* 对于矩阵转置运算AT,有(AB)T = BTAT,对于矩阵求逆运算A-1,有(AB)-1 = B-1A-1。两个看上去完全没有什么关系的运算,为什么有着类似的性质?这仅仅是巧合吗?

* 为什么说P-1AP得到的矩阵与A矩阵“相似”?这里的“相似”是什么意思?

* 特征值和特征向量的本质是什么?它们定义就让人很惊讶,因为Ax =λx,一个诺大的矩阵的效应,竟然不过相当于一个小小的数λ,确实有点奇妙。但何至于用“特征”甚至“本征”来界定?它们刻划的究竟是什么?

这样的一类问题,经常让使用线性代数已经很多年的人都感到为难。就好像大人面对小孩子的刨根问底,最后总会迫不得已 地说“就这样吧,到此为止”一样,面对这样的问题,很多老手们最后也只能用:“就是这么规定的,你接受并且记住就好”来搪塞。然而,这样的问题如果不能获 得回答,线性代数对于我们来说就是一个粗暴的、不讲道理的、莫名其妙的规则集合,我们会感到,自己并不是在学习一门学问,而是被不由分说地“抛到”一个强 制的世界中,只是在考试的皮鞭挥舞之下被迫赶路,全然无法领略其中的美妙、和谐与统一。直到多年以后,我们已经发觉这门学问如此的有用,却仍然会非常迷 惑:怎么这么凑巧?

我认为,这是我们的线性代数教学中直觉性丧失的后果。上述这些涉及到“如何能”、“怎么会”的问题,仅仅通过纯粹的 数学证明来回答,是不能令提问者满意的。比如,如果你通过一般的证明方法论证了矩阵分块运算确实可行,那么这并不能够让提问者的疑惑得到解决。他们真正的 困惑是:矩阵分块运算为什么竟然是可行的?究竟只是凑巧,还是说这是由矩阵这种对象的某种本质所必然决定的?如果是后者,那么矩阵的这些本质是什么?只要 对上述那些问题稍加考虑,我们就会发现,所有这些问题都不是单纯依靠数学证明所能够解决的。像我们的教科书那样,凡事用数学证明,最后培养出来的学生,只 能熟练地使用工具,却欠缺真正意义上的理解。

自从1930年代法国布尔巴基学派兴起以来,数学的公理化、系统性描述已经获得巨大的成功,这使得我们接受的数学教 育在严谨性上大大提高。然而数学公理化的一个备受争议的副作用,就是一般数学教育中直觉性的丧失。数学家们似乎认为直觉性与抽象性是矛盾的,因此毫不犹豫 地牺牲掉前者。然而包括我本人在内的很多人都对此表示怀疑,我们不认为直觉性与抽象性一定相互矛盾,特别是在数学教育中和数学教材中,帮助学生建立直觉, 有助于它们理解那些抽象的概念,进而理解数学的本质。反之,如果一味注重形式上的严格性,学生就好像被迫进行钻火圈表演的小白鼠一样,变成枯燥的规则的奴 隶。

对于线性代数的类似上述所提到的一些直觉性的问题,两年多来我断断续续地反复思考了四、五次,为此阅读了好几本国内 外线性代数、数值分析、代数和数学通论性书籍,其中像前苏联的名著《数学:它的内容、方法和意义》、龚昇教授的《线性代数五讲》、前面提到的 Encounter with Mathematics(《数学概观》)以及Thomas A. Garrity的《数学拾遗》都给我很大的启发。不过即使如此,我对这个主题的认识也经历了好几次自我否定。比如以前思考的一些结论曾经写在自己的 blog里,但是现在看来,这些结论基本上都是错误的。因此打算把自己现在的有关理解比较完整地记录下来,一方面是因为我觉得现在的理解比较成熟了,可以 拿出来与别人探讨,向别人请教。另一方面,如果以后再有进一步的认识,把现在的理解给推翻了,那现在写的这个snapshot也是很有意义的。

因为打算写得比较多,所以会分几次慢慢写。也不知道是不是有时间慢慢写完整,会不会中断,写着看吧。

(转)理解矩阵(三)

2008年12月8号

       

      理解矩阵(三)     

        一年半以来,我收到过不下一百封直接的来信,要求我把后面的部分写出来。这些来信大部分是国内的网友和学生,也有少数来自正在国外深造的朋友,大部分是鼓 励,有的是诚挚的请求,也有少数严厉斥责我不守承诺。不管是何种态度,这都表明他们对我这一点点小小的思考成果的鼓励,特别是对于我这种思维的视角和尝试 的鼓励。他们在信中让我知道,尽管我的数学水平不高,但是我这种从普通人(而不是数学家)视角出发,强调对数学概念和规则的直觉理解的思路,对于很多人是 有益的。也许这条路子在数学中绝非正道,也不会走得很远,但是无论如何,在一定的阶段,对一部分人来说,较之目前数学教材普遍采用的思路,这种方式可能更 容易理解一些。既然是可能对一部分人有帮助的事情,那么我就不应该心存太多杂念,应该不断思考和总结下去。

所以,下面就是你们来信要求我写出来的东西。

首先来总结一下前面两部分的一些主要结论:

1. 首先有空间,空间可以容纳对象运动的。一种空间对应一类对象。
2. 有一种空间叫线性空间,线性空间是容纳向量对象运动的。
3. 运动是瞬时的,因此也被称为变换。
4. 矩阵是线性空间中运动(变换)的描述。
5. 矩阵与向量相乘,就是实施运动(变换)的过程。
6. 同一个变换,在不同的坐标系下表现为不同的矩阵,但是它们的本质是一样的,所以本征值相同。

下面让我们把视力集中到一点以改变我们以往看待矩阵的方式。我们知道,线性空间里的基本对象是向量,而向量是这么表示的:

[a1, a2, a3, ..., an]

矩阵呢?矩阵是这么表示的:

a11, a12, a13, …, a1n
a21, a22, a23, …, a2n

an1, an2, an3, …, ann

不用太聪明,我们就能看出来,矩阵是一组向量组成的。特别的,n维线性空间里的方阵是由n个n维向量组成的。我们在这里只讨论这个n阶的、非奇异的方阵, 因为理解它就是理解矩阵的关键,它才是一般情况,而其他矩阵都是意外,都是不得不对付的讨厌状况,大可以放在一边。这里多一句嘴,学习东西要抓住主流,不 要纠缠于旁支末节。很可惜我们的教材课本大多数都是把主线埋没在细节中的,搞得大家还没明白怎么回事就先被灌晕了。比如数学分析,明明最要紧的观念是说, 一个对象可以表达为无穷多个合理选择的对象的线性和,这个概念是贯穿始终的,也是数学分析的精华。但是课本里自始至终不讲这句话,反正就是让你做吉米多维 奇,掌握一大堆解偏题的技巧,记住各种特殊情况,两类间断点,怪异的可微和可积条件(谁还记得柯西条件、迪里赫莱条件…?),最后考试一过,一切忘光 光。要我说,还不如反复强调这一个事情,把它深深刻在脑子里,别的东西忘了就忘了,真碰到问题了,再查数学手册嘛,何必因小失大呢?

言归正传。如果一组向量是彼此线性无关的话,那么它们就可以成为度量这个线性空间的一组基,从而事实上成为一个坐标系体系,其中每一个向量都躺在一根坐标轴上,并且成为那根坐标轴上的基本度量单位(长度1)。

现在到了关键的一步。看上去矩阵就是由一组向量组成的,而且如果矩阵非奇异的话(我说了,只考虑这种情况),那么组成这个矩阵的那一组向量也就是线性无关的了,也就可以成为度量线性空间的一个坐标系。结论:矩阵描述了一个坐标系。

“慢着!”,你嚷嚷起来了,“你这个骗子!你不是说过,矩阵就是运动吗?怎么这会矩阵又是坐标系了?”

嗯,所以我说到了关键的一步。我并没有骗人,之所以矩阵又是运动,又是坐标系,那是因为——

“运动等价于坐标系变换”。

对不起,这话其实不准确,我只是想让你印象深刻。准确的说法是:

“对象的变换等价于坐标系的变换”。
或者:

“固定坐标系下一个对象的变换等价于固定对象所处的坐标系变换。”

说白了就是:

“运动是相对的。”  

让我们想想,达成同一个变换的结果,比如把点(1, 1)变到点(2, 3)去,你可以有两种做法。第一,坐标系不动,点动,把(1, 1)点挪到(2, 3)去。第二,点不动,变坐标系,让x轴的度量(单位向量)变成原来的1/2,让y轴的度量(单位向量)变成原先的1/3,这样点还是那个点,可是点的坐 标就变成(2, 3)了。方式不同,结果一样。

从第一个方式来看,那就是我在《理解矩阵》1/2中说的,把矩阵看成是运动描述,矩阵与向量相乘就是使向量(点)运动的过程。在这个方式下,

Ma = b

的意思是:

“向量a经过矩阵M所描述的变换,变成了向量b。”

而从第二个方式来看,矩阵M描述了一个坐标系,姑且也称之为M。那么:

Ma = b

的意思是:

“有一个向量,它在坐标系M的度量下得到的度量结果向量为a,那么它在坐标系I的度量下,这个向量的度量结果是b。”

这里的I是指单位矩阵,就是主对角线是1,其他为零的矩阵。

而这两个方式本质上是等价的。

我希望你务必理解这一点,因为这是本篇的关键。

正因为是关键,所以我得再解释一下。

在M为坐标系的意义下,如果把M放在一个向量a的前面,形成Ma的样式,我们可以认为这是对向量a的一个环境声明。它相当于是说:

“注意了!这里有一个向量,它在坐标系M中度量,得到的度量结果可以表达为a。可是它在别的坐标系里度量的话,就会得到不同的结果。为了明确,我把M放在前面,让你明白,这是该向量在坐标系M中度量的结果。”

那么我们再看孤零零的向量b:

b

多看几遍,你没看出来吗?它其实不是b,它是:

Ib

也就是说:“在单位坐标系,也就是我们通常说的直角坐标系I中,有一个向量,度量的结果是b。”

而  Ma = Ib的意思就是说:

“在M坐标系里量出来的向量a,跟在I坐标系里量出来的向量b,其实根本就是一个向量啊!”

这哪里是什么乘法计算,根本就是身份识别嘛。

从这个意义上我们重新理解一下向量。向量这个东西客观存在,但是要把它表示出来,就要把它放在一个坐标系中去度量它,然后把度量的结果(向量在各个坐标轴 上的投影值)按一定顺序列在一起,就成了我们平时所见的向量表示形式。你选择的坐标系(基)不同,得出来的向量的表示就不同。向量还是那个向量,选择的坐 标系不同,其表示方式就不同。因此,按道理来说,每写出一个向量的表示,都应该声明一下这个表示是在哪个坐标系中度量出来的。表示的方式,就是 Ma,也就是说,有一个向量,在M矩阵表示的坐标系中度量出来的结果为a。我们平时说一个向量是[2 3 5 7]T,隐含着是说,这个向量在 I 坐标系中的度量结果是[2 3 5 7]T,因此,这个形式反而是一种简化了的特殊情况。

注意到,M矩阵表示出来的那个坐标系,由一组基组成,而那组基也是由向量组成的,同样存在这组向量是在哪个坐标系下度量而成的问题。也就是说,表述一个矩 阵的一般方法,也应该要指明其所处的基准坐标系。所谓M,其实是 IM,也就是说,M中那组基的度量是在 I 坐标系中得出的。从这个视角来看,M×N也不是什么矩阵乘法了,而是声明了一个在M坐标系中量出的另一个坐标系N,其中M本身是在I坐标系中度量出来的。

回过头来说变换的问题。我刚才说,“固定坐标系下一个对象的变换等价于固定对象所处的坐标系变换”,那个“固定对象”我们找到了,就是那个向量。但是坐标系的变换呢?我怎么没看见?

请看:

Ma = Ib

我现在要变M为I,怎么变?对了,再前面乘以个M-1,也就是M的逆矩阵。换句话说,你不是有一个坐标系M吗,现在我让它乘以个M-1,变成I,这样一来的话,原来M坐标系中的a在I中一量,就得到b了。

我建议你此时此刻拿起纸笔,画画图,求得对这件事情的理解。比如,你画一个坐标系,x轴上的衡量单位是2,y轴上的衡量单位是3,在这样一个坐标系里,坐 标为(1,1)的那一点,实际上就是笛卡尔坐标系里的点(2, 3)。而让它原形毕露的办法,就是把原来那个坐标系:

2 0
0 3

的x方向度量缩小为原来的1/2,而y方向度量缩小为原来的1/3,这样一来坐标系就变成单位坐标系I了。保持点不变,那个向量现在就变成了(2, 3)了。

怎么能够让“x方向度量缩小为原来的1/2,而y方向度量缩小为原来的1/3”呢?就是让原坐标系:

2 0
0 3

被矩阵:

1/2   0
0   1/3

左乘。而这个矩阵就是原矩阵的逆矩阵。

下面我们得出一个重要的结论:

“对坐标系施加变换的方法,就是让表示那个坐标系的矩阵与表示那个变化的矩阵相乘。”

再一次的,矩阵的乘法变成了运动的施加。只不过,被施加运动的不再是向量,而是另一个坐标系。

如果你觉得你还搞得清楚,请再想一下刚才已经提到的结论,矩阵MxN,一方面表明坐标系N在运动M下的变换结果,另一方面,把M当成N的前缀,当成N的环 境描述,那么就是说,在M坐标系度量下,有另一个坐标系N。这个坐标系N如果放在I坐标系中度量,其结果为坐标系MxN。

在这里,我实际上已经回答了一般人在学习线性代数是最困惑的一个问题,那就是为什么矩阵的乘法要规定成这样。简单地说,是因为:

1. 从变换的观点看,对坐标系N施加M变换,就是把组成坐标系N的每一个向量施加M变换。

2. 从坐标系的观点看,在M坐标系中表现为N的另一个坐标系,这也归结为,对N坐标系基的每一个向量,把它在I坐标系中的坐标找出来,然后汇成一个新的矩阵。

3. 至于矩阵乘以向量为什么要那样规定,那是因为一个在M中度量为a的向量,如果想要恢复在I中的真像,就必须分别与M中的每一个向量进行內积运算。我把这个结论的推导留给感兴趣的朋友吧。应该说,其实到了这一步,已经很容易了。

综合以上1/2/3,矩阵的乘法就得那么规定,一切有根有据,绝不是哪个神经病胡思乱想出来的。

我已经无法说得更多了。矩阵又是坐标系,又是变换。到底是坐标系,还是变换,已经说不清楚了,运动与实体在这里统一了,物质与意识的界限已经消失了,一切 归于无法言说,无法定义了。道可道,非常道,名可名,非常名。矩阵是在是不可道之道,不可名之名的东西。到了这个时候,我们不得不承认,我们伟大的线性代 数课本上说的矩阵定义,是无比正确的:

“矩阵就是由m行n列数放在一起组成的数学对象。”

好了,这基本上就是我想说的全部了。还留下一个行列式的问题。矩阵M的行列式实际上是组成M的各个向量按照平行四边形法则搭成一个n维立方体的体积。对于 这一点,我只能感叹于其精妙,却无法揭开其中奥秘了。也许我掌握的数学工具不够,我希望有人能够给我们大家讲解其中的道理了。

我不知道是否讲得足够清楚了,反正这一部分需要您花些功夫去推敲。

此外,请大家不必等待这个系列的后续部分。以我的工作情况而言,近期内很难保证继续投入脑力到这个领域中,尽管我仍然对此兴致浓厚。不过如果还有(四)的 话,可能是一些站在应用层面的考虑,比如对计算机图形学相关算法的理解。但是我不承诺这些讨论近期内会出现了

(转)理解矩阵(二)

2008年12月8号

http://blog.csdn.net/myan/archive/2007/11/03/1865397.aspx

 编者语:

形象思维与抽象思维碰撞的产物;数学的直观理解;

对了解矩阵、线性变换的本质有太大帮助

         第二部分

今天先谈谈对线形空间和矩阵的几个核心概念的理解。这些东西大部分是凭着自己的理解写出来的,基本上不抄书,可能有错误的地方,希望能够被指出。但我希望做到直觉,也就是说能把数学背后说的实质问题说出来。

首先说说空间(space),这个概念是现代数学的命根子之一,从拓扑空间开始,一步步往上加定义,可以形成很多空间。线形空间其实还是比较初级 的,如果在里面定义了范数,就成了赋范线性空间。赋范线性空间满足完备性,就成了巴那赫空间;赋范线性空间中定义角度,就有了内积空间,内积空间再满足完 备性,就得到希尔伯特空间。

总之,空间有很多种。你要是去看某种空间的数学定义,大致都是“存在一个集合,在这个集合上定义某某概念,然后满足某些性质”,就可以被称为空间。这未免有点奇怪,为什么要用“空间”来称呼一些这样的集合呢?大家将会看到,其实这是很有道理的。

我们一般人最熟悉的空间,毫无疑问就是我们生活在其中的(按照牛顿的绝对时空观)的三维空间,从数学上说,这是一个三维的欧几里德空间,我们先不管 那么多,先看看我们熟悉的这样一个空间有些什么最基本的特点。仔细想想我们就会知道,这个三维的空间:1. 由很多(实际上是无穷多个)位置点组成;2. 这些点之间存在相对的关系;3. 可以在空间中定义长度、角度;4. 这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动,

上面的这些性质中,最最关键的是第4条。第1、2条只能说是空间的基础,不算是空间特有的性质,凡是讨论数学问题,都得有一个集合,大多数还得在这 个集合上定义一些结构(关系),并不是说有了这些就算是空间。而第3条太特殊,其他的空间不需要具备,更不是关键的性质。只有第4条是空间的本质,也就是 说,容纳运动是空间的本质特征。

认识到了这些,我们就可以把我们关于三维空间的认识扩展到其他的空间。事实上,不管是什么空间,都必须容纳和支持在其中发生的符合规则的运动(变换)。你会发现,在某种空间中往往会存在一种相对应的变换,比如拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,其实这些变换都只不过是对应空间中允许的运动形式而已。

因此只要知道,“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。

下面我们来看看线性空间。线性空间的定义任何一本书上都有,但是既然我们承认线性空间是个空间,那么有两个最基本的问题必须首先得到解决,那就是:

1. 空间是一个对象集合,线性空间也是空间,所以也是一个对象集合。那么线性空间是什么样的对象的集合?或者说,线性空间中的对象有什么共同点吗?

2. 线性空间中的运动如何表述的?也就是,线性变换是如何表示的?

我们先来回答第一个问题,回答这个问题的时候其实是不用拐弯抹角的,可以直截了当的给出答案。线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。通常的向量空间我就不说了,举两个不那么平凡的例子:

L1. 最高次项不大于n次的多项式的全体构成一个线性空间,也就是说,这个线性空间中的每一个对象是一个多项式。如果我们以x0, x1, …, xn为基,那么任何一个这样的多项式都可以表达为一组n+1维向量,其中的每一个分量ai其实就是多项式中x(i-1)项的系数。值得说明的是,基的选取有多种办法,只要所选取的那一组基线性无关就可以。这要用到后面提到的概念了,所以这里先不说,提一下而已。

L2. 闭区间[a, b]上的n阶连续可微函数的全体,构成一个线性空间。也就是说,这个线性空间的每一个对象是一个连续函数。对于其中任何一个连续函数,根据魏尔斯特拉斯定 理,一定可以找到最高次项不大于n的多项式函数,使之与该连续函数的差为0,也就是说,完全相等。这样就把问题归结为L1了。后面就不用再重复了。

所以说,向量是很厉害的,只要你找到合适的基,用向量可以表示线性空间里任何一个对象。这里头大有文章,因为向量表面上只是一列数,但是其实由于它 的有序性,所以除了这些数本身携带的信息之外,还可以在每个数的对应位置上携带信息。为什么在程序设计中数组最简单,却又威力无穷呢?根本原因就在于此。 这是另一个问题了,这里就不说了。

下面来回答第二个问题,这个问题的回答会涉及到线性代数的一个最根本的问题。

线性空间中的运动,被称为线性变换。也就是说,你从线性空间中的一个点运动到任意的另外一个点,都可以通过一个线性变化来完成。那么,线性变换如何表示呢?很有意思,在线性空间中,当你选定一组基之后,不仅可以用一个向量来描述空间中的任何一个对象,而且可以用矩阵来描述该空间中的任何一个运动(变换)。而使某个对象发生对应运动的方法,就是用代表那个运动的矩阵,乘以代表那个对象的向量。

简而言之,在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。

是的,矩阵的本质是运动的描述。如果以后有人问你矩阵是什么,那么你就可以响亮地告诉他,矩阵的本质是运动的描述。(chensh,说你呢!)

可是多么有意思啊,向量本身不是也可以看成是n x 1矩阵吗?这实在是很奇妙,一个空间中的对象和运动竟然可以用相类同的方式表示。能说这是巧合吗?如果是巧合的话,那可真是幸运的巧合!可以说,线性代数中大多数奇妙的性质,均与这个巧合有直接的关系。

接着理解矩阵。

上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和 物理里是跟微积分联系在一起的。我们学习微积分的时候,总会有人照本宣科地告诉你,初等数学是研究常量的数学,是研究静态的数学,高等数学是变量的数学, 是研究运动的数学。大家口口相传,差不多人人都知道这句话。但是真知道这句话说的是什么意思的人,好像也不多。简而言之,在我们人类的经验里,运动是一个 连续过程,从A点到B点,就算走得最快的光,也是需要一个时间来逐点地经过AB之间的路径,这就带来了 连续性的概念。而连续这个事情,如果不定义极限的概念,根本就解释不了。古希腊人的数学非常强,但就是缺乏极限观念,所以解释不了运动,被芝诺的那些著名 悖论(飞箭不动、飞毛腿阿喀琉斯跑不过乌龟等四个悖论)搞得死去活来。因为这篇文章不是讲微积分的,所以我就不多说了。有兴趣的读者可以去看看齐民友教授 写的《重温微积分》。我就是读了这本书开头的部分,才明白“高等数学是研究运动的数学”这句话的道理。

不过在我这个《理解矩阵》的文章里,“运动”的概念不是微积分中的连续性的运动,而是瞬间发生的变化。比如这个时刻在A点,经过一个“运动”,一下子就“跃迁” 到了B点,其中不需要经过A点与B点之间的任何一个点。这样的“运动”,或者说“跃迁”,是违反我们日常的经验的。不过了解一点量子物理常识的人,就会立 刻指出,量子(例如电子)在不同的能量级轨道上跳跃,就是瞬间发生的,具有这样一种跃迁行为。所以说,自然界中并不是没有这种运动现象,只不过宏观上我们 观察不到。但是不管怎么说,“运动”这个词用在这里,还是容易产生歧义的,说得更确切些,应该是“跃迁”。因此这句话可以改成:

“矩阵是线性空间里跃迁的描述”。

可是这样说又太物理,也就是说太具体,而不够数学,也就是说不够抽象。因此我们最后换用一个正牌的数学术语——变换,来描述这个事情。这样一说,大家就应该明白了,所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。 比如说,拓扑变换,就是在拓扑空间里从一个点到另一个点的跃迁。再比如说,仿射变换,就是在仿射空间里从一个点到另一个点的跃迁。附带说一下,这个仿射空 间跟向量空间是亲兄弟。做计算机图形学的朋友都知道,尽管描述一个三维对象只需要三维向量,但所有的计算机图形学变换矩阵都是4 x 4的。说其原因,很多书上都写着“为了使用中方便”,这在我看来简直就是企图蒙混过关。真正的原因,是因为在计算机图形学里应用的图形变换,实际上是在仿 射空间而不是向量空间中进行的。想想看,在向量空间里相一个向量平行移动以后仍是相同的那个向量,而现实世界等长的两个平行线段当然不能被认为同一个东 西,所以计算机图形学的生存空间实际上是仿射空间。而仿射变换的矩阵表示根本就是4 x 4的。又扯远了,有兴趣的读者可以去看《计算机图形学——几何工具算法详解》。

一旦我们理解了“变换”这个概念,矩阵的定义就变成:

“矩阵是线性空间里的变换的描述。”

到这里为止,我们终于得到了一个看上去比较数学的定义。不过还要多说几句。教材上一般是这么说的,在一个线性空间V里的一个线性变换T,当选定一组 基之后,就可以表示为矩阵。因此我们还要说清楚到底什么是线性变换,什么是基,什么叫选定一组基。线性变换的定义是很简单的,设有一种变换T,使得对于线 性空间V中间任何两个不相同的对象x和y,以及任意实数a和b,有:
T(ax + by) = aT(x) + bT(y),
那么就称T为线性变换。

定义都是这么写的,但是光看定义还得不到直觉的理解。线性变换究竟是一种什么样的变换?我们刚才说了,变换是从空间的一个点跃迁到另一个点,而线性 变换,就是从一个线性空间V的某一个点跃迁到另一个线性空间W的另一个点的运动。这句话里蕴含着一层意思,就是说一个点不仅可以变换到同一个线性空间中的 另一个点,而且可以变换到另一个线性空间中的另一个点去。不管你怎么变,只要变换前后都是线性空间中的对象,这个变换就一定是线性变换,也就一定可以用一 个非奇异矩阵来描述。而你用一个非奇异矩阵去描述的一个变换,一定是一个线性变换。有的人可能要问,这里为什么要强调非奇异矩阵?所谓非奇异,只对方阵有 意义,那么非方阵的情况怎么样?这个说起来就会比较冗长了,最后要把线性变换作为一种映射,并且讨论其映射性质,以及线性变换的核与像等概念才能彻底讲清 楚。我觉得这个不算是重点,如果确实有时间的话,以后写一点。以下我们只探讨最常用、最有用的一种变换,就是在同一个线性空间之内的线性 变换。也就是说,下面所说的矩阵,不作说明的话,就是方阵,而且是非奇异方阵。学习一门学问,最重要的是把握主干内容,迅速建立对于这门学问的整体概念, 不必一开始就考虑所有的细枝末节和特殊情况,自乱阵脚。

接着往下说,什么是基呢?这个问题在后面还要大讲一番,这里只要把基看成是线性空间里的坐标系就可以了。注意是坐标系,不是坐标值,这两者可是一个“对立矛盾统一体”。这样一来,“选定一组基”就是说在线性空间里选定一个坐标系。就这意思。

好,最后我们把矩阵的定义完善如下:

“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。”

理解这句话的关键,在于把“线性变换”与“线性变换的一个描述”区别开。一个是那个对象,一个是对那个对象的表述。就好像我们熟悉的面向对象编程中,一个对象可以有多个引用,每个引用可以叫不同的名字,但都是指的同一个对象。如果还不形象,那就干脆来个很俗的类比。

比如有一头猪,你打算给它拍照片,只要你给照相机选定了一个镜头位置,那么就可以给这头猪拍一张照片。这个照片可以看成是这头猪的一个描述,但只是 一个片面的的描述,因为换一个镜头位置给这头猪拍照,能得到一张不同的照片,也是这头猪的另一个片面的描述。所有这样照出来的照片都是这同一头猪的描述, 但是又都不是这头猪本身。

同样的,对于一个线性变换,只要你选定一组基,那么就可以找到一个矩阵来描述这个线性变换。换一组基,就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。

但是这样的话,问题就来了如果你给我两张猪的照片,我怎么知道这两张照片上的是同一头猪呢?同样的,你给我两个矩阵,我怎么知道这两个矩阵是描述的同一个线性变换呢?如果是同一个线性变换的不同的矩阵描述,那就是本家兄弟了,见面不认识,岂不成了笑话。

好在,我们可以找到同一个线性变换的矩阵兄弟们的一个性质,那就是:

若矩阵A与B是同一个线性变换的两个不同的描述(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系),则一定能找到一个非奇异矩阵P,使得A、B之间满足这样的关系:

A = P-1BP

线性代数稍微熟一点的读者一下就看出来,这就是相似矩阵的定义。没错,所谓相似矩阵,就是同一个线性变换的不同的描述矩阵。按照这个定义,同一头猪的不同角度的照片也可以成为相似照片。俗了一点,不过能让人明白。

而在上面式子里那个矩阵P,其实就是A矩阵所基于的基与B矩阵所基于的基这两组基之间的一个变换关系。关于这个结论,可以用一种非常直觉的方法来证明(而不是一般教科书上那种形式上的证明),如果有时间的话,我以后在blog里补充这个证明。

这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊!难怪这么重要!工科研究生课程中有矩阵论、矩 阵分析等课程,其中讲了各种各样的相似变换,比如什么相似标准型,对角化之类的内容,都要求变换以后得到的那个矩阵与先前的那个矩阵式相似的,为什么这么 要求?因为只有这样要求,才能保证变换前后的两个矩阵是描述同一个线性变换的。当然,同一个线性变换的不同矩阵描述,从实际运算性质来看并不是不分好环 的。有些描述矩阵就比其他的矩阵性质好得多。这很容易理解,同一头猪的照片也有美丑之分嘛。所以矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩 阵,而保证这两个矩阵都是描述了同一个线性变换。

这样一来,矩阵作为线性变换描述的一面,基本上说清楚了。但是,事情没有那么简单,或者说,线性代数还有比这更奇妙的性质,那就是,矩 阵不仅可以作为线性变换的描述,而且可以作为一组基的描述。而作为变换的矩阵,不但可以把线性空间中的一个点给变换到另一个点去,而且也能够把线性空间中 的一个坐标系(基)表换到另一个坐标系(基)去。而且,变换点与变换坐标系,具有异曲同工的效果。线性代数里最有趣的奥妙,就蕴含在其中。理解了这些内 容,线性代数里很多定理和规则会变得更加清晰、直觉。

几点统计学常识

2008年12月8号

       1 所谓的redundancy就是指:两个自变量同时预测因变量,但是两者有很大的重叠,从经济的角度来说,用一个自变量就可以预测因变量了,这个时侯另一个自变量就叫“redundant”,因为可有可无吗。从统计学上来讲这两者是没有区别的,而且是完全平等的,在做探索性统计分析的时候这两者让人很无奈。这也从一个侧面提示我们统计和现实的关系:脱离现实的统计分析没有意义,只是数字。现实的规律与数字的规律并不对称。

    2 在数据转化过程中(Transformation)其实人们只是为了迎合统计技术的基本假设而去进行数据转化,所以忽略了转化数据后的数据本身所带的实际意义。只要最好的满足了统计假设,而且最后建立了具有统计意义的模型,研究者的目的就达到了。因为建立模型是最重要的。

    同样的,协变量控制也是在现实操作之外进行的统计操作,同样剥夺了数字的“现实意义”,因此同样对解释造成了困难。也就是说现实的操作让数字有现实的意义,因此是可以解释的(可以用经验、理论去扩展),而一旦进行了统计操作(transformation,协方差控制)那么数字就成为了纯粹的“数字”,只具有统计学的意义,就不能够通过现实的理论、经验去对其解释、推广和“演绎”了。

    3 这一部分经过老师的指正,对α错误相关问题再次归纳如下: 在心理统计当中常规的ANOVA做法是在交互作用得到显著结果以后(有一个因素的水平在2个以上)进行简单主效应检验(简单效应检验);另外就是主效应显著(有2个以上水平)后进行Post Hoc。老师称之为“嵌套检验”。这种嵌套检验不如Planned test。作为验证性的工作,按照道理(统计学原理)应该直接去做理论上预期存在差异的对比,而不是做了一大堆不相干的检验。而且进行Post Hoc的同时应当对α进行校正,否则当同时进行平行组之间的两两比较的时候,多个检验同时犯α错误的概率就应该是1-(1-α)n。那些没有进行α校正的事后检验方法都是错误的。但是类似Bonferroni这类的两两比较的方法是以牺牲Power为代价的。比如原本0.05的显著性水平,做五个比较,经过校正,显著性水平变为0.01,虽然避免了α的膨胀但是却需要更大的差异才能达到显著,无形中降低了研究效度(α与Power的关系)。如果不进行校正,就是“误报概率”,属于“浪费效率的错误”。概括起来,ANOVA的缺点就在于如果对每个两组(Post Hoc和简单主效应检验)之间的差异都进行检验,就需要校正,这就导致过分保守的问题,这是没有必要的保守,完全可以用更好的理论以及Planned test技术取而代之。现实之所以不是这样,可能在于:

并不是每个研究都能有好的理论支持,而且心理学研究为了追求“显著性”的传统(其形成机制大概应该从科学社会学里寻找原因,这更多的是一种政治问题)导致人们更喜欢传统ANOVA+多次比较的做法,可以尽可能的找到“显著性”(不管和理论、预期有没有关系)。这大概就是所谓的“fishing”的做法。

  而另一类将设定好的0.05的显著性水平根据研究结果降低到0.01的做法,一方面是弄虚作假的行为,夸大了研究效果,造成后来研究进行元分析等工作的错误。另一方面也是对α的意义理解的问题。用置信区间替代点估计的话,这个问题就不那么重要了(通过观察置信区间的宽窄、与H0的距离来进行评价,而不是根据一个临界值来做质性判断)。

参考李老师评论:

    多了一次检验就增加了犯一类错误的概率,这个说法是错的。ANOVA +多次比较,是嵌套检验而不是并行检验,结果使得真实的一类错误概率缩水(报告值偏大),导致太保守,power变小。一类错误不一定是坏事,误报其概率才是坏事。往小里虚报是弄虚作假的错误;往大里虚报是浪费效率的错误。

 

高级心理统计课程总结:基本技术(二)

2008年12月2号

一、假设检验

1 单样本t检验数据文件:

IQ.sav=NORMINV(Rand(),90,15)n=100

假设总体为智力测验总体μ=100σ=15

Rt.test(IQ,mu=100,data=IQ)

SPSSAnalyze——>Compare Means——>One Sample t Test

 

备注: 关于t检验的Cohen’d的计算详见:http://en.wikipedia.org/wiki/Effect_size#One-way_ANOVA_test_for_mean_difference_across_multiple_independent_groups

单样本t检验的Cohen’d计算公式: d=(91.9756-100)/13.54793(正负值不影响后续计算)

R

假设检验>t.test(IQ,mu=100,data=IQ)

Power

>d<-(91.9756-100)/13.54793> pwr.t.test(d=d,n=100,sig.level=0.05,type=”one.sample”,alternative=”two.sided”)

置信区间$d={\frac{t}{\sqrt{N}}}\\{(t=ncp)}

>0.1*c(conf.limits.nct(ncp=-5.923,df=100,conf.level=0.95)$Lower.Limit,conf.limits.nct(ncp=-5.923,df=100,conf.level=0.95)$Upper.Limit)=[-0.8034830 -0.3785791]

2 独立样本t检验数据文件:TISt.sav

Number1=NORMINV (Rand (), 90, 10) n=30

Number2=NORMINV (Rand (), 100, 10) n=30

 

备注:对于RG*Power3Piface当中计算出来的Power值的差异做如下说明:

R中计算的是带入d所求出的Observed Power。当将该值带入G*Power3当中进行计算的结果是估计样本量为n=31(与实际结果不符)。在Piface当中带入R中的计算结果同样得到的样本估计量为n=31。表格当中所列出G*Power3Piface当中的是得出样本量为n=30的时候模拟的期望Power值。这一结果暂时无法解释。 网站计算Cohen’dhttp://web.uccs.edu/lbecker/Psy590/escalc3.htm#means%20and%20standard%20deviations 

d=-1.0181(经手算验证)

R

假设检验

t.test(NUM~Type,var.equal = TRUE,data=ITSt)

Power

pwr.t.test(d=-1.0181,n=30,sig.level=0.05,type=”two.sample”,alternative=”two.sided”)

计算CI(Confidence Interval) of Cohen’d

这里给出ncpncp=t)和Cohen’d的算数关系:

t={\sqrt{{\frac{{n_1}{n_2}}{{n_1}+{n_2}}}}d ({\sqrt{{\frac{{n_1}{n_2}}{{n_1}+{n_2}}}}={\sqrt{N}})

通过tCohen’d各自的公式可以推导出来,参见甘怡群P99

注:求相对效应量的置信区间的(表面)过程就是:

①利用检验统计量tFχ2ncp的关系,根据已知的检验统计量的值求出ncp的置信区间。

ncp与各相对效应量(Cohen’{\tilde d}Cohen’{\tilde f^2})有简单代数关系(以检验统计量为桥梁):$d=\frac{ncp}{\sqrt{N}}\\{(ncp=t)}Cohen’f 2=ncp/N。(这里的{\tilde d}{\tilde f^2}代表相对效应量的总体点估计)

③因此求出ncp的置信区间就可以求出总体的相对效应量置信区间。

R

>0.258199*c(conf.limits.nct(ncp=-3.943,df=58,conf.level=0.95)$Lower.Limit,conf.limits.nct(ncp=-3.943,df=58,conf.level=0.95)$Upper.Limit)

#该公式表示的是将ncp的上下限分别乘以td的关系系数,从而求出d的置信区间。下同#0.258199td的关系系数)

3 匹配两组t检验数据文件:Pairt.savR中引用数据为PairtR

>t.test(Pairt$X1, Pairt$X2, alternative=’two.sided’, conf.level=.95, paired=TRUE,data=Pairt)经检验R结果与SPSS结果的t值、p、均值置信区间均一致。

注:也可以在SPSS中用Compute命令计算出两组差值进行One-sample t-test结果一致。另外该检验也可以使用library(Rcmdr)当中可视化窗口进行。

Cohen’d计算公式:ESd=D/SD(甘怡群P109)

Cohen’d= 1.328727

Power

> pwr.t.test(d=1.328727,n=10,sig.level=0.05,type=”one.sample”,alternative=”two.sided”) 

$t={\sqrt{n}}d (根据tCohen’d的公式推导)

在R中求Cohen’d的置信区间:

{\frac{1}{\sqrt{10}}c(conf.limits.nct(ncp=4.202,df=9,conf.level=0.95)$Lower.Limit,conf.limits.nct(ncp=4.202,df=9,conf.level=0.95)$Upper.Limit)= [0.4449763, 2.1761391]