📘 Chapter 6 Important Topics: Correlation (സഹബന്ധം), Types of Correlation (Positive, Negative), Scatter Diagram (ചിതറിയ രേഖാചിത്രം), Karl Pearson's Coefficient of Correlation (കാൾ പിയേഴ്സന്റെ സഹബന്ധ ഗുണകം), Properties of Correlation Coefficient, Spearman's Rank Correlation (സ്പിയർമാന്റെ റാങ്ക് സഹബന്ധം) – Ranks given, Ranks not given, Repeated ranks
- Correlation measures the direction and intensity of relationship between two variables.
- Positive correlation: variables move in the same direction.
- Negative correlation: variables move in opposite directions.
- Scatter diagram gives a visual idea of the relationship.
- Karl Pearson's r measures linear correlation; range -1 to +1.
- Spearman's rank correlation is used when data is in ranks or qualitative.
Chapter-6
Correlation (സഹബന്ധം)
Introduction (ആമുഖം)
In previous chapters you have learnt how to construct summary measures out of a mass of data and changes among similar variables. Now you will learn how to examine the relationship between two variables.
മുൻ അധ്യായങ്ങളിൽ, ഒരു കൂട്ടം ഡാറ്റയിൽ നിന്നും സമാന ചരങ്ങളിലെ മാറ്റങ്ങളിൽ നിന്നും സംഗ്രഹ അളവുകൾ എങ്ങനെ നിർമ്മിക്കാമെന്ന് നിങ്ങൾ പഠിച്ചു. ഇപ്പോൾ രണ്ട് ചരങ്ങൾ തമ്മിലുള്ള ബന്ധം എങ്ങനെ പരിശോധിക്കാമെന്ന് നിങ്ങൾ പഠിക്കും.
As the summer heat rises, hill stations are crowded with more and more visitors. Ice-cream sales become more brisk. Thus, the temperature is related to number of visitors and sale of ice-creams. Similarly, as the supply of tomatoes increases in your local mandi, its price drops. Thus supply is related to price. Correlation analysis is a means for examining such relationships systematically.
വേനൽ ചൂട് കൂടുന്നതിനനുസരിച്ച്, മലമ്പ്രദേശങ്ങളിൽ കൂടുതൽ കൂടുതൽ സന്ദർശകർ തിങ്ങിനിറയുന്നു. ഐസ്ക്രീം വിൽപ്പന കൂടുതൽ സജീവമാകുന്നു. അങ്ങനെ, താപനില സന്ദർശകരുടെ എണ്ണവുമായും ഐസ്ക്രീമിന്റെ വിൽപ്പനയുമായും ബന്ധപ്പെട്ടിരിക്കുന്നു. അതുപോലെ, നിങ്ങളുടെ പ്രാദേശിക മണ്ഡിയിൽ തക്കാളിയുടെ വിതരണം വർദ്ധിക്കുമ്പോൾ, അതിന്റെ വില കുറയുന്നു. അങ്ങനെ വിതരണം വിലയുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. അത്തരം ബന്ധങ്ങൾ ചിട്ടയായി പരിശോധിക്കുന്നതിനുള്ള ഒരു മാർഗമാണ് സഹബന്ധ വിശകലനം.
What Does Correlation Measure? (സഹബന്ധം എന്താണ് അളക്കുന്നത്?)
Correlation studies and measures the direction and intensity of relationship among variables. Correlation measures covariation, not causation. Correlation should never be interpreted as implying cause and effect relation.
സഹബന്ധം ചരങ്ങൾ തമ്മിലുള്ള ബന്ധത്തിന്റെ ദിശയും തീവ്രതയും പഠിക്കുകയും അളക്കുകയും ചെയ്യുന്നു. സഹബന്ധം സഹവിചലനം അളക്കുന്നു, കാര്യകാരണബന്ധമല്ല. സഹബന്ധം ഒരിക്കലും കാര്യകാരണബന്ധത്തെ സൂചിപ്പിക്കുന്നതായി വ്യാഖ്യാനിക്കരുത്.
Types of Correlation (സഹബന്ധത്തിന്റെ തരങ്ങൾ)
Positive Correlation (പോസിറ്റീവ് സഹബന്ധം): Variables move in the same direction. When income rises, consumption also rises. (ചരങ്ങൾ ഒരേ ദിശയിൽ നീങ്ങുന്നു. വരുമാനം ഉയരുമ്പോൾ, ഉപഭോഗവും ഉയരുന്നു.)
Negative Correlation (നെഗറ്റീവ് സഹബന്ധം): Variables move in opposite directions. When price rises, demand falls. (ചരങ്ങൾ വിപരീത ദിശകളിൽ നീങ്ങുന്നു. വില ഉയരുമ്പോൾ, ആവശ്യം കുറയുന്നു.)
Scatter Diagram (ചിതറിയ രേഖാചിത്രം)
A scatter diagram visually presents the nature of association without giving any specific numerical value. In this technique, the values of the two variables are plotted as points on a graph paper. From a scatter diagram, one can get a fairly good idea of the nature of relationship.
ഒരു സ്കാറ്റർ ഡയഗ്രം, ഒരു പ്രത്യേക സംഖ്യാ മൂല്യവും നൽകാതെ, സഹബന്ധത്തിന്റെ സ്വഭാവം ദൃശ്യപരമായി അവതരിപ്പിക്കുന്നു. ഈ സാങ്കേതികതയിൽ, രണ്ട് ചരങ്ങളുടെയും മൂല്യങ്ങൾ ഒരു ഗ്രാഫ് പേപ്പറിൽ പോയിന്റുകളായി പ്ലോട്ട് ചെയ്യുന്നു. ഒരു സ്കാറ്റർ ഡയഗ്രത്തിൽ നിന്ന്, ബന്ധത്തിന്റെ സ്വഭാവത്തെക്കുറിച്ച് വളരെ നല്ല ഒരു ആശയം ലഭിക്കും.
- Fig. 6.1: Positive Correlation (പോസിറ്റീവ് സഹബന്ധം) – points around upward line
- Fig. 6.2: Negative Correlation (നെഗറ്റീവ് സഹബന്ധം) – points around downward line
- Fig. 6.3: No Correlation (സഹബന്ധമില്ല) – points scattered randomly
- Fig. 6.4: Perfect Positive Correlation (പൂർണ്ണ പോസിറ്റീവ്) – points on upward line
- Fig. 6.5: Perfect Negative Correlation (പൂർണ്ണ നെഗറ്റീവ്) – points on downward line
സ്കാറ്റർ ഡയഗ്രം എന്നത് ഒരു ഗ്രാഫിൽ പോയിന്റുകൾ പ്ലോട്ട് ചെയ്യുന്നത് പോലെയാണ്. പോയിന്റുകൾ ഇടത്തുനിന്ന് വലത്തോട്ട് മുകളിലേക്ക് പോകുകയാണെങ്കിൽ, അത് പോസിറ്റീവ് സഹബന്ധം. പോയിന്റുകൾ താഴേക്ക് പോകുകയാണെങ്കിൽ, അത് നെഗറ്റീവ്. പോയിന്റുകൾ എല്ലായിടത്തും ചിതറിക്കിടക്കുകയാണെങ്കിൽ, സഹബന്ധമില്ല. ഇത് ഒരു പെട്ടെന്നുള്ള ദൃശ്യ പരിശോധനയാണ്.
Karl Pearson's Coefficient of Correlation (കാൾ പിയേഴ്സന്റെ സഹബന്ധ ഗുണകം)
This is also known as product moment correlation coefficient. It gives a precise numerical value of the degree of linear relationship between two variables X and Y.
ഇത് പ്രോഡക്റ്റ് മൊമെന്റ് കോറിലേഷൻ കോഫിഫിഷ്യന്റ് എന്നും അറിയപ്പെടുന്നു. ഇത് X, Y എന്നീ രണ്ട് ചരങ്ങൾ തമ്മിലുള്ള രേഖീയ ബന്ധത്തിന്റെ അളവിന്റെ കൃത്യമായ സംഖ്യാ മൂല്യം നൽകുന്നു.
Formulae (സൂത്രവാക്യങ്ങൾ):
r = Σxy / (N σₓ σᵧ) where x = X - X̄, y = Y - Ȳ
r = Σ(X - X̄)(Y - Ȳ) / √[Σ(X - X̄)² × Σ(Y - Ȳ)²]
r = [NΣXY - (ΣX)(ΣY)] / √[NΣX² - (ΣX)²] × √[NΣY² - (ΣY)²]
Example 1: Years of schooling of farmers and annual yield per acre.
| X (years) | Y (yield in '000 Rs) | x = X-X̄ | y = Y-Ȳ | x² | y² | xy |
|---|---|---|---|---|---|---|
| 0 | 4 | -6 | -3 | 36 | 9 | 18 |
| 2 | 4 | -4 | -3 | 16 | 9 | 12 |
| 4 | 6 | -2 | -1 | 4 | 1 | 2 |
| 6 | 10 | 0 | 3 | 0 | 9 | 0 |
| 8 | 10 | 2 | 3 | 4 | 9 | 6 |
| 10 | 8 | 4 | 1 | 16 | 1 | 4 |
| 12 | 7 | 6 | 0 | 36 | 0 | 0 |
| ΣX=42 | ΣY=49 | Σx²=112 | Σy²=38 | Σxy=42 |
X̄ = 42/7 = 6, Ȳ = 49/7 = 7. r = 42 / √(112 × 38) = 42 / √4256 = 42 / 65.24 = 0.644
Thus, years of education and yield are positively correlated (0.644).
Properties of Correlation Coefficient (സഹബന്ധ ഗുണകത്തിന്റെ സവിശേഷതകൾ)
- r has no unit. It is a pure number. (r ന് യൂണിറ്റ് ഇല്ല. ഇത് ഒരു ശുദ്ധ സംഖ്യയാണ്.)
- Negative r indicates inverse relation. (നെഗറ്റീവ് r വിപരീത ബന്ധത്തെ സൂചിപ്പിക്കുന്നു.)
- Positive r indicates same direction relation. (പോസിറ്റീവ് r ഒരേ ദിശ ബന്ധത്തെ സൂചിപ്പിക്കുന്നു.)
- -1 ≤ r ≤ 1. If outside this range, error in calculation. (r -1 നും +1 നും ഇടയിലാണ്. ഈ പരിധിക്ക് പുറത്താണെങ്കിൽ കണക്കുകൂട്ടലിൽ പിശക്.)
- r is unaffected by change of origin and scale. (r ഉത്ഭവത്തിലും സ്കെയിലിലും വരുന്ന മാറ്റങ്ങളാൽ ബാധിക്കപ്പെടുന്നില്ല.)
- If r = 0, variables are uncorrelated (no linear relation). (r = 0 ആണെങ്കിൽ, ചരങ്ങൾ പരസ്പരബന്ധിതമല്ല (രേഖീയ ബന്ധമില്ല).)
- If r = +1 or -1, perfect linear correlation. (r = +1 അല്ലെങ്കിൽ -1 ആണെങ്കിൽ, പൂർണ്ണ രേഖീയ സഹബന്ധം.)
Spearman's Rank Correlation (സ്പിയർമാന്റെ റാങ്ക് സഹബന്ധം)
Used when data is in ranks or when variables are qualitative (like beauty, honesty). Formula: rₛ = 1 - [6ΣD² / (n³ - n)]
റാങ്കുകളിലോ അല്ലെങ്കിൽ ചരങ്ങൾ ഗുണപരമായിരിക്കുമ്പോഴോ (സൗന്ദര്യം, സത്യസന്ധത പോലെ) ഉപയോഗിക്കുന്നു. സൂത്രവാക്യം: rₛ = 1 - [6ΣD² / (n³ - n)]
Case 1: Ranks given (റാങ്കുകൾ നൽകിയിരിക്കുന്നു)
Example 3: Five persons assessed by three judges.
| Competitor | Judge A | Judge B | Judge C |
|---|---|---|---|
| 1 | 1 | 2 | 1 |
| 2 | 2 | 4 | 3 |
| 3 | 3 | 1 | 5 |
| 4 | 4 | 5 | 2 |
| 5 | 5 | 3 | 4 |
For A & B: D: -1, -2, 2, -1, 2; D²: 1,4,4,1,4; ΣD² = 14. rₛ = 1 - (6×14)/(125-5) = 1 - 84/120 = 1 - 0.7 = 0.3
For A & C: D: 0, -1, -2, 2, 1; D²: 0,1,4,4,1; ΣD² = 10. rₛ = 1 - (6×10)/120 = 1 - 60/120 = 0.5
For B & C: rₛ = 0.9. Judges A and C have closest perception.
Case 2: Ranks not given (റാങ്കുകൾ നൽകിയിട്ടില്ല)
Example 4: Marks in Statistics and Economics. Assign ranks (highest mark gets rank 1). Then calculate D and ΣD², apply formula.
| Student | Stats marks | Eco marks | Rank Stats | Rank Eco | D | D² |
|---|---|---|---|---|---|---|
| A | 85 | 60 | 1 | 4 | -3 | 9 |
| B | 60 | 48 | 4 | 5 | -1 | 1 |
| C | 55 | 49 | 5 | 3 | 2 | 4 |
| D | 65 | 50 | 3 | 2 | 1 | 1 |
| E | 75 | 55 | 2 | 1 | 1 | 1 |
| Total | ΣD² = 16 | |||||
rₛ = 1 - (6×16)/(125-5) = 1 - 96/120 = 1 - 0.8 = 0.2
Case 3: Repeated ranks (റാങ്കുകൾ ആവർത്തിക്കുന്നു)
When ranks are repeated, average rank is assigned. Correction factors are used in formula.
Formula with correction: rₛ = 1 - 6[ΣD² + (m₁³ - m₁)/12 + (m₂³ - m₂)/12 + ...] / (n³ - n)
Simple Hints (ലളിതമായ സൂചനകൾ): No, correlation does not imply causation. It could be that villages with more deaths were sent more doctors (reverse causation), or a third factor like an epidemic caused both more deaths and more doctors to be sent (confounding variable).
ഇല്ല, സഹബന്ധം കാര്യകാരണബന്ധത്തെ സൂചിപ്പിക്കുന്നില്ല. കൂടുതൽ മരണങ്ങളുള്ള ഗ്രാമങ്ങളിലേക്ക് കൂടുതൽ ഡോക്ടർമാരെ അയച്ചിരിക്കാം (വിപരീത കാരണം), അല്ലെങ്കിൽ ഒരു മൂന്നാം ഘടകം (ഒരു പകർച്ചവ്യാധി പോലെ) കൂടുതൽ മരണങ്ങൾക്കും കൂടുതൽ ഡോക്ടർമാരെ അയയ്ക്കുന്നതിനും കാരണമായിരിക്കാം (ആശയക്കുഴപ്പമുണ്ടാക്കുന്ന വേരിയബിൾ).
Answer Structure (ഉത്തര ഘടന):
• Calculate means: X̄ = 3, Ȳ = 6. (മാധ്യങ്ങൾ കണക്കാക്കുക.)
• Compute deviations and products: x = X-3, y = Y-6, xy, x², y². (വ്യതിയാനങ്ങളും ഗുണനഫലങ്ങളും കണക്കാക്കുക.)
• Σx = 0, Σy = 0, Σxy = 1×(-4)+2×(-2)+3×0+4×2+5×4 = -4-4+0+8+20 = 20; Σx² = 4+1+0+1+4 = 10; Σy² = 16+4+0+4+16 = 40.
• r = Σxy / √(Σx² × Σy²) = 20 / √(10×40) = 20 / √400 = 20/20 = 1.
• Interpretation: Perfect positive correlation. (വ്യാഖ്യാനം: പൂർണ്ണ പോസിറ്റീവ് സഹബന്ധം.)
Answer Structure (ഉത്തര ഘടന):
• Find D = rank X - rank Y: -1, -1, 2, -1, 1. (D കണ്ടെത്തുക.)
• D²: 1,1,4,1,1; ΣD² = 8. n = 5.
• rₛ = 1 - (6×8)/(125-5) = 1 - 48/120 = 1 - 0.4 = 0.6.
• Interpretation: Moderate positive rank correlation. (വ്യാഖ്യാനം: മിതമായ പോസിറ്റീവ് റാങ്ക് സഹബന്ധം.)
Answer Structure (ഉത്തര ഘടന):
• r lies between -1 and +1. (r -1 നും +1 നും ഇടയിലാണ്.)
• r has no unit; it is a pure number. (r ന് യൂണിറ്റ് ഇല്ല; അത് ഒരു ശുദ്ധ സംഖ്യയാണ്.)
• r is unaffected by change of origin and scale. (r ഉത്ഭവത്തിലും സ്കെയിലിലും വരുന്ന മാറ്റങ്ങളാൽ ബാധിക്കപ്പെടുന്നില്ല.)
• r = 0 indicates no linear correlation. (r = 0 എന്നത് രേഖീയ സഹബന്ധമില്ലെന്ന് സൂചിപ്പിക്കുന്നു.)
Source: kest106.pdf - NCERT Economics (Statistics for Economics), Chapter 6: Correlation
```