Chapter-3 Organisation of Data

📘 Chapter 3 Important Topics: Introduction to Classification (വർഗ്ഗീകരണത്തിന് ഒരു ആമുഖം), Raw Data (അസംസ്കൃത ദത്തങ്ങൾ), Types of Classification (വർഗ്ഗീകരണത്തിന്റെ തരങ്ങൾ: Chronological, Spatial, Qualitative, Quantitative), Continuous and Discrete Variables (തുടർച്ചയായതും വിച്ഛിന്നവുമായ ചരങ്ങൾ), Frequency Distribution (ആവൃത്തി വിതരണം), Class Limits, Class Interval, Class Mark (ക്ലാസ് പരിധികൾ, ക്ലാസ് അന്തരം, ക്ലാസ് മധ്യബിന്ദു), How to prepare Frequency Distribution (ആവൃത്തി വിതരണം എങ്ങനെ തയ്യാറാക്കാം), Inclusive and Exclusive Methods (ഇൻക്ലൂസീവ്, എക്സ്ക്ലൂസീവ് രീതികൾ), Tally Marking (ടാലി മാർക്കിംഗ്), Loss of Information (വിവരങ്ങളുടെ നഷ്ടം), Bivariate Frequency Distribution (ദ്വിചര ആവൃത്തി വിതരണം)
  • Raw data is unorganised and difficult to interpret.
  • Classification groups data based on similarities (time, place, quality, quantity).
  • Continuous variables can take any value; discrete variables take only certain values.
  • Frequency distribution shows how data is distributed across classes with frequencies.
  • Inclusive method includes both limits; exclusive method has upper limit of one class as lower of next.
  • Tally marks help count frequencies easily.
  • Bivariate distribution shows frequency of two variables together.
Chapter 3 Cover

Chapter-3

Organisation of Data (ദത്തങ്ങളുടെ ക്രമീകരണം)

Introduction (ആമുഖം)

In the previous chapter you have learnt about how data is collected. You also came to know the difference between census and sampling. In this chapter, you will know how the data, that you collected, are to be classified. The purpose of classifying raw data is to bring order in them so that they can be subjected to further statistical analysis easily.

കഴിഞ്ഞ അധ്യായത്തിൽ ഡാറ്റ എങ്ങനെ ശേഖരിക്കുന്നു എന്നതിനെക്കുറിച്ച് നിങ്ങൾ പഠിച്ചു. സെൻസസും സാമ്പിളും തമ്മിലുള്ള വ്യത്യാസവും നിങ്ങൾ മനസ്സിലാക്കി. ഈ അധ്യായത്തിൽ, നിങ്ങൾ ശേഖരിച്ച ഡാറ്റ എങ്ങനെ തരംതിരിക്കണമെന്ന് നിങ്ങൾ അറിയും. അസംസ്കൃത ഡാറ്റയെ തരംതിരിക്കുന്നതിന്റെ ഉദ്ദേശ്യം അവയിൽ ക്രമം കൊണ്ടുവരിക എന്നതാണ്, അങ്ങനെ അവ എളുപ്പത്തിൽ കൂടുതൽ സ്ഥിതിവിവരക്കണക്ക് വിശകലനത്തിന് വിധേയമാക്കാൻ കഴിയും.

Have you ever observed your local junk dealer or kabadiwallah to whom you sell old newspapers, broken household items, empty glass bottles, plastics, etc? He purchases these things from you and sells them to those who recycle them. But with so much junk in his shop it would be very difficult for him to manage his trade, if he had not organised them properly. To ease his situation he suitably groups or "classifies" various junk. He puts old newspapers together and ties them with a rope. Then collects all empty glass bottles in a sack. He heaps the articles of metals in one corner of his shop and sorts them into groups like "iron", "copper", "aluminium", "brass" etc., and so on. In this way he groups his junk into different classes "newspapers, "plastics", "glass", "metals" etc. - and brings order in them. Once his junk is arranged and classified, it becomes easier for him to find a particular item that a buyer may demand.

നിങ്ങളുടെ പ്രാദേശിക ജങ്ക് ഡീലറെ അല്ലെങ്കിൽ കബാഡിവാലയെ നിങ്ങൾ എപ്പോഴെങ്കിലും നിരീക്ഷിച്ചിട്ടുണ്ടോ, അയാൾക്ക് നിങ്ങൾ പഴയ പത്രങ്ങൾ, തകർന്ന വീട്ടുപകരണങ്ങൾ, ഒഴിഞ്ഞ ഗ്ലാസ് കുപ്പികൾ, പ്ലാസ്റ്റിക്കുകൾ മുതലായവ വിൽക്കുന്നു? അവൻ ഈ സാധനങ്ങൾ നിങ്ങളിൽ നിന്ന് വാങ്ങുകയും അവ റീസൈക്കിൾ ചെയ്യുന്നവർക്ക് വിൽക്കുകയും ചെയ്യുന്നു. എന്നാൽ അവന്റെ കടയിൽ ഇത്രയധികം ജങ്ക് ഉള്ളതിനാൽ, അവൻ അവ ശരിയായി ക്രമീകരിച്ചിട്ടില്ലെങ്കിൽ അവന്റെ വ്യാപാരം നിയന്ത്രിക്കുന്നത് വളരെ ബുദ്ധിമുട്ടായിരിക്കും. അവന്റെ അവസ്ഥ ലഘൂകരിക്കുന്നതിന് അവൻ വിവിധ ജങ്കുകൾ ഉചിതമായി ഗ്രൂപ്പുചെയ്യുകയോ "വർഗ്ഗീകരിക്കുകയോ" ചെയ്യുന്നു. അവൻ പഴയ പത്രങ്ങൾ ഒരുമിച്ച് ഇട്ടു കയറുകൊണ്ട് കെട്ടുന്നു. എന്നിട്ട് എല്ലാ ഒഴിഞ്ഞ ഗ്ലാസ് കുപ്പികളും ഒരു ചാക്കിൽ ശേഖരിക്കുന്നു. അവൻ തന്റെ കടയുടെ ഒരു മൂലയിൽ ലോഹങ്ങളുടെ വസ്തുക്കൾ കൂട്ടിയിട്ട് "ഇരുമ്പ്", "ചെമ്പ്", "അലുമിനിയം", "പിത്തള" മുതലായ ഗ്രൂപ്പുകളായി അവയെ തരംതിരിക്കുന്നു. ഈ രീതിയിൽ അവൻ തന്റെ ജങ്കിനെ വ്യത്യസ്ത ക്ലാസുകളായി "ന്യൂസ് പേപ്പറുകൾ", "പ്ലാസ്റ്റിക്കുകൾ", "ഗ്ലാസ്", "ലോഹങ്ങൾ" മുതലായവയായി ഗ്രൂപ്പുചെയ്യുന്നു - അവയിൽ ക്രമം കൊണ്ടുവരുന്നു. അവന്റെ ജങ്ക് ക്രമീകരിക്കുകയും തരംതിരിക്കുകയും ചെയ്തുകഴിഞ്ഞാൽ, ഒരു വാങ്ങുന്നയാൾ ആവശ്യപ്പെട്ടേക്കാവുന്ന ഒരു പ്രത്യേക ഇനം കണ്ടെത്തുന്നത് അവന് എളുപ്പമാകും.

Likewise when you arrange your schoolbooks in a certain order, it becomes easier for you to handle them. You may classify them according to subjects where each subject becomes a group or a class. So, when you need a particular book on history, for instance, all you need to do is to search that book in the group "History". Otherwise, you would have to search through your entire collection to find the particular book you are looking for.

അതുപോലെ നിങ്ങളുടെ സ്കൂൾ പുസ്തകങ്ങൾ ഒരു പ്രത്യേക ക്രമത്തിൽ ക്രമീകരിക്കുമ്പോൾ, അവ കൈകാര്യം ചെയ്യുന്നത് നിങ്ങൾക്ക് എളുപ്പമാകും. നിങ്ങൾക്ക് അവയെ വിഷയങ്ങൾ അനുസരിച്ച് തരംതിരിക്കാം, അവിടെ ഓരോ വിഷയവും ഒരു ഗ്രൂപ്പോ ക്ലാസോ ആയി മാറുന്നു. അതിനാൽ, ഉദാഹരണത്തിന്, ചരിത്രത്തിലെ ഒരു പ്രത്യേക പുസ്തകം നിങ്ങൾക്ക് ആവശ്യമുള്ളപ്പോൾ, "ചരിത്രം" എന്ന ഗ്രൂപ്പിൽ ആ പുസ്തകം തിരയുക എന്നതാണ് നിങ്ങൾ ചെയ്യേണ്ടത്. അല്ലെങ്കിൽ, നിങ്ങൾ തിരയുന്ന പ്രത്യേക പുസ്തകം കണ്ടെത്താൻ നിങ്ങളുടെ മുഴുവൻ ശേഖരവും തിരയേണ്ടിവരും.

While classification of objects or things saves our valuable time and effort, it is not done in an arbitrary manner. The kabadiwallah groups his junk according to the markets for reused goods. For example, under the group "Glass" he would put empty bottles, broken mirrors and windowpanes, etc. Similarly when you classify your history books under the group "History" you would not put a book of a different subject in that group. Otherwise the entire purpose of grouping would be lost. Classification, therefore, is arranging or organising things into groups or classes based on some criteria.

വസ്തുക്കളെയോ വസ്തുക്കളെയോ തരംതിരിക്കുന്നത് നമ്മുടെ വിലപ്പെട്ട സമയവും പ്രയത്നവും ലാഭിക്കുമ്പോൾ തന്നെ, അത് ഏകപക്ഷീയമായ രീതിയിൽ ചെയ്യപ്പെടുന്നില്ല. പുനരുപയോഗിച്ച സാധനങ്ങൾക്കുള്ള വിപണികൾക്കനുസരിച്ച് കബാഡിവാല തന്റെ ജങ്കിനെ ഗ്രൂപ്പുചെയ്യുന്നു. ഉദാഹരണത്തിന്, "ഗ്ലാസ്" എന്ന ഗ്രൂപ്പിന് കീഴിൽ അദ്ദേഹം ഒഴിഞ്ഞ കുപ്പികൾ, തകർന്ന കണ്ണാടികൾ, ജനലുകൾ മുതലായവ ഇടും. അതുപോലെ നിങ്ങൾ നിങ്ങളുടെ ചരിത്ര പുസ്തകങ്ങളെ "ചരിത്രം" എന്ന ഗ്രൂപ്പിന് കീഴിൽ തരംതിരിക്കുമ്പോൾ നിങ്ങൾ ആ ഗ്രൂപ്പിൽ ഒരു വ്യത്യസ്ത വിഷയത്തിന്റെ പുസ്തകം ഇടില്ല. അല്ലെങ്കിൽ ഗ്രൂപ്പിംഗിന്റെ മുഴുവൻ ഉദ്ദേശ്യവും നഷ്ടപ്പെടും. അതിനാൽ, ചില മാനദണ്ഡങ്ങളെ അടിസ്ഥാനമാക്കി വസ്തുക്കളെ ഗ്രൂപ്പുകളായോ ക്ലാസുകളായോ ക്രമീകരിക്കുകയോ സംഘടിപ്പിക്കുകയോ ചെയ്യുന്നതാണ് വർഗ്ഗീകരണം.

Raw Data (അസംസ്കൃത ദത്തങ്ങൾ)

Like the kabadiwallah's junk, the unclassified data or raw data are highly disorganised. They are often very large and cumbersome to handle. To draw meaningful conclusions from them is a tedious task because they do not yield to statistical methods easily. Therefore proper organisation and presentation of such data is needed before any systematic statistical analysis is undertaken. Hence after collecting data the next step is to organise and present them in a classified form.

കബാഡിവാലയുടെ ജങ്ക് പോലെ, വർഗ്ഗീകരിക്കാത്ത ഡാറ്റ അല്ലെങ്കിൽ അസംസ്കൃത ഡാറ്റ വളരെ ക്രമരഹിതമാണ്. അവ പലപ്പോഴും വളരെ വലുതും കൈകാര്യം ചെയ്യാൻ ബുദ്ധിമുട്ടുള്ളതുമാണ്. അവയിൽ നിന്ന് അർത്ഥവത്തായ നിഗമനങ്ങളിൽ എത്തിച്ചേരുക എന്നത് ബുദ്ധിമുട്ടുള്ള കാര്യമാണ്, കാരണം അവ എളുപ്പത്തിൽ സ്ഥിതിവിവരക്കണക്ക് രീതികൾക്ക് വഴങ്ങുന്നില്ല. അതിനാൽ, ഏതെങ്കിലും ചിട്ടയായ സ്ഥിതിവിവരക്കണക്ക് വിശകലനം ആരംഭിക്കുന്നതിന് മുമ്പ് അത്തരം ഡാറ്റയുടെ ശരിയായ ഓർഗനൈസേഷനും അവതരണവും ആവശ്യമാണ്. അതിനാൽ ഡാറ്റ ശേഖരിച്ചതിന് ശേഷമുള്ള അടുത്ത ഘട്ടം അവയെ ഒരു തരംതിരിച്ച രൂപത്തിൽ സംഘടിപ്പിച്ച് അവതരിപ്പിക്കുക എന്നതാണ്.

Suppose you want to know the performance of students in mathematics and you have collected data on marks in mathematics of 100 students of your school. If you present them as a table, they may appear something like Table 3.1.

നിങ്ങൾക്ക് ഗണിതത്തിലെ വിദ്യാർത്ഥികളുടെ പ്രകടനം അറിയണമെന്നും നിങ്ങളുടെ സ്കൂളിലെ 100 വിദ്യാർത്ഥികളുടെ ഗണിതത്തിലെ മാർക്കുകളെക്കുറിച്ചുള്ള ഡാറ്റ നിങ്ങൾ ശേഖരിച്ചുവെന്നും കരുതുക. നിങ്ങൾ അവ ഒരു പട്ടികയായി അവതരിപ്പിക്കുകയാണെങ്കിൽ, അവ പട്ടിക 3.1 പോലെ കാണപ്പെടും.

TABLE 3.1 Marks in Mathematics Obtained by 100 Students in an Examination

47451060515666100494060595655624859555141426964665059576562506430377517562014559062515514253490495654704749824082608565664944646970481228556549402541718005614226653467043615912303545445776823932149025

Or you could have collected data on the monthly expenditure on food of 50 households in your neighbourhood to know their average expenditure on food. The data collected, in that case, had you presented as a table, would have resembled Table 3.2. Both Tables 3.1 and 3.2 are raw or unclassified data. In both the tables you find that numbers are not arranged in any order. Now if you are asked for the highest marks in mathematics from Table 3.1 then you have to first arrange the marks of 100 students either in ascending or in descending order. That is a tedious task. It becomes more tedious, if instead of 100 you have the marks of 1,000 students to handle. Similarly, in Table 3.2, you would note that it is difficult for you to ascertain the average monthly expenditure of 50 households. And this difficulty will go up manifold if the number was larger say, 5,000 households. Like our kabadiwallah, who would be distressed to find a particular item when his junk becomes large and disarranged, you would face a similar situation when you try to get any information from raw data that are large. In one word, therefore, it is a tedious task to pull information from large unclassified data.

അല്ലെങ്കിൽ നിങ്ങളുടെ അയൽപക്കത്തെ 50 കുടുംബങ്ങളുടെ ഭക്ഷണത്തിനായുള്ള പ്രതിമാസ ചെലവിനെക്കുറിച്ചുള്ള ഡാറ്റ നിങ്ങൾ ശേഖരിച്ചിരിക്കാം, ഭക്ഷണത്തിനായുള്ള അവരുടെ ശരാശരി ചെലവ് അറിയാൻ. ആ സാഹചര്യത്തിൽ, നിങ്ങൾ ഒരു പട്ടികയായി അവതരിപ്പിച്ചിരുന്നെങ്കിൽ, ശേഖരിച്ച ഡാറ്റ പട്ടിക 3.2 ന് സമാനമായിരിക്കും. പട്ടിക 3.1 ഉം 3.2 ഉം അസംസ്കൃതമോ വർഗ്ഗീകരിക്കപ്പെടാത്തതോ ആയ ഡാറ്റയാണ്. രണ്ട് പട്ടികകളിലും സംഖ്യകൾ ഒരു ക്രമത്തിലും ക്രമീകരിച്ചിട്ടില്ലെന്ന് നിങ്ങൾ കണ്ടെത്തുന്നു. ഇപ്പോൾ പട്ടിക 3.1-ൽ നിന്ന് ഗണിതത്തിലെ ഏറ്റവും ഉയർന്ന മാർക്ക് ചോദിച്ചാൽ, നിങ്ങൾ ആദ്യം 100 വിദ്യാർത്ഥികളുടെ മാർക്ക് ആരോഹണ ക്രമത്തിലോ അവരോഹണ ക്രമത്തിലോ ക്രമീകരിക്കേണ്ടതുണ്ട്. അതൊരു ബുദ്ധിമുട്ടുള്ള ജോലിയാണ്. 100-ന് പകരം 1,000 വിദ്യാർത്ഥികളുടെ മാർക്ക് കൈകാര്യം ചെയ്യണമെങ്കിൽ അത് കൂടുതൽ ബുദ്ധിമുട്ടാകും. അതുപോലെ, പട്ടിക 3.2-ൽ, 50 കുടുംബങ്ങളുടെ ശരാശരി പ്രതിമാസ ചെലവ് നിർണ്ണയിക്കുന്നത് നിങ്ങൾക്ക് ബുദ്ധിമുട്ടാണെന്ന് നിങ്ങൾ ശ്രദ്ധിക്കും. സംഖ്യ വലുതാണെങ്കിൽ, 5,000 കുടുംബങ്ങൾ എന്ന് പറഞ്ഞാൽ, ഈ ബുദ്ധിമുട്ട് പലമടങ്ങ് വർദ്ധിക്കും. അവന്റെ ജങ്ക് വലുതും ക്രമരഹിതവുമാകുമ്പോൾ ഒരു പ്രത്യേക ഇനം കണ്ടെത്താൻ ബുദ്ധിമുട്ടുന്ന നമ്മുടെ കബാഡിവാലയെപ്പോലെ, വലിയ അസംസ്കൃത ഡാറ്റയിൽ നിന്ന് എന്തെങ്കിലും വിവരങ്ങൾ ലഭിക്കാൻ ശ്രമിക്കുമ്പോൾ നിങ്ങൾക്കും സമാനമായ അവസ്ഥ നേരിടേണ്ടിവരും. ഒറ്റവാക്കിൽ പറഞ്ഞാൽ, വലിയ വർഗ്ഗീകരിക്കപ്പെടാത്ത ഡാറ്റയിൽ നിന്ന് വിവരങ്ങൾ ശേഖരിക്കുക എന്നത് ബുദ്ധിമുട്ടുള്ള കാര്യമാണ്.

The raw data are summarised, and made comprehensible by classification. When facts of similar characteristics are placed in the same class, it enables one to locate them easily, make comparison, and draw inferences without any difficulty. You have studied in Chapter 2 that the Government of India conducts Census of population every ten years. About 20 crore persons were contacted in Census 2001. The raw data of census are so large and fragmented that it appears an almost impossible task to draw any meaningful conclusion from them. But when the same data is classified according to gender, education, marital status, occupation, etc., the structure and nature of population of India is, then, easily understood.

അസംസ്കൃത ഡാറ്റ സംഗ്രഹിക്കുകയും വർഗ്ഗീകരണത്തിലൂടെ മനസ്സിലാക്കാവുന്നതാക്കുകയും ചെയ്യുന്നു. സമാന സ്വഭാവസവിശേഷതകളുടെ വസ്തുതകൾ ഒരേ ക്ലാസിൽ സ്ഥാപിക്കുമ്പോൾ, അവ എളുപ്പത്തിൽ കണ്ടെത്താനും താരതമ്യം ചെയ്യാനും ഒരു ബുദ്ധിമുട്ടുമില്ലാതെ നിഗമനങ്ങളിൽ എത്തിച്ചേരാനും അത് ഒരാളെ പ്രാപ്തനാക്കുന്നു. അദ്ധ്യായം 2-ൽ നിങ്ങൾ പഠിച്ചു, ഇന്ത്യാ ഗവൺമെന്റ് ഓരോ പത്ത് വർഷത്തിലും ജനസംഖ്യാ സെൻസസ് നടത്തുന്നു. 2001 ലെ സെൻസസിൽ ഏകദേശം 20 കോടി വ്യക്തികളെ ബന്ധപ്പെട്ടു. സെൻസസിന്റെ അസംസ്കൃത ഡാറ്റ വളരെ വലുതും ഛിന്നഭിന്നവുമാണ്, അതിൽ നിന്ന് എന്തെങ്കിലും അർത്ഥവത്തായ നിഗമനത്തിൽ എത്തിച്ചേരുക എന്നത് ഏതാണ്ട് അസാധ്യമായ ഒരു കാര്യമായി തോന്നുന്നു. എന്നാൽ അതേ ഡാറ്റ ലിംഗഭേദം, വിദ്യാഭ്യാസം, വൈവാഹിക നില, തൊഴിൽ മുതലായവ അനുസരിച്ച് തരംതിരിക്കുമ്പോൾ, ഇന്ത്യയിലെ ജനസംഖ്യയുടെ ഘടനയും സ്വഭാവവും എളുപ്പത്തിൽ മനസ്സിലാക്കാൻ കഴിയും.

The raw data consist of observations on variables. The raw data as given in Tables 3.1 and 3.2 consist of observations on a specific or group of variables. Look at Table 3.1 for instance which contains marks in mathematics scored by 100 students. How can we make sense of these marks? The mathematics teacher looking at these marks would be thinking- How have my students done? How many have not passed? How we classify the data depends upon the purpose we have in mind. In this case, the teacher wishes to understand in some depth- how these students have done. She would probably choose to construct the frequency distribution. This is discussed in the next section.

അസംസ്കൃത ഡാറ്റയിൽ ചരങ്ങളെക്കുറിച്ചുള്ള നിരീക്ഷണങ്ങൾ അടങ്ങിയിരിക്കുന്നു. പട്ടിക 3.1, 3.2 എന്നിവയിൽ നൽകിയിരിക്കുന്ന അസംസ്കൃത ഡാറ്റയിൽ ഒരു പ്രത്യേക അല്ലെങ്കിൽ കൂട്ടം ചരങ്ങളെക്കുറിച്ചുള്ള നിരീക്ഷണങ്ങൾ അടങ്ങിയിരിക്കുന്നു. ഉദാഹരണത്തിന്, 100 വിദ്യാർത്ഥികൾ നേടിയ ഗണിതത്തിലെ മാർക്കുകൾ അടങ്ങുന്ന പട്ടിക 3.1 നോക്കുക. ഈ മാർക്കുകളുടെ അർത്ഥം എങ്ങനെ മനസ്സിലാക്കാം? ഈ മാർക്കുകൾ നോക്കുന്ന ഗണിത അധ്യാപിക ചിന്തിക്കും- എന്റെ വിദ്യാർത്ഥികൾ എങ്ങനെ പ്രവർത്തിച്ചു? എത്ര പേർ വിജയിച്ചിട്ടില്ല? ഡാറ്റ എങ്ങനെ തരംതിരിക്കുന്നു എന്നത് നമ്മുടെ മനസ്സിലുള്ള ഉദ്ദേശ്യത്തെ ആശ്രയിച്ചിരിക്കുന്നു. ഈ സാഹചര്യത്തിൽ, ഈ വിദ്യാർത്ഥികൾ എങ്ങനെ പ്രവർത്തിച്ചു എന്ന് കുറച്ചുകൂടി ആഴത്തിൽ മനസ്സിലാക്കാൻ അധ്യാപിക ആഗ്രഹിക്കുന്നു. അവൾ ഒരുപക്ഷേ ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ നിർമ്മിക്കാൻ തിരഞ്ഞെടുക്കും. ഇത് അടുത്ത വിഭാഗത്തിൽ ചർച്ചചെയ്യുന്നു.

Classification of Data (ദത്തങ്ങളുടെ വർഗ്ഗീകരണം)

The groups or classes of a classification is done in various ways. Instead of classifying your books according to subjects - "History", "Geography", "Mathematics", "Science", etc. - you could have classified them author- wise in an alphabetical order. Or, you could have also classified them according to the year of publication. The way you want to classify them would depend on your requirement.

ഒരു വർഗ്ഗീകരണത്തിന്റെ ഗ്രൂപ്പുകളോ ക്ലാസുകളോ വിവിധ രീതികളിൽ ചെയ്യുന്നു. നിങ്ങളുടെ പുസ്തകങ്ങളെ വിഷയങ്ങൾ അനുസരിച്ച് തരംതിരിക്കുന്നതിനുപകരം - "ചരിത്രം", "ഭൂമിശാസ്ത്രം", "ഗണിതം", "ശാസ്ത്രം" മുതലായവ - നിങ്ങൾക്ക് അവയെ രചയിതാവ് അനുസരിച്ച് അക്ഷരമാലാക്രമത്തിൽ തരംതിരിക്കാം. അല്ലെങ്കിൽ, നിങ്ങൾക്ക് അവയെ പ്രസിദ്ധീകരിച്ച വർഷം അനുസരിച്ചും തരംതിരിക്കാം. നിങ്ങൾ അവയെ എങ്ങനെ തരംതിരിക്കണം എന്നത് നിങ്ങളുടെ ആവശ്യകതയെ ആശ്രയിച്ചിരിക്കും.

Likewise the raw data is classified in various ways depending on the purpose. They can be grouped according to time. Such a classification is known as a Chronological Classification. In such a classification, data are classified either in ascending or in descending order with reference to time such as years, quarters, months, weeks, etc. The following example shows the population of India classified in terms of years. The variable 'population' is a Time Series as it depicts a series of values for different years.

അതുപോലെ അസംസ്കൃത ഡാറ്റ ഉദ്ദേശ്യത്തെ ആശ്രയിച്ച് വിവിധ രീതികളിൽ തരംതിരിക്കുന്നു. അവയെ സമയം അനുസരിച്ച് ഗ്രൂപ്പുചെയ്യാം. അത്തരമൊരു വർഗ്ഗീകരണത്തെ കാലക്രമ വർഗ്ഗീകരണം എന്ന് വിളിക്കുന്നു. അത്തരമൊരു വർഗ്ഗീകരണത്തിൽ, വർഷങ്ങൾ, പാദങ്ങൾ, മാസങ്ങൾ, ആഴ്ചകൾ മുതലായ സമയത്തെ പരാമർശിച്ച് ഡാറ്റ ആരോഹണ ക്രമത്തിലോ അവരോഹണ ക്രമത്തിലോ തരംതിരിക്കുന്നു. ഇനിപ്പറയുന്ന ഉദാഹരണം വർഷങ്ങളുടെ അടിസ്ഥാനത്തിൽ തരംതിരിച്ച ഇന്ത്യയിലെ ജനസംഖ്യ കാണിക്കുന്നു. വ്യത്യസ്ത വർഷങ്ങളിലെ മൂല്യങ്ങളുടെ ഒരു ശ്രേണി ചിത്രീകരിക്കുന്നതിനാൽ 'ജനസംഖ്യ' എന്ന ചരം ഒരു സമയ ശ്രേണിയാണ്.

Example 1

Year Population (Crores)
195135.7
196143.8
197154.6
198168.4
199181.8
2001102.7
2011121.0

In Spatial Classification the data are classified with reference to geographical locations such as countries, states, cities, districts, etc.

സ്പേഷ്യൽ വർഗ്ഗീകരണത്തിൽ, രാജ്യങ്ങൾ, സംസ്ഥാനങ്ങൾ, നഗരങ്ങൾ, ജില്ലകൾ മുതലായ ഭൂമിശാസ്ത്രപരമായ സ്ഥാനങ്ങളെ പരാമർശിച്ച് ഡാറ്റ തരംതിരിക്കുന്നു.

Example 2

Country Yield of wheat (kg/hectare)
Canada3594
China5055
France7254
Germany7998
India3154
Pakistan2787

Source: Indian Agricultural Statistics at a Glance,2015

Sometimes you come across characteristics that cannot be expressed quantitatively. Such characteristics are called Qualities or Attributes. For example, nationality, literacy, religion, gender, marital status, etc. They cannot be measured. Yet these attributes can be classified on the basis of either the presence or the absence of a qualitative characteristic. Such a classification of data on attributes is called a Qualitative Classification. In the following example, we find population of a country is grouped on the basis of the qualitative variable "gender". An observation could either be a male or a female. These two characteristics could be further classified on the basis of marital status as given below:

ചിലപ്പോൾ നിങ്ങൾക്ക് അളവനുസരിച്ച് പ്രകടിപ്പിക്കാൻ കഴിയാത്ത സ്വഭാവസവിശേഷതകൾ കാണാൻ കഴിയും. അത്തരം സ്വഭാവസവിശേഷതകളെ ഗുണങ്ങൾ അല്ലെങ്കിൽ ആട്രിബ്യൂട്ടുകൾ എന്ന് വിളിക്കുന്നു. ഉദാഹരണത്തിന്, ദേശീയത, സാക്ഷരത, മതം, ലിംഗഭേദം, വൈവാഹിക നില മുതലായവ. അവ അളക്കാൻ കഴിയില്ല. എന്നിരുന്നാലും, ഒരു ഗുണപരമായ സ്വഭാവത്തിന്റെ സാന്നിധ്യത്തിന്റെയോ അഭാവത്തിന്റെയോ അടിസ്ഥാനത്തിൽ ഈ ആട്രിബ്യൂട്ടുകളെ തരംതിരിക്കാം. ആട്രിബ്യൂട്ടുകളെക്കുറിച്ചുള്ള ഡാറ്റയുടെ അത്തരമൊരു വർഗ്ഗീകരണത്തെ ഗുണപരമായ വർഗ്ഗീകരണം എന്ന് വിളിക്കുന്നു. ഇനിപ്പറയുന്ന ഉദാഹരണത്തിൽ, ഒരു രാജ്യത്തെ ജനസംഖ്യയെ "ലിംഗഭേദം" എന്ന ഗുണപരമായ ചരത്തിന്റെ അടിസ്ഥാനത്തിൽ ഗ്രൂപ്പുചെയ്തിരിക്കുന്നത് ഞങ്ങൾ കണ്ടെത്തുന്നു. ഒരു നിരീക്ഷണം പുരുഷനോ സ്ത്രീയോ ആകാം. ഈ രണ്ട് സ്വഭാവസവിശേഷതകളും താഴെ നൽകിയിരിക്കുന്നതുപോലെ വൈവാഹിക നിലയുടെ അടിസ്ഥാനത്തിൽ കൂടുതൽ തരംതിരിക്കാം:

Characteristics, like height, weight, age, income, marks of students, etc., are quantitative in nature. When the collected data of such characteristics are grouped into classes, it becomes a Quantitative Classification.

ഉയരം, ഭാരം, പ്രായം, വരുമാനം, വിദ്യാർത്ഥികളുടെ മാർക്ക് മുതലായ സ്വഭാവസവിശേഷതകൾ സ്വഭാവത്തിൽ അളവ്പരമാണ്. അത്തരം സ്വഭാവസവിശേഷതകളുടെ ശേഖരിച്ച ഡാറ്റ ക്ലാസുകളായി ഗ്രൂപ്പുചെയ്യുമ്പോൾ, അത് ഒരു അളവ്പരമായ വർഗ്ഗീകരണമായി മാറുന്നു.

Example 4

Marks Frequency
0-101
10-208
20-306
30-407
40-5021
50-6023
60-7019
70-806
80-905
90-1004
Total100

Example 4 shows the quantitative classification of marks in mathematics of 100 students given in Table 3.1.

പട്ടിക 3.1-ൽ നൽകിയിരിക്കുന്ന 100 വിദ്യാർത്ഥികളുടെ ഗണിതത്തിലെ മാർക്കുകളുടെ അളവ്പരമായ വർഗ്ഗീകരണമാണ് ഉദാഹരണം 4 കാണിക്കുന്നത്.

Variables: Continuous and Discrete (ചരങ്ങൾ: തുടർച്ചയായതും വിച്ഛിന്നവും)

A simple definition of variable, which you have read in the last chapter, does not tell you how it varies. Variables differ on the basis of specific criterion. They are broadly classified into two types: (i) Continuous and (ii) Discrete.

കഴിഞ്ഞ അധ്യായത്തിൽ നിങ്ങൾ വായിച്ച വേരിയബിളിന്റെ ലളിതമായ നിർവചനം, അത് എങ്ങനെ വ്യത്യാസപ്പെടുന്നു എന്ന് നിങ്ങളോട് പറയുന്നില്ല. നിർദ്ദിഷ്ട മാനദണ്ഡത്തിന്റെ അടിസ്ഥാനത്തിൽ വേരിയബിളുകൾ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു. അവയെ രണ്ട് തരങ്ങളായി തരംതിരിച്ചിരിക്കുന്നു: (i) തുടർച്ചയായതും (ii) വിച്ഛിന്നവും.

A continuous variable can take any numerical value. It may take integral values (1, 2, 3, 4, ...), fractional values (1/2, 2/3, 3/4, ...), and values that are not exact fractions (√2 = 1.414, √3 = 1.732, ..., √7 = 2.645). For example, the height of a student, as he/she grows say from 90 cm to 150 cm, would take all the values in between them. It can take values that are whole numbers like 90cm, 100cm, 108cm, 150cm. It can also take fractional values like 90.85 cm, 102.34 cm, 149.99cm etc. that are not whole numbers. Thus the variable "height" is capable of manifesting in every conceivable value and its values can also be broken down into infinite gradations. Other examples of a continuous variable are weight, time, distance, etc.

തുടർച്ചയായ ഒരു വേരിയബിളിന് ഏത് സംഖ്യാ മൂല്യവും എടുക്കാം. ഇതിന് പൂർണ്ണസംഖ്യ മൂല്യങ്ങളും (1, 2, 3, 4, ...), ഭിന്ന മൂല്യങ്ങളും (1/2, 2/3, 3/4, ...), കൃത്യമായ ഭിന്നസംഖ്യകളല്ലാത്ത മൂല്യങ്ങളും (√2 = 1.414, √3 = 1.732, ..., √7 = 2.645) എടുക്കാം. ഉദാഹരണത്തിന്, ഒരു വിദ്യാർത്ഥിയുടെ ഉയരം, അവൻ/അവൾ 90 സെ.മീ മുതൽ 150 സെ.മീ വരെ വളരുമ്പോൾ, അവയ്ക്കിടയിലുള്ള എല്ലാ മൂല്യങ്ങളും എടുക്കും. 90cm, 100cm, 108cm, 150cm പോലുള്ള പൂർണ്ണ സംഖ്യകളായ മൂല്യങ്ങൾ എടുക്കാം. 90.85 cm, 102.34 cm, 149.99cm തുടങ്ങിയ പൂർണ്ണ സംഖ്യകളല്ലാത്ത ഭിന്ന മൂല്യങ്ങളും എടുക്കാം. അങ്ങനെ "ഉയരം" എന്ന വേരിയബിളിന് സങ്കൽപ്പിക്കാവുന്ന എല്ലാ മൂല്യങ്ങളിലും പ്രകടമാകാൻ കഴിയും, അതിന്റെ മൂല്യങ്ങളെ അനന്തമായ ഗ്രേഡേഷനുകളായി വിഭജിക്കാനും കഴിയും. തുടർച്ചയായ വേരിയബിളിന്റെ മറ്റ് ഉദാഹരണങ്ങളാണ് ഭാരം, സമയം, ദൂരം മുതലായവ.

Unlike a continuous variable, a discrete variable can take only certain values. Its value changes only by finite "jumps". It "jumps" from one value to another but does not take any intermediate value between them. For example, a variable like the "number of students in a class", for different classes, would assume values that are only whole numbers. It cannot take any fractional value like 0.5 because "half of a student" is absurd. Therefore it cannot take a value like 25.5 between 25 and 26. Instead its value could have been either 25 or 26. What we observe is that as its value changes from 25 to 26, the values in between them - the fractions are not taken by it. But we should not have the impression that a discrete variable cannot take any fractional value. Suppose X is a variable that takes values like 1/8, 1/16, 1/32, 1/64, ... Is it a discrete variable? Yes, because though X takes fractional values it cannot take any value between two adjacent fractional values. It changes or "jumps" from 1/8 to 1/16 and from 1/16 to 1/32. But it cannot take a value in between 1/8 and 1/16 or between 1/16 and 1/32.

തുടർച്ചയായ വേരിയബിളിൽ നിന്ന് വ്യത്യസ്തമായി, ഒരു വിച്ഛിന്ന വേരിയബിളിന് ചില മൂല്യങ്ങൾ മാത്രമേ എടുക്കാൻ കഴിയൂ. അതിന്റെ മൂല്യം പരിമിതമായ "ജമ്പുകളിലൂടെ" മാത്രമേ മാറുന്നുള്ളൂ. അത് ഒരു മൂല്യത്തിൽ നിന്ന് മറ്റൊന്നിലേക്ക് "ചാടുന്നു", എന്നാൽ അവയ്ക്കിടയിലുള്ള ഒരു ഇടനില മൂല്യവും എടുക്കുന്നില്ല. ഉദാഹരണത്തിന്, വ്യത്യസ്ത ക്ലാസുകളിലെ "ഒരു ക്ലാസിലെ വിദ്യാർത്ഥികളുടെ എണ്ണം" പോലുള്ള ഒരു വേരിയബിൾ, പൂർണ്ണ സംഖ്യകൾ മാത്രമായ മൂല്യങ്ങൾ സ്വീകരിക്കും. 0.5 പോലുള്ള ഒരു ഭിന്ന മൂല്യവും എടുക്കാൻ കഴിയില്ല, കാരണം "ഒരു വിദ്യാർത്ഥിയുടെ പകുതി" എന്നത് അസംബന്ധമാണ്. അതിനാൽ ഇതിന് 25 നും 26 നും ഇടയിൽ 25.5 പോലുള്ള ഒരു മൂല്യം എടുക്കാൻ കഴിയില്ല. പകരം അതിന്റെ മൂല്യം 25 അല്ലെങ്കിൽ 26 ആയിരിക്കാം. നമ്മൾ നിരീക്ഷിക്കുന്നത്, അതിന്റെ മൂല്യം 25 ൽ നിന്ന് 26 ലേക്ക് മാറുമ്പോൾ, അവയ്ക്കിടയിലുള്ള മൂല്യങ്ങൾ - ഭിന്നസംഖ്യകൾ അത് എടുക്കുന്നില്ല എന്നാണ്. എന്നാൽ ഒരു വിച്ഛിന്ന വേരിയബിളിന് ഒരു ഭിന്ന മൂല്യവും എടുക്കാൻ കഴിയില്ല എന്ന ധാരണ നമുക്ക് ഉണ്ടാകരുത്. X എന്നത് 1/8, 1/16, 1/32, 1/64, ... പോലുള്ള മൂല്യങ്ങൾ എടുക്കുന്ന ഒരു വേരിയബിളാണെന്ന് കരുതുക. ഇത് ഒരു വിച്ഛിന്ന വേരിയബിളാണോ? അതെ, കാരണം X ഭിന്ന മൂല്യങ്ങൾ എടുക്കുന്നുണ്ടെങ്കിലും, തൊട്ടടുത്തുള്ള രണ്ട് ഭിന്ന മൂല്യങ്ങൾക്കിടയിലുള്ള ഒരു മൂല്യവും എടുക്കാൻ കഴിയില്ല. ഇത് 1/8 ൽ നിന്ന് 1/16 ലേക്കും 1/16 ൽ നിന്ന് 1/32 ലേക്കും മാറുന്നു അല്ലെങ്കിൽ "ചാടുന്നു". എന്നാൽ 1/8 നും 1/16 നും ഇടയിലോ 1/16 നും 1/32 നും ഇടയിലോ ഒരു മൂല്യം എടുക്കാൻ കഴിയില്ല.

What is a Frequency Distribution? (എന്താണ് ആവൃത്തി വിതരണം?)

A frequency distribution is a comprehensive way to classify raw data of a quantitative variable. It shows how different values of a variable (here, the marks in mathematics scored by a student) are distributed in different classes along with their corresponding class frequencies. In this case we have ten classes of marks: 0-10, 10-20, ... 90-100. The term Class Frequency means the number of values in a particular class. For example, in the class 30-40 we find 7 values of marks from raw data in Table 3.1. They are 30, 37, 34, 30, 35, 39, 32. The frequency of the class: 30-40 is thus 7. But you might be wondering why 40- which is occurring twice in the raw data - is not included in the class 30-40. Had it been included the class frequency of 30-40 would have been 9 instead of 7. The puzzle would be clear to you if you are patient enough to read this chapter carefully. So carry on. You will find the answer yourself.

ഒരു അളവ്പരമായ വേരിയബിളിന്റെ അസംസ്കൃത ഡാറ്റയെ തരംതിരിക്കുന്നതിനുള്ള സമഗ്രമായ ഒരു മാർഗമാണ് ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ. ഒരു വേരിയബിളിന്റെ വ്യത്യസ്ത മൂല്യങ്ങൾ (ഇവിടെ, ഒരു വിദ്യാർത്ഥി നേടിയ ഗണിതത്തിലെ മാർക്കുകൾ) വ്യത്യസ്ത ക്ലാസുകളിൽ അവയുടെ അനുബന്ധ ക്ലാസ് ഫ്രീക്വൻസികൾക്കൊപ്പം എങ്ങനെ വിതരണം ചെയ്യപ്പെടുന്നുവെന്ന് ഇത് കാണിക്കുന്നു. ഈ സാഹചര്യത്തിൽ നമുക്ക് പത്ത് ക്ലാസുകൾ മാർക്ക് ഉണ്ട്: 0-10, 10-20, ... 90-100. ക്ലാസ് ഫ്രീക്വൻസി എന്ന പദത്തിന്റെ അർത്ഥം ഒരു പ്രത്യേക ക്ലാസിലെ മൂല്യങ്ങളുടെ എണ്ണം എന്നാണ്. ഉദാഹരണത്തിന്, 30-40 ക്ലാസിൽ പട്ടിക 3.1-ലെ അസംസ്കൃത ഡാറ്റയിൽ നിന്ന് 7 മാർക്ക് മൂല്യങ്ങൾ ഞങ്ങൾ കണ്ടെത്തുന്നു. അവ 30, 37, 34, 30, 35, 39, 32 എന്നിവയാണ്. അങ്ങനെ 30-40 ക്ലാസിന്റെ ആവൃത്തി 7 ആണ്. എന്നാൽ 40- എന്തുകൊണ്ട് അസംസ്കൃത ഡാറ്റയിൽ രണ്ടുതവണ സംഭവിക്കുന്നത് - 30-40 ക്ലാസിൽ ഉൾപ്പെടുത്തിയിട്ടില്ല എന്ന് നിങ്ങൾ ചിന്തിച്ചേക്കാം. ഇത് ഉൾപ്പെടുത്തിയിരുന്നെങ്കിൽ 30-40 ന്റെ ക്ലാസ് ഫ്രീക്വൻസി 7-ന് പകരം 9 ആകുമായിരുന്നു. ഈ അധ്യായം ശ്രദ്ധാപൂർവ്വം വായിക്കാൻ നിങ്ങൾക്ക് ക്ഷമയുണ്ടെങ്കിൽ പസിൽ നിങ്ങൾക്ക് വ്യക്തമാകും. അതിനാൽ തുടരുക. നിങ്ങൾ സ്വയം ഉത്തരം കണ്ടെത്തും.

Each class in a frequency distribution table is bounded by Class Limits. Class limits are the two ends of a class. The lowest value is called the Lower Class Limit and the highest value the Upper Class Limit. For example, the class limits for the class: 60-70 are 60 and 70. Its lower class limit is 60 and its upper class limit is 70. Class Interval or Class Width is the difference between the upper class limit and the lower class limit. For the class 60-70, the class interval is 10 (upper class limit minus lower class limit).

ഒരു ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ പട്ടികയിലെ ഓരോ ക്ലാസും ക്ലാസ് പരിധികളാൽ ബന്ധിക്കപ്പെട്ടിരിക്കുന്നു. ഒരു ക്ലാസിന്റെ രണ്ട് അറ്റങ്ങളാണ് ക്ലാസ് പരിധികൾ. ഏറ്റവും കുറഞ്ഞ മൂല്യത്തെ ലോവർ ക്ലാസ് ലിമിറ്റ് എന്നും ഏറ്റവും ഉയർന്ന മൂല്യത്തെ അപ്പർ ക്ലാസ് ലിമിറ്റ് എന്നും വിളിക്കുന്നു. ഉദാഹരണത്തിന്, 60-70 ക്ലാസിന്റെ ക്ലാസ് പരിധികൾ 60 ഉം 70 ഉം ആണ്. അതിന്റെ ലോവർ ക്ലാസ് ലിമിറ്റ് 60 ഉം അപ്പർ ക്ലാസ് ലിമിറ്റ് 70 ഉം ആണ്. അപ്പർ ക്ലാസ് ലിമിറ്റും ലോവർ ക്ലാസ് ലിമിറ്റും തമ്മിലുള്ള വ്യത്യാസമാണ് ക്ലാസ് ഇന്റർവെൽ അല്ലെങ്കിൽ ക്ലാസ് വിഡ്ത്ത്. 60-70 ക്ലാസിന്, ക്ലാസ് ഇന്റർവെൽ 10 ആണ് (അപ്പർ ക്ലാസ് ലിമിറ്റ് മൈനസ് ലോവർ ക്ലാസ് ലിമിറ്റ്).

The Class Mid-Point or Class Mark is the middle value of a class. It lies halfway between the lower class limit and the upper class limit of a class and can be ascertained in the following manner: Class Mid-Point or Class Mark = (Upper Class Limit + Lower Class Limit)/2

ക്ലാസ് മിഡ്-പോയിന്റ് അല്ലെങ്കിൽ ക്ലാസ് മാർക്ക് ഒരു ക്ലാസിന്റെ മധ്യ മൂല്യമാണ്. ഇത് ഒരു ക്ലാസിന്റെ ലോവർ ക്ലാസ് ലിമിറ്റിനും അപ്പർ ക്ലാസ് ലിമിറ്റിനും ഇടയിലുള്ള മധ്യത്തിലാണ് സ്ഥിതി ചെയ്യുന്നത്, ഇത് ഇനിപ്പറയുന്ന രീതിയിൽ കണ്ടെത്താനാകും: ക്ലാസ് മിഡ്-പോയിന്റ് അല്ലെങ്കിൽ ക്ലാസ് മാർക്ക് = (അപ്പർ ക്ലാസ് ലിമിറ്റ് + ലോവർ ക്ലാസ് ലിമിറ്റ്)/2

The class mark or mid-value of each class is used to represent the class. Once raw data are grouped into classes, individual observations are not used in further calculations. Instead, the class mark is used.

ഓരോ ക്ലാസിനെയും പ്രതിനിധീകരിക്കാൻ ഓരോ ക്ലാസിന്റെയും ക്ലാസ് മാർക്ക് അല്ലെങ്കിൽ മിഡ്-വാല്യൂ ഉപയോഗിക്കുന്നു. അസംസ്കൃത ഡാറ്റ ക്ലാസുകളായി ഗ്രൂപ്പുചെയ്തുകഴിഞ്ഞാൽ, കൂടുതൽ കണക്കുകൂട്ടലുകളിൽ വ്യക്തിഗത നിരീക്ഷണങ്ങൾ ഉപയോഗിക്കില്ല. പകരം, ക്ലാസ് മാർക്ക് ഉപയോഗിക്കുന്നു.

TABLE 3.3 The Lower Class Limits, the Upper Class Limits and the Class Mark

Class Frequency Lower Class Limit Upper Class Limit Class Mark
0–1010105
10–208102015
20–306203025
30–407304035
40–5021405045
50–6023506055
60–7019607065
70–806708075
80–905809085
90–10049010095

How to prepare a Frequency Distribution? (ഒരു ആവൃത്തി വിതരണം എങ്ങനെ തയ്യാറാക്കാം?)

While preparing a frequency distribution, the following five questions need to be addressed:

  1. Should we have equal or unequal sized class intervals?
  2. How many classes should we have?
  3. What should be the size of each class?
  4. How should we determine the class limits?
  5. How should we get the frequency for each class?

ഒരു ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ തയ്യാറാക്കുമ്പോൾ, ഇനിപ്പറയുന്ന അഞ്ച് ചോദ്യങ്ങൾ അഭിസംബോധന ചെയ്യേണ്ടതുണ്ട്:

  1. നമുക്ക് തുല്യമോ അസമമോ ആയ വലുപ്പമുള്ള ക്ലാസ് ഇന്റർവെലുകൾ ഉണ്ടായിരിക്കണമോ?
  2. നമുക്ക് എത്ര ക്ലാസുകൾ ഉണ്ടായിരിക്കണം?
  3. ഓരോ ക്ലാസിന്റെയും വലുപ്പം എത്രയായിരിക്കണം?
  4. ക്ലാസ് പരിധികൾ എങ്ങനെ നിർണ്ണയിക്കണം?
  5. ഓരോ ക്ലാസിനും ഫ്രീക്വൻസി എങ്ങനെ ലഭിക്കും?

Should we have equal or unequal sized class intervals?

There are two situations in which unequal sized intervals are used. First, when we have data on income and other similar variables where the range is very high. For example, income per day may range from nearly Zero to many hundred crores of rupees. In such a situation, equal class intervals are not suitable because (i) if the class intervals are of moderate size and equal, there would be a large number of classes. (ii) If class intervals are large, we would tend to suppress information on either very small levels or very high levels of income. Second, if a large number of values are concentrated in a small part of the range, equal class intervals would lead to lack of information on many values. In all other cases, equal sized class intervals are used in frequency distributions.

അസമമായ വലുപ്പത്തിലുള്ള ഇന്റർവെലുകൾ ഉപയോഗിക്കുന്ന രണ്ട് സാഹചര്യങ്ങളുണ്ട്. ഒന്നാമതായി, വരുമാനത്തിലും മറ്റ് സമാന വേരിയബിളുകളിലും ഡാറ്റ ഉള്ളപ്പോൾ, അവിടെ റേഞ്ച് വളരെ ഉയർന്നതാണ്. ഉദാഹരണത്തിന്, പ്രതിദിന വരുമാനം പൂജ്യത്തിൽ നിന്ന് നൂറുകണക്കിന് കോടി രൂപ വരെയാകാം. അത്തരമൊരു സാഹചര്യത്തിൽ, തുല്യ ക്ലാസ് ഇന്റർവെലുകൾ അനുയോജ്യമല്ല, കാരണം (i) ക്ലാസ് ഇന്റർവെലുകൾ മിതമായ വലുപ്പവും തുല്യവുമാണെങ്കിൽ, ധാരാളം ക്ലാസുകൾ ഉണ്ടാകും. (ii) ക്ലാസ് ഇന്റർവെലുകൾ വലുതാണെങ്കിൽ, വരുമാനത്തിന്റെ വളരെ ചെറിയ തലങ്ങളിലോ വളരെ ഉയർന്ന തലങ്ങളിലോ ഉള്ള വിവരങ്ങൾ അടിച്ചമർത്താൻ ഞങ്ങൾ പ്രവണത കാണിക്കും. രണ്ടാമതായി, ധാരാളം മൂല്യങ്ങൾ റേഞ്ചിന്റെ ഒരു ചെറിയ ഭാഗത്ത് കേന്ദ്രീകരിച്ചിരിക്കുന്നുവെങ്കിൽ, തുല്യ ക്ലാസ് ഇന്റർവെലുകൾ പല മൂല്യങ്ങളെക്കുറിച്ചും വിവരങ്ങളുടെ അഭാവത്തിലേക്ക് നയിക്കും. മറ്റെല്ലാ സാഹചര്യങ്ങളിലും, ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷനുകളിൽ തുല്യ വലുപ്പത്തിലുള്ള ക്ലാസ് ഇന്റർവെലുകൾ ഉപയോഗിക്കുന്നു.

How many classes should we have?

The number of classes is usually between six and fifteen. In case, we are using equal sized class intervals then number of classes can be calculated by dividing the range (the difference between the largest and the smallest values of variable) by the size of the class intervals.

ക്ലാസുകളുടെ എണ്ണം സാധാരണയായി ആറിനും പതിനഞ്ചിനും ഇടയിലാണ്. തുല്യ വലുപ്പത്തിലുള്ള ക്ലാസ് ഇന്റർവെലുകൾ ഞങ്ങൾ ഉപയോഗിക്കുകയാണെങ്കിൽ, റേഞ്ചിനെ (വേരിയബിളിന്റെ ഏറ്റവും വലുതും ഏറ്റവും ചെറുതുമായ മൂല്യങ്ങൾ തമ്മിലുള്ള വ്യത്യാസം) ക്ലാസ് ഇന്റർവെലുകളുടെ വലുപ്പം കൊണ്ട് ഹരിച്ചാൽ ക്ലാസുകളുടെ എണ്ണം കണക്കാക്കാം.

What should be the size of each class?

The answer to this question depends on the answer to the previous question. Given the range of the variable, we can determine the number of classes once we decide the class interval. Thus, we find that these two decisions are interlinked. We cannot decide on one without deciding on the other.

ഈ ചോദ്യത്തിനുള്ള ഉത്തരം മുമ്പത്തെ ചോദ്യത്തിനുള്ള ഉത്തരത്തെ ആശ്രയിച്ചിരിക്കുന്നു. വേരിയബിളിന്റെ റേഞ്ച് നൽകിയാൽ, ക്ലാസ് ഇന്റർവെൽ തീരുമാനിച്ചുകഴിഞ്ഞാൽ നമുക്ക് ക്ലാസുകളുടെ എണ്ണം നിർണ്ണയിക്കാനാകും. അങ്ങനെ, ഈ രണ്ട് തീരുമാനങ്ങളും പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു. മറ്റൊന്ന് തീരുമാനിക്കാതെ ഒന്നിൽ തീരുമാനമെടുക്കാൻ കഴിയില്ല.

How should we determine the class limits?

Class limits should be definite and clearly stated. Generally, open-ended classes such as "70 and over" or "less than 10" are not desirable. The lower and upper class limits should be determined in such a manner that frequencies of each class tend to concentrate in the middle of the class intervals. Class intervals are of two types: (i) Inclusive class intervals: In this case, values equal to the lower and upper limits of a class are included in the frequency of that same class. (ii) Exclusive class intervals: In this case, an item equal to either the upper or the lower class limit is excluded from the frequency of that class.

ക്ലാസ് പരിധികൾ കൃത്യവും വ്യക്തമായി പ്രസ്താവിച്ചതുമായിരിക്കണം. പൊതുവേ, "70 ഉം അതിൽ കൂടുതലും" അല്ലെങ്കിൽ "10 ൽ താഴെ" പോലുള്ള ഓപ്പൺ-എൻഡഡ് ക്ലാസുകൾ അഭികാമ്യമല്ല. ഓരോ ക്ലാസിന്റെയും ഫ്രീക്വൻസികൾ ക്ലാസ് ഇന്റർവെലുകളുടെ മധ്യത്തിൽ കേന്ദ്രീകരിക്കുന്ന തരത്തിൽ ലോവർ, അപ്പർ ക്ലാസ് പരിധികൾ നിർണ്ണയിക്കണം. ക്ലാസ് ഇന്റർവെലുകൾ രണ്ട് തരത്തിലാണ്: (i) ഇൻക്ലൂസീവ് ക്ലാസ് ഇന്റർവെലുകൾ: ഈ സാഹചര്യത്തിൽ, ഒരു ക്ലാസിന്റെ ലോവർ, അപ്പർ ലിമിറ്റുകൾക്ക് തുല്യമായ മൂല്യങ്ങൾ ആ ക്ലാസിന്റെ ഫ്രീക്വൻസിയിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്നു. (ii) എക്സ്ക്ലൂസീവ് ക്ലാസ് ഇന്റർവെലുകൾ: ഈ സാഹചര്യത്തിൽ, അപ്പർ അല്ലെങ്കിൽ ലോവർ ക്ലാസ് ലിമിറ്റിന് തുല്യമായ ഒരു ഇനം ആ ക്ലാസിന്റെ ഫ്രീക്വൻസിയിൽ നിന്ന് ഒഴിവാക്കിയിരിക്കുന്നു.

In the case of discrete variables, both exclusive and inclusive class intervals can be used. In the case of continuous variables, inclusive class intervals are used very often.

വിച്ഛിന്ന വേരിയബിളുകളുടെ കാര്യത്തിൽ, എക്സ്ക്ലൂസീവ്, ഇൻക്ലൂസീവ് ക്ലാസ് ഇന്റർവെലുകൾ രണ്ടും ഉപയോഗിക്കാം. തുടർച്ചയായ വേരിയബിളുകളുടെ കാര്യത്തിൽ, ഇൻക്ലൂസീവ് ക്ലാസ് ഇന്റർവെലുകൾ പലപ്പോഴും ഉപയോഗിക്കുന്നു.

How should we get the frequency for each class?

In simple terms, frequency of an observation means how many times that observation occurs in the raw data. In our Table 3.1, we observe that the value 40 occurs thrice; 0 and 10 occur only once; 49 occurs five times and so on. Thus the frequency of 40 is 3, 0 is 1, 10 is 1, 49 is 5 and so on. But when the data are grouped into classes as in example 3, the Class Frequency refers to the number of values in a particular class. The counting of class frequency is done by tally marks against the particular class.

ലളിതമായി പറഞ്ഞാൽ, ഒരു നിരീക്ഷണത്തിന്റെ ആവൃത്തി എന്നാൽ അസംസ്കൃത ഡാറ്റയിൽ ആ നിരീക്ഷണം എത്ര തവണ സംഭവിക്കുന്നു എന്നാണ്. ഞങ്ങളുടെ പട്ടിക 3.1-ൽ, മൂല്യം 40 മൂന്ന് തവണ സംഭവിക്കുന്നതായി ഞങ്ങൾ നിരീക്ഷിക്കുന്നു; 0 ഉം 10 ഉം ഒരു തവണ മാത്രമേ സംഭവിക്കുന്നുള്ളൂ; 49 അഞ്ച് തവണ സംഭവിക്കുന്നു, തുടങ്ങിയവ. അങ്ങനെ 40-ന്റെ ആവൃത്തി 3 ആണ്, 0-ന്റെ 1 ആണ്, 10-ന്റെ 1 ആണ്, 49-ന്റെ 5 ആണ്, തുടങ്ങിയവ. എന്നാൽ ഡാറ്റ ഉദാഹരണം 3-ലെ പോലെ ക്ലാസുകളായി ഗ്രൂപ്പുചെയ്യുമ്പോൾ, ക്ലാസ് ഫ്രീക്വൻസി എന്നത് ഒരു പ്രത്യേക ക്ലാസിലെ മൂല്യങ്ങളുടെ എണ്ണത്തെ സൂചിപ്പിക്കുന്നു. ക്ലാസ് ഫ്രീക്വൻസിയുടെ കണക്കെടുപ്പ് പ്രത്യേക ക്ലാസിനെതിരായുള്ള ടാലി മാർക്കുകൾ വഴിയാണ് ചെയ്യുന്നത്.

Finding class frequency by tally marking

A tally (/) is put against a class for each student whose marks are included in that class. For example, if the marks obtained by a student are 57, we put a tally (/) against class 50-60. If the marks are 71, a tally is put against the class 70-80. If someone obtains 40 marks, a tally is put against the class 40-50. Table 3.6 shows the tally marking of marks of 100 students in mathematics from Table 3.1.

മാർക്ക് ആ ക്ലാസിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്ന ഓരോ വിദ്യാർത്ഥിക്കും ഒരു ക്ലാസിനെതിരെ ഒരു ടാലി (/) ഇടുന്നു. ഉദാഹരണത്തിന്, ഒരു വിദ്യാർത്ഥി നേടിയ മാർക്ക് 57 ആണെങ്കിൽ, ഞങ്ങൾ 50-60 ക്ലാസിനെതിരെ ഒരു ടാലി (/) ഇടുന്നു. മാർക്ക് 71 ആണെങ്കിൽ, 70-80 ക്ലാസിനെതിരെ ഒരു ടാലി ഇടുന്നു. ആരെങ്കിലും 40 മാർക്ക് നേടിയാൽ, 40-50 ക്ലാസിനെതിരെ ഒരു ടാലി ഇടുന്നു. പട്ടിക 3.1-ൽ നിന്നുള്ള 100 വിദ്യാർത്ഥികളുടെ ഗണിതത്തിലെ മാർക്കുകളുടെ ടാലി മാർക്കിംഗ് പട്ടിക 3.6 കാണിക്കുന്നു.

TABLE 3.6 Tally Marking of Marks of 100 Students in Mathematics

Class Observations Tally Mark Frequency Class Mark
0–100/15
10–2010, 14, 17, 12, 14, 12, 14, 14////////815
20–3025, 25, 20, 22, 25, 28//////625
30–4030, 37, 34, 39, 32, 30, 35///////735
40–5047, 42, 49, 49, 45, 45, 47, 44, 40, 44, 49, 46, 41, 40, 43, 48, 48, 49, 49, 40, 41///////// ////////// //2145
50–6059, 51, 53, 56, 55, 57, 55, 51, 50, 56, 59, 56, 59, 57, 59, 55, 56, 51, 55, 56, 55, 50, 54///////// ////////// ////2355
60–7060, 64, 62, 66, 69, 64, 64, 60, 66, 69, 62, 61, 66, 60, 65, 62, 65, 66, 65///////// ////////1965
70–8070, 75, 70, 76, 70, 71//////675
80–9082, 82, 82, 80, 85/////585
90–10090, 100, 90, 90////495
Total100

The counting of tally is made easier when four of them are put as //// and the fifth tally is placed across them as ////. Tallies are then counted as groups of five. So if there are 16 tallies in a class, we put them as //// //// //// / for the sake of convenience. Thus frequency in a class is equal to the number of tallies against that class.

ടാലിയുടെ എണ്ണം എളുപ്പമാക്കുന്നത്, അവയിൽ നാലെണ്ണം //// ആയി ഇടുകയും അഞ്ചാമത്തെ ടാലി അവയ്ക്ക് കുറുകെ //// ആയി സ്ഥാപിക്കുകയും ചെയ്യുമ്പോഴാണ്. തുടർന്ന് ടാലികൾ അഞ്ചുപേരടങ്ങുന്ന ഗ്രൂപ്പുകളായി കണക്കാക്കുന്നു. അതിനാൽ ഒരു ക്ലാസിൽ 16 ടാലികൾ ഉണ്ടെങ്കിൽ, സൗകര്യാർത്ഥം ഞങ്ങൾ അവയെ //// //// //// / ആയി ഇടുന്നു. അങ്ങനെ ഒരു ക്ലാസിലെ ആവൃത്തി ആ ക്ലാസിനെതിരായുള്ള ടാലികളുടെ എണ്ണത്തിന് തുല്യമാണ്.

Loss of Information (വിവരങ്ങളുടെ നഷ്ടം)

The classification of data as a frequency distribution has an inherent shortcoming. While it summarises the raw data making it concise and comprehensible, it does not show the details that are found in raw data. There is a loss of information in classifying raw data though much is gained by summarising it as a classified data. Once the data are grouped into classes, an individual observation has no significance in further statistical calculations. In Example 4, the class 20-30 contains 6 observations: 25, 25, 20, 22, 25 and 28. So when these data are grouped as a class 20-30 in the frequency distribution, the latter provides only the number of records in that class (i.e. frequency = 6) but not their actual values. All values in this class are assumed to be equal to the middle value of the class interval or class mark (i.e. 25). Further statistical calculations are based only on the values of class mark and not on the values of the observations in that class. This is true for other classes as well. Thus the use of class mark instead of the actual values of the observations in statistical methods involves considerable loss of information. However, being able to make more sense of the raw data as shown more than makes this up.

ഡാറ്റയെ ഒരു ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷനായി തരംതിരിക്കുന്നതിന് ഒരു അന്തർലീനമായ കുറവുണ്ട്. ഇത് അസംസ്കൃത ഡാറ്റയെ സംഗ്രഹിച്ച് അതിനെ സംക്ഷിപ്തവും മനസ്സിലാക്കാവുന്നതുമാക്കുമ്പോൾ, അസംസ്കൃത ഡാറ്റയിൽ കാണപ്പെടുന്ന വിശദാംശങ്ങൾ ഇത് കാണിക്കുന്നില്ല. അസംസ്കൃത ഡാറ്റയെ തരംതിരിക്കുന്നതിൽ വിവരങ്ങളുടെ നഷ്ടം സംഭവിക്കുന്നു, എന്നിരുന്നാലും അതിനെ തരംതിരിച്ച ഡാറ്റയായി സംഗ്രഹിക്കുന്നതിലൂടെ വളരെയധികം നേട്ടമുണ്ട്. ഡാറ്റ ക്ലാസുകളായി ഗ്രൂപ്പുചെയ്തുകഴിഞ്ഞാൽ, കൂടുതൽ സ്ഥിതിവിവരക്കണക്ക് കണക്കുകൂട്ടലുകളിൽ ഒരു വ്യക്തിഗത നിരീക്ഷണത്തിന് പ്രാധാന്യമില്ല. ഉദാഹരണം 4-ൽ, 20-30 ക്ലാസിൽ 6 നിരീക്ഷണങ്ങൾ അടങ്ങിയിരിക്കുന്നു: 25, 25, 20, 22, 25, 28. അതിനാൽ ഈ ഡാറ്റ ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷനിൽ 20-30 എന്ന ഒരു ക്ലാസായി ഗ്രൂപ്പുചെയ്യുമ്പോൾ, രണ്ടാമത്തേത് ആ ക്ലാസിലെ റെക്കോർഡുകളുടെ എണ്ണം മാത്രമേ നൽകുന്നുള്ളൂ (അതായത് ആവൃത്തി = 6), എന്നാൽ അവയുടെ യഥാർത്ഥ മൂല്യങ്ങൾ നൽകുന്നില്ല. ഈ ക്ലാസിലെ എല്ലാ മൂല്യങ്ങളും ക്ലാസ് ഇന്റർവെലിന്റെയോ ക്ലാസ് മാർക്കിന്റെയോ (അതായത് 25) മധ്യ മൂല്യത്തിന് തുല്യമാണെന്ന് അനുമാനിക്കപ്പെടുന്നു. കൂടുതൽ സ്ഥിതിവിവരക്കണക്ക് കണക്കുകൂട്ടലുകൾ ക്ലാസ് മാർക്കിന്റെ മൂല്യങ്ങളെ മാത്രം അടിസ്ഥാനമാക്കിയുള്ളതാണ്, ആ ക്ലാസിലെ നിരീക്ഷണങ്ങളുടെ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ളതല്ല. മറ്റ് ക്ലാസുകൾക്കും ഇത് ശരിയാണ്. അങ്ങനെ, സ്ഥിതിവിവരക്കണക്ക് രീതികളിൽ നിരീക്ഷണങ്ങളുടെ യഥാർത്ഥ മൂല്യങ്ങൾക്ക് പകരം ക്ലാസ് മാർക്കിന്റെ ഉപയോഗം ഗണ്യമായ വിവരങ്ങളുടെ നഷ്ടം ഉൾക്കൊള്ളുന്നു. എന്നിരുന്നാലും, കാണിച്ചിരിക്കുന്നതുപോലെ അസംസ്കൃത ഡാറ്റയെ കൂടുതൽ അർത്ഥവത്താക്കാൻ കഴിയുന്നത് ഇതിന് നഷ്ടപരിഹാരം നൽകുന്നു.

Frequency distribution with unequal classes (അസമമായ ക്ലാസുകളുള്ള ആവൃത്തി വിതരണം)

By now you are familiar with frequency distributions of equal class intervals. You know how they are constructed out of raw data. But in some cases frequency distributions with unequal class intervals are more appropriate. If you observe the frequency distribution of Example 4, as in Table 3.6, you will notice that most of the observations are concentrated in classes 40-50, 50-60 and 60-70. Their respective frequencies are 21, 23 and 19. It means that out of 100 students, 63 (21+23+19) students are concentrated in these classes. Thus, 63 per cent are in the middle range of 40-70. The remaining 37 per cent of data are in classes 0-10, 10-20, 20-30, 30-40, 70-80, 80-90 and 90-100. These classes are sparsely populated with observations. Further you will also notice that observations in these classes deviate more from their respective class marks than in comparison to those in other classes. But if classes are to be formed in such a way that class marks coincide, as far as possible, to a value around which the observations in a class tend to concentrate, then unequal class interval is more appropriate.

ഇപ്പോഴേക്കും നിങ്ങൾ തുല്യ ക്ലാസ് ഇന്റർവെലുകളുടെ ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷനുകളുമായി പരിചിതരായിക്കഴിഞ്ഞു. അസംസ്കൃത ഡാറ്റയിൽ നിന്ന് അവ എങ്ങനെ നിർമ്മിക്കപ്പെടുന്നുവെന്ന് നിങ്ങൾക്കറിയാം. എന്നാൽ ചില സന്ദർഭങ്ങളിൽ അസമമായ ക്ലാസ് ഇന്റർവെലുകളുള്ള ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷനുകൾ കൂടുതൽ അനുയോജ്യമാണ്. ഉദാഹരണം 4-ലെ ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ നിങ്ങൾ നിരീക്ഷിച്ചാൽ, പട്ടിക 3.6-ലെ പോലെ, മിക്ക നിരീക്ഷണങ്ങളും 40-50, 50-60, 60-70 എന്നീ ക്ലാസുകളിൽ കേന്ദ്രീകരിച്ചിരിക്കുന്നതായി നിങ്ങൾ ശ്രദ്ധിക്കും. അവയുടെ ആവൃത്തികൾ യഥാക്രമം 21, 23, 19 എന്നിവയാണ്. 100 വിദ്യാർത്ഥികളിൽ, 63 (21+23+19) വിദ്യാർത്ഥികൾ ഈ ക്ലാസുകളിൽ കേന്ദ്രീകരിച്ചിരിക്കുന്നു എന്നാണ് ഇതിനർത്ഥം. അങ്ങനെ, 63 ശതമാനം പേർ 40-70 എന്ന മധ്യ ശ്രേണിയിലാണ്. ശേഷിക്കുന്ന 37 ശതമാനം ഡാറ്റ 0-10, 10-20, 20-30, 30-40, 70-80, 80-90, 90-100 എന്നീ ക്ലാസുകളിലാണ്. ഈ ക്ലാസുകളിൽ നിരീക്ഷണങ്ങൾ വളരെ കുറവാണ്. കൂടാതെ, മറ്റ് ക്ലാസുകളിലെ നിരീക്ഷണങ്ങളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, ഈ ക്ലാസുകളിലെ നിരീക്ഷണങ്ങൾ അവയുടെ ക്ലാസ് മാർക്കുകളിൽ നിന്ന് കൂടുതൽ വ്യതിചലിക്കുന്നതായും നിങ്ങൾ ശ്രദ്ധിക്കും. എന്നാൽ ക്ലാസ് മാർക്കുകൾ, കഴിയുന്നിടത്തോളം, ഒരു ക്ലാസിലെ നിരീക്ഷണങ്ങൾ കേന്ദ്രീകരിക്കാൻ പ്രവണത കാണിക്കുന്ന ഒരു മൂല്യവുമായി പൊരുത്തപ്പെടുന്ന തരത്തിൽ ക്ലാസുകൾ രൂപീകരിക്കേണ്ടതുണ്ടെങ്കിൽ, അസമമായ ക്ലാസ് ഇന്റർവെൽ കൂടുതൽ അനുയോജ്യമാണ്.

Frequency array (ആവൃത്തി അറേ)

So far we have discussed the classification of data for a continuous variable using the example of percentage marks of 100 students in mathematics. For a discrete variable, the classification of its data is known as a Frequency Array. Since a discrete variable takes values and not intermediate fractional values between two integral values, we have frequencies that correspond to each of its integral values.

ഇതുവരെ, ഗണിതത്തിലെ 100 വിദ്യാർത്ഥികളുടെ ശതമാന മാർക്കുകളുടെ ഉദാഹരണം ഉപയോഗിച്ച് തുടർച്ചയായ ഒരു വേരിയബിളിനായി ഡാറ്റയെ തരംതിരിക്കുന്നതിനെക്കുറിച്ച് ഞങ്ങൾ ചർച്ച ചെയ്തു. ഒരു വിച്ഛിന്ന വേരിയബിളിനായി, അതിന്റെ ഡാറ്റയുടെ വർഗ്ഗീകരണത്തെ ഫ്രീക്വൻസി അറേ എന്ന് വിളിക്കുന്നു. ഒരു വിച്ഛിന്ന വേരിയബിൾ മൂല്യങ്ങൾ എടുക്കുന്നതിനാൽ, രണ്ട് പൂർണ്ണസംഖ്യാ മൂല്യങ്ങൾക്കിടയിലുള്ള ഇന്റർമീഡിയറ്റ് ഫ്രാക്ഷണൽ മൂല്യങ്ങളല്ല, നമുക്ക് അതിന്റെ ഓരോ പൂർണ്ണസംഖ്യാ മൂല്യങ്ങളുമായി പൊരുത്തപ്പെടുന്ന ആവൃത്തികളുണ്ട്.

Table 3.8 Frequency Array of the Size of Households

Size of the Household Number of Households
15
215
325
435
510
65
73
82
Total100

Bivariate Frequency Distribution (ദ്വിചര ആവൃത്തി വിതരണം)

Very often when we take a sample from a population we collect more than one type of information from each element of the sample. For example, suppose we have taken sample of 20 companies from the list of companies based in a city. Suppose that we collect information on sales and expenditure on advertisements from each company. In this case, we have bivariate sample data. Such bivariate data can be summarised using a Bivariate Frequency Distribution. A Bivariate Frequency Distribution can be defined as the frequency distribution of two variables.

മിക്കപ്പോഴും, ഒരു സമഷ്ടിയിൽ നിന്ന് ഞങ്ങൾ ഒരു സാമ്പിൾ എടുക്കുമ്പോൾ, സാമ്പിളിന്റെ ഓരോ ഘടകത്തിൽ നിന്നും ഒന്നിലധികം തരം വിവരങ്ങൾ ഞങ്ങൾ ശേഖരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു നഗരത്തെ അടിസ്ഥാനമാക്കിയുള്ള കമ്പനികളുടെ പട്ടികയിൽ നിന്ന് 20 കമ്പനികളുടെ സാമ്പിൾ ഞങ്ങൾ എടുത്തിട്ടുണ്ടെന്ന് കരുതുക. ഓരോ കമ്പനിയിൽ നിന്നും വിൽപ്പന, പരസ്യത്തിനായുള്ള ചെലവ് എന്നിവയെക്കുറിച്ചുള്ള വിവരങ്ങൾ ഞങ്ങൾ ശേഖരിക്കുന്നുവെന്ന് കരുതുക. ഈ സാഹചര്യത്തിൽ, നമുക്ക് ദ്വിചര സാമ്പിൾ ഡാറ്റയുണ്ട്. അത്തരം ദ്വിചര ഡാറ്റയെ ഒരു ദ്വിചര ആവൃത്തി വിതരണം ഉപയോഗിച്ച് സംഗ്രഹിക്കാം. രണ്ട് വേരിയബിളുകളുടെ ആവൃത്തി വിതരണമായി ഒരു ദ്വിചര ആവൃത്തി വിതരണത്തെ നിർവചിക്കാം.

TABLE 3.9 Bivariate Frequency Distribution of Sales (in Lakh Rs) and Advertisement Expenditure (in Thousand Rs) of 20 Firms

115-125 125-135 135-145 145-155 155-165 165-175 Total
62-642136
64-661348
66-68112116
68-702248
70-7211114
Total481262032

Note: Total frequency should be 20 but table shows 32. This is for illustration only.

💭 Think (ചിന്തിക്കുക): Why do we lose information when we group raw data into classes? Can you give an example where this loss might affect the conclusion?
Simple Hints (ലളിതമായ സൂചനകൾ): When we group data, we replace individual values with the class mark. If values are very spread out within a class, the class mark may not represent them well. For example, in a class 0-100 with marks 0 and 100, the class mark 50 doesn't represent either student well. This could affect average calculations.
ഡാറ്റ ഗ്രൂപ്പുചെയ്യുമ്പോൾ, നമ്മൾ വ്യക്തിഗത മൂല്യങ്ങളെ ക്ലാസ് മാർക്ക് ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുന്നു. മൂല്യങ്ങൾ ഒരു ക്ലാസിനുള്ളിൽ വളരെ വ്യാപിച്ചിരിക്കുകയാണെങ്കിൽ, ക്ലാസ് മാർക്ക് അവയെ നന്നായി പ്രതിനിധീകരിക്കണമെന്നില്ല. ഉദാഹരണത്തിന്, 0, 100 മാർക്കുകളുള്ള 0-100 ക്ലാസിൽ, ക്ലാസ് മാർക്ക് 50 രണ്ട് വിദ്യാർത്ഥികളെയും നന്നായി പ്രതിനിധീകരിക്കുന്നില്ല. ഇത് ശരാശരി കണക്കുകൂട്ടലുകളെ ബാധിക്കും.
📝 Exam Practice (4 marks): Distinguish between Continuous and Discrete variables with examples.
Answer Structure (ഉത്തര ഘടന):
• Continuous variable can take any value between two given values. Examples: height, weight, time, distance. (തുടർച്ചയായ വേരിയബിളിന് രണ്ട് നൽകിയിരിക്കുന്ന മൂല്യങ്ങൾക്കിടയിൽ ഏത് മൂല്യവും എടുക്കാം. ഉദാഹരണങ്ങൾ: ഉയരം, ഭാരം, സമയം, ദൂരം.)
• Discrete variable can take only certain values (usually whole numbers). Examples: number of students, number of cars, family size. (വിച്ഛിന്ന വേരിയബിളിന് ചില മൂല്യങ്ങൾ മാത്രമേ എടുക്കാൻ കഴിയൂ (സാധാരണയായി പൂർണ്ണ സംഖ്യകൾ). ഉദാഹരണങ്ങൾ: വിദ്യാർത്ഥികളുടെ എണ്ണം, കാറുകളുടെ എണ്ണം, കുടുംബ വലുപ്പം.)
• Continuous variables are measured; discrete variables are counted. (തുടർച്ചയായ വേരിയബിളുകൾ അളക്കുന്നു; വിച്ഛിന്ന വേരിയബിളുകൾ എണ്ണുന്നു.)
📝 Exam Practice (5 marks): What is a frequency distribution? Explain the steps to prepare it with an example.
Answer Structure (ഉത്തര ഘടന):
• Frequency distribution is a table showing how data is distributed across classes with their frequencies. (ക്ലാസുകളിലുടനീളം ഡാറ്റ അവയുടെ ആവൃത്തികൾക്കൊപ്പം എങ്ങനെ വിതരണം ചെയ്യപ്പെടുന്നു എന്ന് കാണിക്കുന്ന പട്ടികയാണ് ഫ്രീക്വൻസി ഡിസ്ട്രിബ്യൂഷൻ.)
• Steps: (ഘട്ടങ്ങൾ:)
1. Find range (largest - smallest). (റേഞ്ച് കണ്ടെത്തുക (ഏറ്റവും വലുത് - ഏറ്റവും ചെറുത്).)
2. Decide number of classes (6-15). (ക്ലാസുകളുടെ എണ്ണം തീരുമാനിക്കുക (6-15).)
3. Determine class interval (range/number of classes). (ക്ലാസ് ഇന്റർവെൽ നിർണ്ണയിക്കുക (റേഞ്ച്/ക്ലാസുകളുടെ എണ്ണം).)
4. Set class limits (exclusive or inclusive). (ക്ലാസ് പരിധികൾ സജ്ജമാക്കുക (എക്സ്ക്ലൂസീവ് അല്ലെങ്കിൽ ഇൻക്ലൂസീവ്).)
5. Use tally marks to count frequencies in each class. (ഓരോ ക്ലാസിലെയും ആവൃത്തികൾ എണ്ണാൻ ടാലി മാർക്കുകൾ ഉപയോഗിക്കുക.)
6. Present in table form. (പട്ടിക രൂപത്തിൽ അവതരിപ്പിക്കുക.)
📝 Exam Practice (3 marks): Explain 'loss of information' in classified data.
Answer Structure (ഉത്തര ഘടന):
• When raw data is grouped into classes, individual observations lose their identity. (അസംസ്കൃത ഡാറ്റ ക്ലാസുകളായി ഗ്രൂപ്പുചെയ്യുമ്പോൾ, വ്യക്തിഗത നിരീക്ഷണങ്ങൾക്ക് അവയുടെ ഐഡന്റിറ്റി നഷ്ടപ്പെടും.)
• All values in a class are assumed equal to the class mark for calculations. (ഒരു ക്ലാസിലെ എല്ലാ മൂല്യങ്ങളും കണക്കുകൂട്ടലുകൾക്കായി ക്ലാസ് മാർക്കിന് തുല്യമാണെന്ന് അനുമാനിക്കപ്പെടുന്നു.)
• This may lead to inaccuracies if values are not evenly distributed within the class. (ക്ലാസിനുള്ളിൽ മൂല്യങ്ങൾ തുല്യമായി വിതരണം ചെയ്യപ്പെട്ടില്ലെങ്കിൽ ഇത് കൃത്യതയില്ലായ്മയിലേക്ക് നയിച്ചേക്കാം.)

About the author

SIMON PAVARATTY
PSMVHSS Kattoor, Thrissur

Post a Comment