Muestreo y estimación

Se usa una muestra de datos, o un subconjunto de una población más grande, para ayudar a comprender el comportamiento y las características de toda la población. En el mundo de la inversión, por ejemplo, todos los promedios bursátiles familiares son muestras diseñadas para representar al mercado de valores en general e indicar su rendimiento. Para el mercado bursátil nacional que cotiza en bolsa, poblado con al menos 10, 000 o más compañías, el Dow Jones Industrial Average (DJIA) tiene solo 30 representantes; el S & P 500 tiene 500. Sin embargo, estas muestras se toman como indicadores válidos de la población en general. Es importante comprender la mecánica del muestreo y la estimación, particularmente cuando se aplican a variables financieras, y tener la idea de criticar la calidad de la investigación derivada de los esfuerzos de muestreo.
CONCEPTOS BÁSICOS
Muestreo aleatorio simple

Para comenzar el proceso de extraer muestras de una población mayor, un analista debe elaborar un plan de muestreo , que indique exactamente cómo se seleccionó la muestra. Con una gran población, diferentes muestras arrojarán resultados diferentes, y la idea es crear un enfoque consistente e imparcial. El muestreo aleatorio simple es el enfoque más básico del problema. Dibuja una muestra representativa con el principio de que cada miembro de la población debe tener las mismas posibilidades de ser seleccionado. La clave del muestreo aleatorio simple es garantizar la aleatoriedad al dibujar la muestra. Este requisito se logra de varias maneras, de la manera más rigurosa, primero codificando a cada miembro de la población con un número, y luego usando un generador de números aleatorios para elegir un subconjunto.
A veces no es práctico o imposible etiquetar a cada miembro de una población completa, en cuyo caso se utilizan métodos de muestreo sistemáticos. Por ejemplo, consideremos un caso en el que quisiéramos investigar si las compañías del S & P 500 estaban agregando o despidiendo empleados, pero no teníamos el tiempo ni los recursos para contactar a los 500 departamentos de recursos humanos. Tenemos el tiempo y los recursos para un estudio en profundidad de una muestra de 25 empresas. Un enfoque de muestreo sistemático sería tomar una lista alfabética del S & P 500 y ponerse en contacto con cada 25 th compañía en la lista, i. mi. compañías # 25, # 50, # 75, etc., hasta # 500. De esta forma, terminamos con 25 compañías y se realizó bajo un sistema que es aproximadamente aleatorio y no favoreció a una compañía o industria en particular.
Error de muestreo
Supongamos que encuestamos a nuestras 25 compañías y llegamos a la conclusión de que la firma típica del S & P 500 agregará aproximadamente un 5% a su fuerza de trabajo este año fiscal y, como resultado, somos optimistas acerca de la salud de la economía Sin embargo, las noticias diarias siguen indicando una cantidad considerable de despidos en algunas empresas y congelaciones de contratación en otras empresas, y nos preguntamos si esta investigación realmente ha hecho su trabajo.En otras palabras, sospechamos un error de muestreo: la diferencia entre la estadística de nuestra muestra (5% de crecimiento del empleo) y el parámetro de la población que estábamos estimando (crecimiento real del empleo).
Distribución de muestreo
Una distribución de muestreo es análoga a una distribución de población: describe el rango de todos los valores posibles que puede tomar la estadística de muestreo. En la evaluación de la calidad de una muestra, el enfoque generalmente implica comparar la distribución de muestreo con la distribución de la población. Esperamos que la distribución de muestreo sea un patrón similar a la distribución de la población; es decir, si una población se distribuye normalmente, la muestra también debe distribuirse normalmente. Si la muestra está sesgada cuando esperábamos un patrón normal con la mayoría de las observaciones centradas en la media, indica posibles problemas con la muestra y / o la metodología.
Muestreo aleatorio estratificado.
En un enfoque aleatorio estratificado, una población primero se divide en subpoblaciones o estratos, según uno o más criterios de clasificación. Dentro de cada estrato, se toma una muestra aleatoria simple de esos miembros (los miembros de la subpoblación). El número a muestrear de cada estrato depende de su tamaño relativo a la población, es decir, si un sistema de clasificación resulta en tres subgrupos o estratos, y el Grupo A tiene el 50% de la población, y el Grupo B y el Grupo C tienen un 25% cada uno, la muestra que dibujamos debe ajustarse a los mismos tamaños relativos (la mitad de la muestra de A, un cuarto de B y C). Las muestras tomadas de cada estrato se agrupan para formar la muestra global.
La tabla a continuación ilustra un enfoque estratificado para mejorar nuestra investigación económica sobre las expectativas actuales de contratación. En nuestro enfoque anterior que se extrajo al azar de todas las 500 empresas, es posible que accidentalmente nos hayamos desplazado demasiado de un sector que lo estaba haciendo bien y que no representaba lo suficiente en otras áreas. En el muestreo aleatorio estratificado, cada una de las 500 empresas del índice S & P 500 está asignada a uno de los 12 sectores. Por lo tanto, tenemos 12 estratos, y nuestra muestra de 25 empresas se basa en el diseño de cada uno de los 12 estratos, en proporciones relativas a los pesos de la industria dentro del índice. Las ponderaciones de S & P están diseñadas para replicar la economía doméstica, razón por la cual los servicios financieros y la atención de la salud (que son sectores relativamente más importantes en la economía actual) tienen más peso que los servicios públicos. Dentro de cada sector, se utiliza un enfoque aleatorio; por ejemplo, si hay 120 compañías de servicios financieros y necesitamos cinco compañías financieras para nuestro estudio de investigación, esas cinco se seleccionarían mediante un sorteo al azar o mediante un enfoque sistemático (es decir, cada 24 horas). th compañía en una lista alfabética del subgrupo).

Sector Porcentaje de
S & P 500
Empresas por muestra Sector Porcentaje de S & P 500 Empresas por muestra
Business Svcs > 3. 8% 1 Atención médica 13. 6% 4 Bienes de consumo
9. 4% 2 Idstrl Mtls. 12.7% 3 Consumer Svcs
8. 2% 2 Medios 3. 7% 1 Energía
8. 5% 2 Software 3. 9% 1 Financial Svcs
20. 1% 5 Telecomm 3. 2% 1 Hardware
9. 4% 2 Utilidades 3. 4% 1
Datos de la serie de tiempo


La fecha de la serie de tiempo se refiere a una variable tomada durante períodos de tiempo discretos, igualmente espaciados. La característica distintiva de una serie temporal es que se basa en la historia para mostrar cómo ha cambiado una variable. Los ejemplos comunes incluyen los rendimientos trimestrales históricos de una acción o fondo mutuo de los últimos cinco años, las ganancias por acción de una acción cada trimestre durante los últimos diez años o las fluctuaciones en la relación de mercado a libro en una acción durante un período de 20 años . En todos los casos, se examinan los períodos pasados.
Datos transversales
Los datos de la sección transversal generalmente se enfocan en un período de tiempo y miden una variable particular en varias compañías o industrias. Un estudio transversal podría centrarse en los rendimientos trimestrales de todos los fondos mutuos de gran capitalización en el primer trimestre de 2005, o las estimaciones de ganancias por acción de este trimestre para todas las empresas farmacéuticas o las diferencias en la relación actual de mercado a libro para las 100 empresas más grandes negociadas en la Bolsa de Nueva York. Podemos ver que las variables reales que se examinan pueden ser similares a un análisis de series de tiempo, con la diferencia de que un único período de tiempo es el foco, y varias compañías, fondos, etc. están involucrados en el estudio. El ejemplo anterior de analizar los planes de contratación en las compañías S & P 500 es un buen ejemplo de investigación transversal.
El teorema del límite central
El
teorema del límite central establece que, para una distribución de la población con media = μ y una variación finita σ 2 , la distribución muestral asumirá tres características importantes a medida que el tamaño de la muestra se vuelve grande:

La media de la muestra será aproximadamente de distribución normal.
  1. La media de la muestra será igual a la media de la población (μ).
  2. La varianza muestral será igual a la varianza poblacional (σ
  3. 2 ) dividida por el tamaño de la muestra (n). La primera suposición, que la distribución de la muestra será normal, se mantiene independientemente de la distribución de la población subyacente. Por lo tanto, el teorema del límite central puede ayudar a hacer estimaciones de probabilidad para una muestra de una población no normal (por ejemplo, sesgada, lognormal), basándose en el hecho de que la media de la muestra para tamaños de muestra grandes será una distribución normal. Esta tendencia hacia series normalmente distribuidas para muestras grandes da al teorema del límite central su atributo más poderoso. La suposición de la normalidad permite que las muestras se usen para construir intervalos de confianza y para probar hipótesis, como veremos cuando cubrimos esos temas.

¿Exactamente qué tan grande es grande en términos de crear una muestra grande? Recuerde el número 30. De acuerdo con el texto de referencia, ese es el número mínimo que debe ser una muestra antes de que podamos asumir que se distribuye normalmente. No se sorprenda si una pregunta pregunta qué tan grande debe ser una muestra, ¿deberían ser 20, 30, 40 o 50?Es una manera fácil de evaluar si ha leído el libro de texto, y si recuerda el 30, obtiene una respuesta correcta y fácil.
Error estándar
El error estándar es la desviación estándar de la estadística de muestra. Anteriormente, indicamos que la varianza de la muestra es la varianza de la población dividida por n (tamaño de la muestra). La fórmula para el error estándar se obtuvo tomando la raíz cuadrada positiva de la varianza.
Si se proporciona la desviación estándar de la población, el error estándar se calcula mediante esta relación: desviación estándar de la población / raíz cuadrada del tamaño de la muestra, o σ / (n)
1/2 . Si se desconoce la desviación estándar de la población, se utiliza la (s) desviación estándar (s) de la muestra para estimarla, y el error estándar = s / (n) 1/2 . Tenga en cuenta que "n" en el denominador significa que el error estándar se reduce a medida que el tamaño de la muestra se hace más grande, una propiedad importante para recordar. Parámetros de población de estimación de puntos frente a intervalo de confianza
Una estimación de puntos es un valor particular que se utiliza para estimar el parámetro de población subyacente. Por ejemplo, la media muestral es esencialmente una estimación puntual de una media poblacional. Sin embargo, debido a la presencia de un error de muestreo, a veces es más útil comenzar con esta estimación puntual, y luego establecer un rango de valores tanto por encima como por debajo de la estimación puntual. Luego, al usar la característica de números de probabilidad de las variables normalmente distribuidas, podemos establecer el nivel de confianza que tenemos de que la media real de la población caerá en algún lugar de nuestro rango. Este proceso se conoce como "construir un intervalo de confianza".
El nivel de confianza que queremos establecer está dado por el número α, o alfa, que es la probabilidad de que una estimación puntual no caiga en un rango de confianza. Cuanto más bajo sea el alfa, más confiamos en que queremos ser - e. gramo. alfa del 5% indica que queremos tener un 95% de confianza; 1% de alfa indica 99% de confianza.
Propiedades de un estimador
Las tres propiedades deseables de un estimador son que son imparciales, eficientes y consistentes:
Imparcial: el valor esperado (media) de la distribución de muestreo de la estimación es igual al parámetro de población subyacente ; es decir, no hay sesgo hacia arriba o hacia abajo.

  1. Eficiencia: si bien hay muchos estimadores insesgados del mismo parámetro, el más eficiente tiene una distribución de muestreo con la varianza más pequeña.
  2. Consistencia: los tamaños de muestra más grandes tienden a producir estimaciones más precisas; es decir, el parámetro de muestra converge en el parámetro de población.
  3. Construyendo Intervalos de Confianza

La estructura general para un intervalo de confianza (1 -) está dada por:
Fórmula 2. 33

Donde: el factor de confiabilidad aumenta como una función de un nivel de confianza creciente.

En otras palabras, si queremos tener un 99% de confianza de que un parámetro estará dentro de un rango, necesitamos hacer ese intervalo más amplio de lo que lo haríamos si quisiéramos tener solo un 90% de confianza. Los factores de fiabilidad reales utilizados se derivan de la distribución normal estándar, o valor Z, a probabilidades de alfa / 2, ya que el intervalo es de dos colas, o por encima y por debajo de un punto.
Grados de libertad

Los grados de libertad se usan para determinar la porción del factor de confiabilidad del intervalo de confianza con la distribución t. Al encontrar la varianza muestral, para cualquier tamaño de muestra n, grados de libertad = n -
1. Por lo tanto, para un tamaño de muestra de 8, los grados de libertad son 7. Para un tamaño de muestra de 58, los grados de libertad son 57. El concepto de grados de libertad se toma del hecho de que una varianza muestral se basa en una serie de observaciones. no todos pueden seleccionarse independientemente si queremos llegar al parámetro verdadero. Una observación esencialmente depende de todas las otras observaciones. En otras palabras, si el tamaño de la muestra es 58, piense en esa muestra de 58 en dos partes: (a) 57 observaciones independientes y (b) una observación dependiente, en la cual el valor es esencialmente un número residual basado en las otras observaciones. Tomados en conjunto, tenemos nuestras estimaciones de media y varianza. Si los grados de libertad son 57, significa que seríamos "libres" para elegir 57 observaciones (es decir, tamaño de muestra - 1), ya que siempre hay ese valor 58
th que dará como resultado una muestra particular significa para todo el grupo. La característica de la distribución t es que los grados de libertad adicionales reducen el rango del intervalo de confianza y producen una estimación más confiable. Se aumentan los grados de libertad al aumentar el tamaño de la muestra. Para tamaños de muestra más grandes, el uso de la estadística z es una alternativa aceptable a la distribución t; esto es cierto ya que la estadística z se basa en la distribución normal estándar, y la distribución t se acerca al normal estándar a una mayor grados de libertad.
Distribución t de Student
La distribución t de Student es una serie de distribuciones simétricas, cada distribución definida por sus grados de libertad. Todas las distribuciones t tienen una forma similar a una distribución normal estándar, excepto que, en comparación con una curva normal estándar, las distribuciones t son menos puntiagudas y tienen colas más gruesas. Con cada aumento en grados de libertad, cambian dos propiedades: (1) el máximo de la distribución aumenta (es decir, la probabilidad de que la estimación esté más cerca de la media aumenta), y (2) las colas (en otras palabras, las partes del curva muy lejos de la estimación media) acercarse a cero más rápidamente - i. mi. hay una probabilidad reducida de valores extremos a medida que aumentamos los grados de libertad. A medida que los grados de libertad se vuelven muy grandes, a medida que se aproximan al infinito, la distribución t se aproxima a la distribución normal estándar.
Figura 2. 12: Distribución t de Student