·      A principal component is a normalized linear combination of the original predictors in a data set.

 

·      First principal component (Z¹) is a linear combination of original predictor variables which captures the maximum variance in the data set.

 

·      Second principal component (Z²) is also a linear combination of original predictors which captures the remaining variance in the data set and is uncorrelated with Z¹.

 

·      If the two components are uncorrelated, their directions should be orthogonal.

 

 

 

 

PCA 1: Census variables

 

summary statistics

 n obs: 5265

 n variables: 92

 

── Variable type:numeric ─────────────────────────────────────────────────────────────────────────────────────────────────────────

       variable missing complete    n     mean      sd p0  p25  p50  p75  p100     hist

 est_B01001_001       0     5265 5265 5119.93  2956.76  0 3264 4676 6356 61133 ▇▁▁▁▁▁▁▁

 est_B01001_003       0     5265 5265  191.2    160.17  0   90  155  251  3057 ▇▁▁▁▁▁▁▁

 est_B01001_020       0     5265 5265   42.77    37.65  0   16   34   60   348 ▇▃▁▁▁▁▁▁

 est_B01001_021       0     5265 5265   53.76    45.11  0   21   43   75   416 ▇▃▁▁▁▁▁▁

 est_B01001_022       0     5265 5265   66       53.58  0   29   54   89   619 ▇▃▁▁▁▁▁▁

 est_B01001_023       0     5265 5265   44.89    40.67  0   16   36   63   575 ▇▂▁▁▁▁▁▁

 est_B01001_024       0     5265 5265   29.86    31.62  0    8   22   42   426 ▇▂▁▁▁▁▁▁

 est_B01001_025       0     5265 5265   23       27.63  0    0   15   33   232 ▇▂▁▁▁▁▁▁

 est_B01001_027       0     5265 5265  183.1    155.2   0   83  148  240  2663 ▇▁▁▁▁▁▁▁

 est_B01001_044       0     5265 5265   46.74    39.76  0   18   38   65   401 ▇▃▁▁▁▁▁▁

 est_B01001_045       0     5265 5265   60.52    48.11  0   26   50   83   423 ▇▅▂▁▁▁▁▁

 est_B01001_046       0     5265 5265   77.53    58.24  0   37   65  105   610 ▇▅▁▁▁▁▁▁

 est_B01001_047       0     5265 5265   56.88    47.76  0   23   47   78   528 ▇▃▁▁▁▁▁▁

 est_B01001_048       0     5265 5265   42.31    39.22  0   15   32   59   389 ▇▃▁▁▁▁▁▁

 est_B01001_049       0     5265 5265   43.9     46.82  0   12   31   61   497 ▇▂▁▁▁▁▁▁

 est_B01003_001       0     5265 5265 5119.93  2956.76  0 3264 4676 6356 61133 ▇▁▁▁▁▁▁▁

 est_B03002_001       0     5265 5265 5119.93  2956.76  0 3264 4676 6356 61133 ▇▁▁▁▁▁▁▁

 est_B03002_003       0     5265 5265 2223.3   1973.95  0  732 1797 3188 28569 ▇▂▁▁▁▁▁▁

 est_B08301_001       0     5265 5265 2324.32  1446.52  0 1393 2083 2947 26863 ▇▂▁▁▁▁▁▁

 est_B08301_010       0     5265 5265   35.88    62.68  0    0   10   46  1057 ▇▁▁▁▁▁▁▁

 est_B09002_001       0     5265 5265 1174.52   922.42  0  617  987 1484 20953 ▇▁▁▁▁▁▁▁

 est_B09002_009       0     5265 5265   73.95    84.03  0   16   48  105  1147 ▇▁▁▁▁▁▁▁

 est_B09002_015       0     5265 5265  286.45   251.9   0  104  219  396  2550 ▇▃▁▁▁▁▁▁

 est_B09019_001       0     5265 5265 5119.93  2956.76  0 3264 4676 6356 61133 ▇▁▁▁▁▁▁▁

 est_B09019_038       0     5265 5265  114.17   520.74  0    0    0   44  9327 ▇▁▁▁▁▁▁▁

 est_B15003_001       0     5265 5265 3245.04  1816.31  0 2091 2996 4046 36218 ▇▂▁▁▁▁▁▁

 est_B15003_002       0     5265 5265   63.4     70.98  0   14   40   88   744 ▇▂▁▁▁▁▁▁

 est_B15003_003       0     5265 5265    0.64     4.02  0    0    0    0    93 ▇▁▁▁▁▁▁▁

 est_B15003_004       0     5265 5265    0.84     4.75  0    0    0    0   109 ▇▁▁▁▁▁▁▁

 est_B15003_005       0     5265 5265    3.99    12.61  0    0    0    0   183 ▇▁▁▁▁▁▁▁

 est_B15003_006       0     5265 5265    9.96    21.82  0    0    0   10   242 ▇▁▁▁▁▁▁▁

 est_B15003_007       0     5265 5265   20.67    36.34  0    0    0   27   366 ▇▁▁▁▁▁▁▁

 est_B15003_008       0     5265 5265   13.1     25.51  0    0    0   16   222 ▇▁▁▁▁▁▁▁

 est_B15003_009       0     5265 5265   19.93    33.67  0    0    4   28   332 ▇▁▁▁▁▁▁▁

 est_B15003_010       0     5265 5265   83.91   114.74  0    5   39  113  1005 ▇▂▁▁▁▁▁▁

 est_B15003_011       0     5265 5265   23.78    34.11  0    0   11   35   310 ▇▂▁▁▁▁▁▁

 est_B15003_012       0     5265 5265   48.44    56.54  0    7   32   69   631 ▇▂▁▁▁▁▁▁

 est_B15003_013       0     5265 5265   86.37   101.16  0   16   54  119  1085 ▇▂▁▁▁▁▁▁

 est_B15003_014       0     5265 5265   66.7     65.6   0   18   49   97   561 ▇▃▁▁▁▁▁▁

 est_B15003_015       0     5265 5265   75.86    73.46  0   21   58  108   808 ▇▂▁▁▁▁▁▁

 est_B15003_016       0     5265 5265   55.25    51.87  0   19   42   78   571 ▇▂▁▁▁▁▁▁

 est_B16004_001       0     5265 5265 4745.63  2707.03  0 3037 4344 5897 55413 ▇▁▁▁▁▁▁▁

 est_B16004_007       0     5265 5265   20.54    41.08  0    0    0   24   515 ▇▁▁▁▁▁▁▁

 est_B16004_008       0     5265 5265    4.73    15.76  0    0    0    0   194 ▇▁▁▁▁▁▁▁

 est_B16004_012       0     5265 5265    0.43     3.76  0    0    0    0   108 ▇▁▁▁▁▁▁▁

 est_B16004_013       0     5265 5265    0.054    1.31  0    0    0    0    57 ▇▁▁▁▁▁▁▁

 est_B16004_017       0     5265 5265    1.47     8.4   0    0    0    0   204 ▇▁▁▁▁▁▁▁

 est_B16004_018       0     5265 5265    0.18     3.25  0    0    0    0   175 ▇▁▁▁▁▁▁▁

 est_B16004_022       0     5265 5265    0.55    10.23  0    0    0    0   593 ▇▁▁▁▁▁▁▁

 est_B16004_023       0     5265 5265    0.072    1.78  0    0    0    0    99 ▇▁▁▁▁▁▁▁

 est_B16004_029       0     5265 5265  160.63   218.1   0   17   80  223  2856 ▇▁▁▁▁▁▁▁

 est_B16004_030       0     5265 5265   96.99   179.04  0    0   24  113  2226 ▇▁▁▁▁▁▁▁

 est_B16004_034       0     5265 5265    4.28    17.29  0    0    0    0   390 ▇▁▁▁▁▁▁▁

 est_B16004_035       0     5265 5265    0.89     7.24  0    0    0    0   199 ▇▁▁▁▁▁▁▁

 est_B16004_039       0     5265 5265   14.37    40.72  0    0    0   11   591 ▇▁▁▁▁▁▁▁

 est_B16004_040       0     5265 5265    3.09    16.56  0    0    0    0   400 ▇▁▁▁▁▁▁▁

 est_B16004_044       0     5265 5265    2.08    11.57  0    0    0    0   388 ▇▁▁▁▁▁▁▁

 est_B16004_045       0     5265 5265    0.57     5.48  0    0    0    0   185 ▇▁▁▁▁▁▁▁

 est_B16004_051       0     5265 5265   21.33    38.77  0    0    0   27   374 ▇▁▁▁▁▁▁▁

 est_B16004_052       0     5265 5265   25.76    60.49  0    0    0   23   899 ▇▁▁▁▁▁▁▁

 est_B16004_056       0     5265 5265    1.54     8.15  0    0    0    0   175 ▇▁▁▁▁▁▁▁

 est_B16004_057       0     5265 5265    0.76     5.51  0    0    0    0   151 ▇▁▁▁▁▁▁▁

 est_B16004_061       0     5265 5265    4.09    15.65  0    0    0    0   299 ▇▁▁▁▁▁▁▁

 est_B16004_062       0     5265 5265    2.25    11.43  0    0    0    0   236 ▇▁▁▁▁▁▁▁

 est_B16004_066       0     5265 5265    0.37     3.26  0    0    0    0    71 ▇▁▁▁▁▁▁▁

 est_B16004_067       0     5265 5265    0.18     2.63  0    0    0    0   107 ▇▁▁▁▁▁▁▁

 est_B17017_001       0     5265 5265 1764.4    953.45  0 1143 1640 2220 17762 ▇▂▁▁▁▁▁▁

 est_B17017_002       0     5265 5265  267.22   206.39  0  119  223  364  2041 ▇▅▁▁▁▁▁▁

 est_B17021_001       0     5265 5265 5001.71  2960.33  0 3169 4559 6233 60942 ▇▁▁▁▁▁▁▁

 est_B17021_002       0     5265 5265  835.2    719.56  0  331  642 1137  9075 ▇▂▁▁▁▁▁▁

 est_B23025_002       0     5265 5265 2528.45  1545.69  0 1540 2275 3188 28725 ▇▂▁▁▁▁▁▁

 est_B23025_005       0     5265 5265  161.09   122.41  0   75  132  216  1159 ▇▅▂▁▁▁▁▁

 est_B25002_001       0     5265 5265 1983.22  1020.43  0 1310 1852 2471 18286 ▇▃▁▁▁▁▁▁

 est_B25002_003       0     5265 5265  218.82   231.33  0   91  168  281  6908 ▇▁▁▁▁▁▁▁

 est_B25003_001       0     5265 5265 1764.4    953.45  0 1143 1640 2220 17762 ▇▂▁▁▁▁▁▁

 est_B25003_003       0     5265 5265  672.76   546.3   0  289  521  892  3951 ▇▅▂▁▁▁▁▁

 est_B25024_001       0     5265 5265 1983.22  1020.43  0 1310 1852 2471 18286 ▇▃▁▁▁▁▁▁

 est_B25024_010       0     5265 5265  144.89   254.02  0    0   20  181  1954 ▇▁▁▁▁▁▁▁

 est_B25034_001       0     5265 5265 1983.22  1020.43  0 1310 1852 2471 18286 ▇▃▁▁▁▁▁▁

 est_B25034_005       0     5265 5265  308.42   320.98  0   76  208  443  3451 ▇▂▁▁▁▁▁▁

 est_B25034_006       0     5265 5265  334.5    314.59  0  102  250  464  3159 ▇▂▁▁▁▁▁▁

 est_B25034_007       0     5265 5265  324.38   298.91  0  112  242  448  2406 ▇▃▁▁▁▁▁▁

 est_B25034_008       0     5265 5265  188.44   196.52  0   45  134  262  1543 ▇▃▁▁▁▁▁▁

 est_B25034_009       0     5265 5265  164.13   211.01  0   19   88  229  1764 ▇▂▁▁▁▁▁▁

 est_B25034_010       0     5265 5265   71.62   108.83  0    0   30   95  1120 ▇▁▁▁▁▁▁▁

 est_B25034_011       0     5265 5265   75.75   138.12  0    0   21   88  1916 ▇▁▁▁▁▁▁▁

 est_B25043_001     265     5000 5265 1749.43   953.42  0 1125 1627 2205 17762 ▇▂▁▁▁▁▁▁

 est_B25043_007     265     5000 5265   21.1     25.33  0    0   14   30   319 ▇▁▁▁▁▁▁▁

 est_B25043_016     265     5000 5265   25.33    31.46  0    0   15   36   311 ▇▂▁▁▁▁▁▁

 est_B25044_001       0     5265 5265 1764.4    953.45  0 1143 1640 2220 17762 ▇▂▁▁▁▁▁▁

 est_B25044_003       0     5265 5265   24.5     27.11  0    5   17   35   209 ▇▃▁▁▁▁▁▁

 est_B25044_010       0     5265 5265   74.87    95.35  0   10   41  104   757 ▇▂▁▁▁▁▁▁

 

à impute missing values with 0 (?)

 

à Principal Component Analysis: http://people.tamu.edu/~abuabara/SVI18/prin_comp1.htm

·      scale = true, center = true

·      center and scale refer to respective mean and standard deviation of the variables that are used for normalization prior to implementing PCA.

 

à Output the mean of variables, the standard deviation of variables, and the rotation of the variables.

 

à The rotation measure provides the principal component loading. Each column of rotation matrix contains the principal component loading vector. This is the most important measure we should be interested in.

 

 

http://people.tamu.edu/~abuabara/SVI18/PCA1.pdf

 

à compute standard deviation of each principal component

à compute variance

à We aim to find the components which explain the maximum variance. This is because, we want to retain as much information as possible using these components. So, higher is the explained variance, higher will be the information contained in those components. To compute the proportion of variance explained by each component, we simply divide the variance by sum of total variance.

 

This results in:

 

 

 

 

 

 

 

 

PCA 2: SVI variables

 

summary statistics

 n obs: 5265

 n variables: 17

 

── Variable type:numeric ─────────────────────────────────────────────────────────────────────────────────────────────────────────

 variable missing complete    n  mean    sd  p0   p25   p50   p75   p100     hist

    CHILD      38     5227 5265  7.1   2.87 0    5.15  6.89  8.87  25.22 ▂▇▇▃▁▁▁▁

    ELDER      38     5227 5265 12.47  6.52 0    7.73 11.61 16.16  76.12 ▆▇▂▁▁▁▁▁

  ELDERPV      53     5212 5265 16.71 11.85 0    7.69 13.85 23.07 100    ▇▆▃▁▁▁▁▁

       GQ      38     5227 5265  2.43  9.64 0    0     0     1.01 100    ▇▁▁▁▁▁▁▁

  HUNOTEL     317     4948 5265  2.74  2.01 0    1.31  2.36  3.79  24.14 ▇▃▁▁▁▁▁▁

  HUNOVEL      53     5212 5265  6.25  6.37 0    1.93  4.31  8.51  65.58 ▇▂▁▁▁▁▁▁

   MOBILE      52     5213 5265  7.44 11.67 0    0     1.2  11.04 100    ▇▁▁▁▁▁▁▁

     NOHS      39     5226 5265 19.16 14.58 0    7.44 15.58 28.08  76.87 ▇▇▅▃▂▁▁▁

 NONWHITE      38     5227 5265 55.72 28.01 0   31.29 54.1  81.6  100    ▂▆▆▆▅▅▅▇

     POPV      50     5215 5265 17.94 12.79 0    8.11 14.96 25.29 100    ▇▆▃▁▁▁▁▁

      PTD      42     5223 5265  1.67  3    0    0     0.51  2.01  58.33 ▇▁▁▁▁▁▁▁

   RENTER      53     5212 5265 38.48 22.72 0   21.05 33.73 51.63 100    ▃▇▇▆▃▂▂▂

    SPENW      38     5227 5265  7.8   8.81 0    1.57  4.25 10.83  58.38 ▇▂▁▁▁▁▁▁

    SPHWC      63     5202 5265 32.67 17.96 0   18.9  30.52 44.28 100    ▃▇▇▆▃▁▁▁

    UNEMP      42     5223 5265  6.72  4.18 0    3.86  5.91  8.63  50    ▇▆▁▁▁▁▁▁

    VACHU      52     5213 5265 11.53  8.96 0    5.46  9.65 15.03 100    ▇▃▁▁▁▁▁▁

 YEAR1999      52     5213 5265 77.9  20.98 1.5 69.96 83.68 93.78 100    ▁▁▁▁▂▃▅▇

 

à impute missing values with 0 (?)

 

à Principal Component Analysis: http://people.tamu.edu/~abuabara/SVI18/prin_comp2.htm

·      scale = true, center = true

·      center and scale refer to respective mean and standard deviation of the variables that are used for normalization prior to implementing PCA.

 

à Output the mean of variables, the standard deviation of variables, and the rotation of the variables.

 

à The rotation measure provides the principal component loading. Each column of rotation matrix contains the principal component loading vector. This is the most important measure we should be interested in.

 

 

http://people.tamu.edu/~abuabara/SVI18/PCA2.pdf

 

à compute standard deviation of each principal component

à compute variance

à We aim to find the components which explain the maximum variance. This is because, we want to retain as much information as possible using these components. So, higher is the explained variance, higher will be the information contained in those components. To compute the proportion of variance explained by each component, we simply divide the variance by sum of total variance.

 

This results in:

 

 

 

 

 

 

 

 

PCA 3: SVI variables test 1

 

summary statistics

 n obs: 5265

 n variables: 25

 

── Variable type:numeric ───────────────────────────────────────────────────────────────────────────────────────────────────────────────

   variable missing complete    n  mean    sd  p0   p25   p50   p75   p100     hist

    CHILD_f      38     5227 5265  3.45  1.7   0    2.27  3.31  4.49  14.53  ▃▇▆▂▁▁▁▁

    CHILD_m      38     5227 5265  3.64  1.77  0    2.42  3.48  4.68  14.76  ▃▇▆▂▁▁▁▁

    ELDER_f      38     5227 5265  6.95  3.69  0    4.28  6.52  9.02  42.25  ▆▇▂▁▁▁▁▁

    ELDER_m      38     5227 5265  5.52  3.14  0    3.32  5.03  7.15  36     ▇▇▂▁▁▁▁▁

  ELDERPV_f      50     5215 5265  0.91  0.97  0    0.24  0.64  1.28  11.23  ▇▂▁▁▁▁▁▁

  ELDERPV_m      50     5215 5265  0.52  0.66  0    0     0.3   0.75   6.85  ▇▂▁▁▁▁▁▁

     NOHS_f      39     5226 5265  4.9   4.95  0    1.26  3.17  7.08  31.9   ▇▃▂▁▁▁▁▁

     NOHS_m      39     5226 5265  4.83  4.93  0    1.14  3.17  7.02  32.51  ▇▃▂▁▁▁▁▁

 NONWHITE_f      38     5227 5265 12.41 10.1   0    4.98  9.43 16.67  61.98  ▇▆▃▂▁▁▁▁

 NONWHITE_m      38     5227 5265 12.14  9.26  0    5.17  9.65 16.82  63.12  ▇▆▃▂▁▁▁▁

     POPV_f      50     5215 5265  9.88  7.07  0    4.4   8.31 13.91  51.62  ▇▇▃▂▁▁▁▁

     POPV_m      50     5215 5265  8.06  6.27  0    3.45  6.55 11.3   86.67  ▇▂▁▁▁▁▁▁

    SPHWC_f      63     5202 5265  6.84  6.9   0    1.89  5.12  9.8  100     ▇▁▁▁▁▁▁▁

    SPHWC_m      63     5202 5265  6.84  6.9   0    1.89  5.12  9.8  100     ▇▁▁▁▁▁▁▁

    UNEMP_f      38     5227 5265  1.31  1.05  0    0.54  1.1   1.84   8.9   ▇▅▂▁▁▁▁▁

    UNEMP_m      38     5227 5265  1.47  1.23  0    0.64  1.23  2.02  31.82  ▇▁▁▁▁▁▁▁

         GQ      38     5227 5265  2.43  9.64  0    0     0     1.01 100     ▇▁▁▁▁▁▁▁

    HUNOTEL     317     4948 5265  2.74  2.01  0    1.31  2.36  3.79  24.14  ▇▃▁▁▁▁▁▁

    HUNOVEL      53     5212 5265  6.25  6.37  0    1.93  4.31  8.51  65.58  ▇▂▁▁▁▁▁▁

     MOBILE      52     5213 5265  7.44 11.67  0    0     1.2  11.04 100     ▇▁▁▁▁▁▁▁

        PTD      42     5223 5265  1.67  3     0    0     0.51  2.01  58.33  ▇▁▁▁▁▁▁▁

     RENTER      53     5212 5265 38.48 22.72  0   21.05 33.73 51.63 100     ▃▇▇▆▃▂▂▂

      SPENW      38     5227 5265  7.8   8.81  0    1.57  4.25 10.83  58.38  ▇▂▁▁▁▁▁▁

      VACHU      52     5213 5265 11.53  8.96  0    5.46  9.65 15.03 100     ▇▃▁▁▁▁▁▁

   YEAR1999      52     5213 5265 77.9  20.98  1.5 69.96 83.68 93.78 100     ▁▁▁▁▂▃▅▇

 

à impute missing values with 0 (?)

 

à Principal Component Analysis: http://people.tamu.edu/~abuabara/SVI18/prin_comp3.htm

·      scale = true, center = true

·      center and scale refer to respective mean and standard deviation of the variables that are used for normalization prior to implementing PCA.

 

à Output the mean of variables, the standard deviation of variables, and the rotation of the variables.

 

à The rotation measure provides the principal component loading. Each column of rotation matrix contains the principal component loading vector. This is the most important measure we should be interested in.

 

 

http://people.tamu.edu/~abuabara/SVI18/PCA3.pdf

 

 

à compute standard deviation of each principal component

à compute variance

à We aim to find the components which explain the maximum variance. This is because, we want to retain as much information as possible using these components. So, higher is the explained variance, higher will be the information contained in those components. To compute the proportion of variance explained by each component, we simply divide the variance by sum of total variance.

 

This results in:

 

 

 

 

 

 

References:

1.     Practical Guide to Principal Component Analysis (PCA) in R & Python
https://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/

2.     A Handbook of Statistical Analyses Using R
https://cran.r-project.org/web/packages/HSAUR/vignettes/Ch_principal_components_analysis.pdf

3.     What do the arrows in a PCA biplot mean?
https://stats.stackexchange.com/questions/27080/what-do-the-arrows-in-a-pca-biplot-mean

4.     Arrows of underlying variables in PCA biplot in R
https://stats.stackexchange.com/questions/276645/arrows-of-underlying-variables-in-pca-biplot-in-r

 

 

College Station, TX. Wed, Sep 26 2018.

Copyright © 2018 HRRC, TAMU. All rights reserved.

 

Contact: Alexander Abuabara, Graduate Research Assistant

Email: abuabara@tamu.edu