Friday, October 14, 2016

Autoregressive Moving Average With Exogenous Variables

Die volgende aannames gemaak: vir stasionariteit en inverteerbaarheid van die VARMAX proses, die wortels van en buite die eenheidsirkel. Die eksogene (onafhanklike) veranderlikes is nie gekorreleer met residue,. Die eksogene veranderlikes kan stogastiese of nonstochastic wees. Wanneer die eksogene veranderlikes stogastiese en hul toekomstige waardes is onbekend, is voorspellings van hierdie toekomstige waardes wat nodig is om die toekomstige waardes van die endogene (afhanklike) veranderlikes voorspel. By geleentheid, kan toekomstige waardes van die eksogene veranderlikes aanvaar om bekend te staan, want hulle is deterministiese veranderlikes. Die VARMAX prosedure aanvaar dat die eksogene veranderlikes is nonstochastic as toekomstige waardes is beskikbaar in die insette datastel. Andersins, is die eksogene veranderlikes aanvaar stogastiese te wees en hul toekoms waardes voorspel deur te aanvaar dat hulle die VARMA (,) model volg, voor voorspelling van die endogene veranderlikes, waar en is dieselfde as in die VARMAX (,,) model. Staat-Space Verteenwoordiging Nog voorstelling van die VARMAX (,,) model is in die vorm van 'n staat-veranderlike of 'n staat-ruimte model, wat bestaan ​​uit 'n toestand equationDocumentation x03D5 (L) y t c x t x2032 x03B2 x03B8 (L) x03B5 t. In vergelyking 5-17. die vektor x t x2032 hou die waardes van die r eksogene, tydveranderlike voorspellers op tydstip t. met koëffisiënte aangedui 946. Jy kan hierdie model gebruik om te kyk of 'n stel van eksogene veranderlikes het 'n uitwerking op 'n lineêre tyd-reeks. Byvoorbeeld, veronderstel jy wil meet hoe die vorige weke gemiddelde prys van olie, x t. raak hierdie weke Verenigde State wisselkoers y t. Die wisselkoers en die olieprys is tydreekse, so 'n ARMAX model kan geskik is vir hul verhoudings te bestudeer. Konvensies en uitbreidings van die ARIMAX Model ARMAX modelle het dieselfde stasionariteit vereistes soos ARMA modelle. Spesifiek, die reaksie reeks is stabiel as die wortels van die homogene karakteristieke vergelyking van x03D5 (L) L p x2212 x03D5 1 L p x2212 1 x2212 x03D5 2 L p x2212 2 x2212. x2212 x03D5 p L p 0 leuen buite die eenheidsirkel volgens Wolds Ontbinding 1. As die reaksie reeks y t is nie stabiel, dan kan jy verskil dit na 'n stilstaande ARIMA model te vorm. Doen dit deur die spesifiseer van die grade van integrasie D. Ekonometrie Toolboxx2122 dwing stabiliteit van die AR polinoom. Wanneer jy 'n AR model spesifiseer met behulp van ARIMA. die sagteware gee 'n fout as jy koëffisiënte wat nie ooreenstem met 'n stabiele polinoom betree. Net so, skat lê stasionariteit beperkings tydens beraming. Die sagteware verskille die reaksie reeks y t voor insluitende die eksogene covariates as jy die graad van integrasie D. Met ander woorde spesifiseer, die eksogene covariates betree 'n model met 'n stilstaande reaksie. Daarom is die ARIMAX (p, D, q) model is x03D5 (L) y t c x2217 x t x2032 x03B2 x03B8 x2217 (L) x03B5 t. waar c c / (1 8211 L) D en 952 (L) 952 (L) / (1 8211 L) D. Daarna het die interpretasie van 946 het verander na die verwagte effek 'n toename eenheid in die voorspeller het op die verskil tussen die huidige en uitgestel waardes van die reaksie (op voorwaarde dat die gesloerde waardes). Jy moet bepaal of die voorspeller reeks x t is stilstaande. Verskil al voorspeller reeks wat nie skryfbehoeftes met diff tydens die data preprocessing stadium. As x t is stationaire, dan 'n toets vir die betekenis van 946 kan 'n vals negatiewe produseer. Die praktiese interpretasie van 946 veranderings as jy verskil die voorspeller reeks. Die sagteware maak gebruik van maksimum annneemlikheidsberaming vir voorwaardelike gemiddelde modelle soos ARIMAX modelle. Jy kan spesifiseer óf 'n Gaussiese of Studente t vir die verspreiding van die innovasies. Jy kan die volgende insluit seisoenale komponente in 'n ARIMAX model (sien Multiplikatiewe ARIMA Model) wat 'n SARIMAX (p, D, Q) (bl s, D s, q s) se model skep. Die veronderstelling dat die reaksie reeks y t stilstaan, die model het die vorm x03D5 (L) x03A6 (L) y t c x t x2032 x03B2 x03B8 (L) x0398 (L) x03B5 t. waar 934 (L) en 920 (L) is die seisoenale lag polinome. As y t is nie stilstaande, dan kan jy grade van nonseasonal of seisoenale integrasie spesifiseer met behulp van ARIMA. As jy Seisoenaliteit 8805 0 spesifiseer, dan is die sagteware van toepassing graad een seisoenale breukmetodes (D s 1) om die reaksie. Anders, D s 0. Die sagteware sluit die eksogene covariates nadat dit verskille die reaksie. Die sagteware behandel die eksogene covariates as vaste tydens beraming en inferensie. Verwysings 1 Wold, H. 'n studie in die ontleding van tydreekse. Uppsala, Swede: Almqvist amp Wiksell, 1938. Kies jou CountryDocumentation n is 'n konstante vektor van neutraliseer, met n elemente. A Ek is N - by - N matrikse vir elke i. Die A i is outoregressiewe matrikse. Daar is p outoregressiewe matrikse. 949 t is 'n vektor van serie ongekorreleerd innovasies. draers van lengte n. Die 949 t is meerveranderlike normale ewekansige vektore met 'n kovariansiematriks Q. waar Q is 'n identiteitsmatriks, tensy anders vermeld. B j is N - by - N matrikse vir elke j. Die B j is bewegende gemiddelde matrikse. Daar is Q bewegende gemiddelde matrikse. X t is 'n N - by - r matriks verteenwoordig eksogene terme by elke tydstip t. r is die aantal eksogene reeks. Eksogene terme data (of ander unmodeled insette) bykomend tot die reaksie tyd reeks y t. b 'n konstante vektor van regressiekoëffisiënte van grootte r. So het die produk X t middotb is 'n vektor wat grootte N. Oor die algemeen, die tydreeks y t en X t is waarneembaar. Met ander woorde, as jy data het, dit verteenwoordig een of albei van hierdie reeks. Jy weet nie altyd die geneutraliseer n. koëffisiënt b. outoregressiewe matrikse A i. en bewegende gemiddelde matrikse B j. Jy wil tipies om hierdie parameters te pas om jou data. Sien die vgxvarx funksie verwysing bladsy na maniere om onbekende parameters te beraam. Die innovasies 949 t is nie waarneembaar nie, ten minste in die data, al is hulle waarneembaar in simulasies kan wees. Lag Operateur Verteenwoordiging Daar is 'n soortgelyke voorstelling van die lineêre outoregressiewe vergelykings in terme van die lag operateurs. Die lag operateur L beweeg die tyd indeks terug deur een: L y t y t 82111. Die operateur L m beweeg die tyd indeks terug deur m. L m y t y t 8211 m. In lag operateur vorm, die vergelyking vir 'n SVARMAX (bl. Q. R) model word (A 0 x2212 x2211 i 1 p A i L i) y t 'n X t b (B 0 x2211 j 1 Q B j L j) x03B5 t. Hierdie vergelyking kan geskryf word as 'n (L) y t 'n X t b B (L) x03B5 t. A VAR model is stabiel as det (I n x2212 A 1 Z x2212 A 2 Z 2 x2212. X2212 A pzp) x2260 0 x00A0x00A0forx00A0x00A0 Z x2264 1. Hierdie toestand impliseer dat, met al innovasies gelyk aan nul, die VAR proses konvergeer na 'n verloop van tyd. Sien Luumltkepohl 74 Hoofstuk 2 vir 'n bespreking. A VMA model is omkeerbaar as det (I n B 1 Z B 2 Z 2. B Q Z Q) x2260 0 x00A0x00A0forx00A0x00A0 Z x2264 1. Hierdie toestand impliseer dat die suiwer VAR voorstelling van die proses is stabiel. Vir 'n verduideliking van hoe om te skakel tussen VAR en VMA modelle, sien Verandering Model Vertoë. Sien Luumltkepohl 74 Hoofstuk 11 vir 'n bespreking van omkeerbare VMA modelle. A VARMA model is stabiel as sy VAR deel is stabiel. Net so 'n VARMA model is omkeerbaar as sy VMA deel is omkeerbaar. Daar is geen goed-gedefinieerde idee van stabiliteit of inverteerbaarheid vir modelle met eksogene insette (bv VARMAX modelle). 'N eksogene insette kan 'n model te destabiliseer. Gebou VAR modelle om 'n meervoudige tydreekse model, of veelvuldige tydreeksdata te verstaan, moet jy oor die algemeen volg die volgende stappe: Invoer en vir wysig data. Gee 'n model. Spesifikasie strukture met geen parameterwaardes om 'n model te spesifiseer wanneer jy wil MATLAB x00AE om die parameters te beraam spesifikasie strukture met Uitgesoekte parameterwaardes om 'n model waar jy weet 'n paar parameters spesifiseer, en wil MATLAB om die ander skat bepaling van 'n gepaste aantal vertragings te bepaal 'n toepaslike aantal lags vir jou model pas die model om data. Pas modelle by data te gebruik vgxvarx om die onbekende parameters in jou modelle te skat. Dit kan die volgende behels: Die verandering van Model Vertoë om jou model te verander om 'n tipe wat vgxvarx handvatsels Analiseer en voorspel met behulp van die ingeboude model. Dit kan behels: Ondersoek na die stabiliteit van 'n toegerus Model om te bepaal of jou model is stabiel en omkeerbare. CODA Model Vooruitskatting direk voorspelling van modelle of te voorspel met behulp van 'n Monte Carlo simulasie. Berekening impulsweergawes om impulsweergawes, wat voorspellings gebaseer op 'n veronderstelde verandering in 'n inset aan 'n tydreeks te gee bereken. Vergelyk die resultate van jou modelle voorspellings om data uitgehou vir vooruitskatting. Vir 'n voorbeeld, sien VAR Model gevallestudie. Jou aansoek hoef nie al die stappe in hierdie workflow betrek. Byvoorbeeld, kan jy nie 'n data het nie, maar wil 'n parameters model simuleer. In daardie geval, sal jy voer net stappe 2 en 4 van die generiese workflow. Jy kan Itereer deur 'n paar van hierdie stappe. Sien ook voorbeelde Kies Jou CountryDemand vir gesondheidsorgdienste het onvolhoubare 1. 2 geword. Dit is grootliks te danke aan toename in die bevolking en lewensverwagting, stygende koste, verhoogde pasiënt verwagtinge, en kwessies arbeidsmag 3. Ten spyte van groter eise, het die aantal binnepasiënt-beddens in hospitale deur 2 kom sedert die laaste dekade 2. 4. Doeltreffende bed bestuur is die sleutel tot die vergadering van die stygende vraag en die vermindering van die koste van gesondheidsorg. Daily ontlading kan 'n potensiële real-time aanwyser van operasionele doeltreffendheid 5 wees. Van 'n wyk-vlak perspektief, sal 'n goeie skatting van die volgende dag ontlaai hospitaalpersoneel in staat stel om potensiële probleme soos veranderinge in aantal beskikbare beddens en veranderinge in aantal vereiste personeel voorsien. Doeltreffende voorspelling verminder bed krisis en verbeter hulpbrontoekenning. Dit versiendheid kan help versnel ontslag voorbereiding, wat groot koste op kliniese personeel en die opvoeding van pasiënte en familie het, wat postdischarge beplanning 6. 7. Maar studeer pasiënt vloei van algemene sale bied verskeie uitdagings. Ward-vlak ontlaai inkorporeer veel groter dinamika hospitaal wat dikwels nie-lineêre 8. Toegang tot real-time kliniese inligting in wyke kan moeilik as gevolg van administratiewe en prosedurele struikelblokke, kan sodanige data nie beskikbaar vir voorspelbare programme wees. Omdat die diagnose kodering is gedoen na ontslag, is daar min inligting oor mediese toestand of variasie in die sorg gehalte in real time. Daarbenewens, behalwe pasiënt toestand faktore speel 'n rol in ontslag besluite 5. 9. 10. Die huidige praktyk van bed toekenning in algemene sale van die meeste hospitale behels 'n hospitaalpersoneel / span, wat gebruik afgelope inligting en ervaring, om te skeduleer en toewys beddens 11. Moderne masjien leer tegnieke kan gebruik word om sulke besluite te steun en te help verstaan ​​die onderliggende proses. As 'n voorbeeld, Figuur 1 toon 'n besluit boom opgelei afgelope ontlaai en wyk besetting statistieke, wat modelle die daaglikse ontslag patroon van 'n oop saal in 'n plaaslike Australiese hospitaal. Hoewel die afwesigheid van pasiënt mediese inligting wat geraak word voorspel prestasie, die besluit reëls verskaf belangrike insig in die ontslag proses. Gemotiveer deur hierdie resultaat, spreek ons ​​die oop probleem van voorspelling daaglikse ontlaai van 'n saal met geen real-time kliniese data. Spesifiek, vergelyk ons ​​die vooruitskatting prestasie van 5 gewilde regressiemodelle: (1) die klassieke outoregressiewe geïntegreerde bewegende gemiddelde (ARIMA), (2) die outoregressiewe bewegende gemiddelde met eksogene veranderlikes (ARMAX), (3) k-naaste (KNN) regressie, (4) ewekansige bos (RF) regressie, en (v) ondersteuning vektor regressie (SVR). Ons eksperimente is op algemeen beskikbare data van 'n herstel wyk (Heath vleuel 5) in Barwon Gesondheid, 'n plaaslike hospitaal in Victoria, Australië. Die ARIMA en KNN modelle gebou uit die daaglikse ontlas wyk. Rekenskap gee van die seisoenale aard van lozingen, die ARMAX model ingesluit dag van die week en wyk besetting statistieke. Ons geïdentifiseer en saamgestel 20 wyk-vlak en 88 pasiënt-vlak voorspellers om die RF en SVR modelle lei. Vooruitskatting akkuraatheid is gemeet deur 3 statistieke op 'n uitgehou stel 2511 pasiënt besoeke in die jaar 2014. In vergelyking met 'n naïewe vooruitskatting metode van die gebruik van die gemiddelde van die afgelope week ontlaai, demonstreer ons deur middel van ons eksperimente wat (1) met behulp van regressie metodes vir voorspel ontslag beter as naïef vooruitskatting, (2) SVR en RF modelle oortref die outoregressiewe metodes en KNN, (3) 'n RF model afgelei van 108 funksies het die minimum fout vir die volgende dag-voorspelling. Die betekenis van ons studie is in die identifisering van die belangrikheid van vooruit beskikbaar beddens in wyke, wat kan help verlig nood toegang blok 12. Pasiënt lengte van verblyf direk bydra tot die koste hospitaal en hulpbrontoekenning. Langtermyn vooruitskatting in gesondheidsorg het ten doel om die bed en personeel behoeftes model oor 'n tydperk van maande tot jare. Cote en Tucker kategoriseer die algemene metodes in gesondheidsorg vraag vooruitskatting as persent aanpassing, 12-maand bewegende gemiddelde, Trendline en seasonalized voorspel 13. Alhoewel elkeen van hierdie metodes is gebou uit historiese vraag, seasonalized vooruitskatting bied meer realistiese resultate soos dit in ag neem die seisoenale variasies en tendense in die data. Mackay en Lee 3 adviseer modellering van die pasiënt vloei in gesondheidsorg instellings vir taktiese en strategiese vooruitskatting. Vir hierdie doel, kompartementele modelle 14. 15, toustaan ​​modelle 16. 17 en simulasiemodelle 17-20 is gedoen om geduldig te vloei analiseer. Om langtermyn pasiënt vloei verstaan, studies ontleed statistieke soos bed besetting 3. 8. 14. 19. 21. 22, pasiënt aankomelinge 23, en individuele pasiënt lengte van verblyf 19. 24-27. Aan die ander kant, ons werk implemente kort termyn vooruitskatting. Die kort termyn vooruitskatting metodes is gemoeid met uurlikse en daaglikse voorspellings van 'n enkele eenheid in 'n sorg omgewing. Die gewildste eenheid van belang is die nood of akute sorg departement, want dit is dikwels 'n belangrike prestasie-aanwyser metrieke in die beoordeling van die gehalte van sorg 28. 29. Besluit boom modellering van totale ontlaai van 'n oop saal van dag van die week en wyk besetting (vorige dag besetting) data vir 5 jaar. Die blare verteenwoordig totale aantal pasiënt ontlaai. Tydreekse en Smoothing metodes Wanneer op soek na ontlaai soos tydreekse, outoregressiewe bewegende gemiddelde modelle is die gewildste 30-32. Eksponensiële gladstrykingstegnieke is ook gebruik om maandeliks 33 en daaglikse pasiënt vloei 34 voorspel. Jones et al gebruik die klassieke ARIMA daagliks bed besetting in noodgevalle afdeling van 'n Europese hospitaal 30 voorspel. Die model wat seisoenaliteit terme ingesluit gedemonstreer redelike prestasie om besetting bed voorspel. Die skrywers bespiegel of nie-lineêre voorspelling tegnieke kan verbeter oor ARIMA. 'N Onlangse studie het bevestig dat die doeltreffendheid van hierdie voorspelling tegniek in 'n Amerikaanse hospitaal setting 35. ARIMA modelle is ook suksesvol gebruik word om die aantal beset beddens voorspel tydens 'n sars in 'n Singapore hospitaal 36. In 'n onlangse studie gebruik pasiënt bywoning in 'n pediatriese noodgevalle afdeling om daaglikse vraag met behulp van ARIMA 37 model. Jones et al 34 in vergelyking die ARIMA af met eksponensiële gladstryking en kunsmatige neurale netwerke daagliks pasiënt volumes in noodgevalle afdeling voorspel. Die studie het getoon geen enkele model beter te wees en tot die gevolgtrekking gekom dat seisoenale patrone 'n belangrike rol in die daaglikse vraag te speel. Modellering met behulp van simulasie is tipies gebruik word om die gedrag van komplekse stelsels te bestudeer. 'N vroeë werk in ondersoek die gevolge van noodopnames op 'n daaglikse bed vereistes in akute sorg, met behulp van diskrete gebeurtenis stogastiese simulasie modelle 38. Sinreich en Marmor 39 voorgestel dat 'n gids vir die bou van 'n simulasie hulpmiddel gebaseer op data van nood departemente van 5 Israeliese hospitale. Hul metode ontleed die vloei van pasiënte gegroepeer in 8 tipes saam met tyd elemente. Die simulasie getoon dat pasiënte prosesse beter word gekenmerk deur die tipe van die pasiënte, eerder as spesifieke hospitale besoek. Yeh en Lin het 'n simulasiemodel om pasiënt vloei deur 'n hospitaal noodgevalle afdeling kenmerk en verminder wag tye met behulp van 'n genetiese algoritme 40. 'N Soortgelyke eksperiment is uitgevoer in 'n geriatriese departement gedra met behulp van 'n kombinasie van diskrete gebeurtenis simulasie en toustaan ​​model slaap besetting 19 ontleed. Regressie vir vooruitskatting regressie modelle analiseer die verhouding tussen die geskatte veranderlike en funksies in die data. Lineêre regressie dat maandelikse variasies ingebou is gebruik om die pasiënt opnames oor 'n 6-maande horison voorspel en oortref kwadratiese en outoregressiemodelle 41. Nog 'n studie gebruik groepering en Principe Component Analysis PCA beduidende voorspellers van pasiënt data nood lengte van verblyf met behulp van lineêre regressie 42 model te vind. 'N nie-lineêre benadering met behulp van regressie bome is in die voorspelling van pasiënt opnames wat uitmuntende prestasie gedemonstreer oor 'n neurale netto raamwerk 43 voorgestel. Barnes et al gebruik 10 voorspellers real-time opname lengte van verblyf model in 'n 36-bed eenheid met behulp van 'n RF model 24. Nie-lineêre regressie is beter geskik vir die veranderende dinamika van pasiënt vloeimodel. Om die uitvloei van pasiënte kenmerkend van die saal, wend ons tot regressie met behulp van RF, KNN, en SVR. In die gebied van patroonherkenning, kNNs 44 is die mees doeltreffende metode wat herhaal patrone uitbuit. Die KNN algoritme is suksesvol toegepas om te voorspel tot histogram tydreekse in finansiële data 45. Die parametriese regressie met behulp KNN is suksesvol gedemonstreer vir 'n kort termyn verkeer vooruitskatting 46. 47 en vrag elektrisiteit voorspel 48. 49. Tog het KNN regressie nie bestudeer vir pasiënt vloei. Nog 'n kragtige en gewilde regressie tegniek, SVR, gebruik kern funksies te funksies te karteer in 'n hoër-dimensionele ruimte om lineêre regressie te voer. Hoewel hierdie tegniek nie veel aansoek in mediese voorspelling gesien het ondersteuning vektor masjiene suksesvol in finansiële markte voorspelling, elektrisiteit vooruitskatting, besigheid vooruitskatting, en betroubaarheid vooruitskatting 50 was. Afgesien van die standaard outoregressiewe metodes gebruik ons ​​KNN, RFS en SVR in vooruitskatting volgende dag ontlaai. Omdat ontslag patrone met verloop van tyd herhaal, kan KNN regressie toegepas om te soek na 'n bypassende patroon van verlede ontlaai. RFS en SVR regressie is kragtige modelleringstegnieke vereis minimum tuning om doeltreffend te hanteer lineariteiten in die hospitaal prosesse. Onlangs, was RF vooruitskatting gebruik om totale pasiënt ontlaai van 'n 36 bed eenheid voorspel in 'n stedelike hospitaal 24. Afgesien van 4 demografiese en 2 tydsberekening voorspellers, hierdie studie gebruik 3 kliniese voorspellers vir pasiënte: (1) rede vir besoek: geïdentifiseer deur 'n geneesheer en aangeteken met behulp van International Classification of Diseases: weergawe 9 (ICD-9) diagnose kodes 51, (2 ) waarneming status: aan pasiënte vir die monitering van die doel, en (3) hangende ontslag plek. Die totale aantal ontlaai is na raming van totaal van individuele pasiënt lengte van verblyf. Die afwesigheid van real-time kliniese inligting in ons data maak die berekening van pasiënt lengte van verblyf onmoontlik. In plaas daarvan, wend ons tot die modellering van die volgende dag ontlaai deur die waarneming van die vorige ontslag patrone en ondersoek demografie en vloei eienskappe in die saal. Ons studie gebruik terugwerkende data wat versamel is van 'n herstel wyk in Barwon Gesondheid, 'n groot openbare gesondheid verskaffer in Victoria, Australië bedien oor 350,000 inwoners. Etiese goedkeuring is verkry uit die hospitaal en Navorsingsetiekkomitee by Barwon Gesondheid (aantal 12/83) en Deakin Universiteit. Die totale aantal beskikbare beddens het afgehang van die aantal personeel wat aan die saal. Op gemiddelde, die saal moes 36 beman beddens, maar gewissel tussen 20 en 80 beddens met wisselende pasiënt vloei. Die dokters in die wyk het geen onderrig verantwoordelikhede. Tafels in die hospitaal databasis gebruik word in ons data-insameling. 'n IKO, interkwartielvariasiewydte. Die data vir die studie het uit drie tafels in die hospitaal databasis, soos getoon in Tabel 1. Bykomende real-time data wat pasiënt toestand of siekte progressie beskryf was nie beskikbaar nie omdat diagnose kodering met behulp van mediese kodes is gedoen na ontslag. Pasiënt vloei is ingesamel vir 'n tydperk van 4 jaar. Die gebruik van die toelating en ontslag keer vir elke pasiënt, ons bereken die daaglikse lozingen van ons wyk in studie. 'N Totaal van 12.141 pasiënte opgeneem in die saal met 'n mediaan ontslag van 8 pasiënte per dag vanaf 1 Januarie 2010, tot 31 Desember, 2014. Tabel 2 gee 'n opsomming van die belangrikste eienskappe van ons data. 'N tyd-reeks ontbinding van ons data aan die lig gebring 'n sterk seisoenale variasies en 'n hoë lineariteiten in die daaglikse uitvoering patrone. Daar is 'n gedefinieerde weeklikse patterndischarge van wyk hoogtepunt op Vrydae en aansienlik gedaal oor naweke (sien Figuur 2). Dit seisoenale aard is in harmonie met vorige studies 9. 32. Saamgevoeg die daaglikse storting in 'n maandelikse tydreekse geopenbaar gedefinieer maandelikse patrone (sien Figuur 3). Die data vertoon geen noemenswaardige tendens. Daarbenewens is die daaglikse ontslag patroon gevind hoogs lineêre te wees. Ons vooruitskatting metodes moet in staat wees om so 'n data dinamika te hanteer. Ons beskryf die volgende diverse metodes wat onder komplekse data dinamika van toepassing op vooruitskatting is: (1) ARIMA, (2) outoregressiewe bewegende, (3) vooruitskatting gebruik van KNN ontslag patrone, (4) RF, en (5) SVR. Outoregressiewe metodes model die tydelike lineêre korrelasie tussen nabygeleë datapunte in die tyd reeks. Naaste patrone lig hierdie lineariteit aanname en aanvaar dat kort periodes vorm herhaalde patrone. Ten slotte, RF en SVR kyk vir 'n nie-lineêre funksionele verhouding tussen die toekomstige uitkomste en beskrywers in die verlede. Beteken opnames en ontlaai per dag van wyk. Tyd reeks maandelikse ontlas wyk. Vooruitskatting Metodes outoregressiewe geïntegreerde bewegende gemiddelde tydreekse voorspelling metodes kan die patroon van die verlede ontlaai analiseer en formuleer 'n voorspelling model van onderliggende tydelike verhoudings 52. Sulke modelle kan dan gebruik word om die ontslag tydreekse in die toekoms te ekstrapoleer. ARIMA modelle word wyd gebruik in die tyd-reeks vooruitskatting. Hul gewildheid kan toegeskryf word aan gemak van model formulering en interpreteerbaarheid 53. ARIMA modelle te kyk vir lineêre verwantskappe in die ontslag volgorde om plaaslike tendense en seisoenaliteit te spoor. Tog kan sulke verhoudings met verloop van tyd verander. ARIMA modelle in staat is om hierdie veranderinge te vang en daarvolgens te werk self. Dit word gedoen deur die kombinasie van outoregressiewe (AR) en bewegende gemiddelde (MA) modelle. Outoregressiemodelle formuleer ontslag op tydstip t y t. as 'n lineêre kombinasie van die vorige ontlaai. Aan die ander kant, bewegende gemiddeldes modelle karakteriseer as lineêre kombinasie van vorige skatting foute. Vir ARIMA model, is die ontslag tydreekse stilstaande gemaak met behulp van breukmetodes. Laat wees outoregressiewe parameters, word bewegende gemiddelde parameters, en wees die voorspelling foute. So 'n ARIMA model kan gedefinieer word as getoon in figuur 4. waar 'n konstante. Deur verskillende p en q. Ons kan verskillende modelle om die data te pas genereer. Box Jenkins metode 54 bied 'n goed-gedefinieerde benadering vir model identifikasie en parameter beraming. In ons werk, ons kies die funksie auto. arima () van die voorspelling pakket 55 in R 56 na die beste model outomaties kies. Klassieke ARIMA model. Outoregressiewe bewegende gemiddelde Met Eksogene veranderlikes (ARMAX) Dynamic regressietegnieke toelaat byvoeging van addisionele verklarende veranderlikes, soos dag van die week en die aantal huidige pasiënte in die saal, om modelle outoregressiewe. Die outoregressiewe bewegende ARMAX verander ARIMA model deur die insluiting van afhangende eksterne veranderlike x t op tyd t. soos getoon in Figuur 5. Ons model x t gebruik van funksies van die hospitaal databasis. ARIMA model met eksogene veranderlike xt. Opsporing van ontslag patrone uit deur k-Naaste Bure Die KNN algoritme neem voordeel van die omgewing in die data ruimte. Ons aanvaar dat die volgende dag ontslag is afhanklik van die ontlaai gebeur is in die vorige dae. Die gebruik van KNN beginsels, kan ons 'n regressie te doen om die volgende dag ontslag voorspel. Laat J D aantal ontlaai op die huidige dag verteenwoordig: d. y D1: om die volgende dag ontslag voorspel. Ons kyk na die ontladings oor die afgelope p dae: dischvec y d-p. y d. Die gebruik van Euklidiese afstand metrieke, vind ons k naaste wedstryde te dischvec van die opleiding data. 'N skatting van die volgende dag ontslag: D1. word bereken as 'n maatstaf van die volgende dag ontlaai van die k gekoppel patrone: (y wedstryd) i i (1: k). Figuur 6 toon 'n voorbeeld van KNN gebaseer vooruitskatting. Hier dischvec in rooi y d-7. y d resultate in 3 wedstryde van die opleiding data. Vir eenvoud, het ons die pas patrone saam dischvec geplot, hoewel hulle in die verlede plaasgevind het. Die volgende dag voorspelling D1 word 'n mate van (y wedstryd) i. waar (y wedstryd) i i (1: 3) is die (d 1) de term van elk van die wat ooreenstem met patrone 57. Een gewilde metode van berekening van D1 is deur die vermindering van die geweegde kwadratiese verlies (Figuur 7), waar w i neem waardes tussen 0 en 1, met k i1 w i 1. Daar is 2 hoof nadele wat dit minder wenslik is vir ons gegee. Eerstens, die kwadratiese verlies is sensitief vir uitskieters. Tweedens, 'n robuuste skatting van i raak moeilik. Ons data bevat beduidende geraas, wat veroorsaak dat groot variasies in next-dag-voorspelling van die k gekoppel patrone. Ons illustreer hierdie probleem in Figuur 8. Vir 'n gegewe dag, KNN regressie terug 125 ooreenstem patrone. Die volgende dag-voorspelling van mekaar k125 patrone vertoon beduidende verskille. In so 'n scenario, wend ons tot die beraming van T1 deur die vermindering van die robuuste verlies (Figuur 9). K-naaste voorspelling byvoorbeeld met K3 en P 7. Die berekening van D1 deur die vermindering van die geweegde kwadratiese verlies. PUNTEDIAGRAM van die volgende dag voorspel met behulp van k-naaste vir 'n gegewe dag. X-as verteenwoordig elke ooreenstem naaste-buurman patroon. Y-as verteenwoordig die volgende dag voorspelling van wat ooreenstem patroon. Beraming van T1 deur die vermindering van die robuuste verlies. In hierdie benadering, neem ons die volgende dag ontslag as 'n funksie van historiese descriptor vektor: x. Ons gebruik elke dag in die verlede as 'n data punt, waar die volgende dag ontslag is die uitkoms, en die kort tydperk voor die ontslag word gebruik om beskrywings te lei. Die RF word in hierdie vraestel is tans een van die mees kragtige maniere om die funksie y f (x) 58. 59 model. 'N RF is 'n ensemble van regressie bome. A regressie boom by benadering 'n funksie f (x) deur rekursief skeiding die descriptor ruimte. By elke streek R p. die funksie benader soos getoon in Figuur 10. waar 124 R p 124 is die getal van data punt val in streek R p. Die RF skep 'n diverse versameling van ewekansige bome deur wisselende die deelversamelings van datapunte om die bome en die deelversamelings van beskrywers te lei by elke stap van die ruimte skeiding. Die finale uitslag van RF is 'n gemiddeld van al die bome in die ensemble. Sedert boom groei is 'n hoogs aanpasbare proses, kan dit 'n nie-lineêre funksie ontdek om enige mate van aanpassing as hulle genoeg opleiding data. Maar die buigsaamheid maak regressie boom wat geneig is tot overfitting, dit wil sê die onvermoë om te veralgemeen om onsigbare data. Dit vereis die beheer van die groei deur die oprigting van die aantal beskrywings per skeiding stap, en die minimum grootte van streek R p. Die stem lei tot groot voordele: die variasies per boom te verminder. Die willekeur help bestry teen overfitting. Daar is geen aanname oor die verspreiding van data of die vorm van die funksie (x). Daar is beheerbaar gehalte van pas. Ewekansige woude formulering van volgende dag ontlaai (y) van historiese beskrywings (x). Ondersteuning Vector Regressie Die historiese descriptor vektor x, wat in die RF model kan ook gebruik word om 'n SVR model 60 bou. Gegewe die datastel 1. .. Y 1), (x 2 y 2), (x N J N), waar elke x i R m dui die insette descriptor vir die ooreenstemmende volgende dag voorspelling y i R 1. 'n regressiefunksie neem die vorm: Ek f (x i). SVR werke deur (1) die kartering van die insette ruimte van x i in 'n hoër-dimensionele ruimte met behulp van 'n nie-lineêre afbeelding funksie:. (2) die uitvoering van 'n lineêre regressie in hierdie hoër dimensionele ruimte. f (x) (w (x)) b, waar, w R m is die gewigte en b R 1 is die vooroordeel kwartaal: In die algemeen kan ons die regressie funksie as uitspreek. Vapnik 60 voorgestel die - insensitive verlies funksie vir SVR, wat die vorm neem soos in vergelyking 1 in figuur 11. Die verlies funksie L verdra foute wat kleiner as die drumpel is:, wat lei tot 'n buisie om die ware ontslag waardes. Model parameters kan geskat word deur die vermindering van die kostefunksie soos in vergelyking 2 in Figuur 11. waar C 'n konstante wat fout penaliseer in opleiding data. In ons werk, gebruik ons ​​'n RBF kern 61 vir die kartering van ons insette data hoër dimensionele funksie ruimte. RBF pitte is 'n goeie keuse vir pas ons nie-lineêre ontslag patroon as gevolg van sy vermoë om die opleiding data karteer om 'n oneindige dimensionele ruimte en maklike implementering. Die oplossing vir die dubbele formulering van SVR kostefunksie word uiteengesit in 60. 62. Die SVR leermodel. Ons onttrek al die data van die databasis tabelle (soos in tabel 1) vir ons wyk in studie. Pasiënt vloei is ontleed vir 'n tydperk van 5 jaar. Ons geformateer ons data as 'n matriks waar elke ry ooreenstem met 'n dag en elke kolom verteenwoordig 'n funksie (descriptor). Twee hoofgroepe funksies is geïdentifiseer: (1) wyk vlak en (2) die pasiënt vlak. Ons funksie skepping proses het gelei tot 20 wyk-vlak en 88 pasiënt-vlak voorspellers, soos gelys in Tabel 3. Die saal-vlakbeskrywer: tendens van die volgende dag ontslag is bereken deur die pas van 'n plaaslik geweeg polinoom regressie 63 uit die verlede ontlaai. 'N Voorbeeld hiervan regressie pas word in Figuur 12. Funksies opgebou uit wyk data in die hospitaal databasis. 'n 'n Die ewekansige bos en ondersteuning vektor regressiemodelle gebruik die volledige stel van die funksies. Die ARMAX (outoregressiewe bewegende gemiddelde met eksogene veranderlikes) model gebruik seisoenaliteit en besetting. Alle ander modelle is afgelei van daaglikse ontlaai. 'N Voorbeeld van die afvoer tendens, soos afgelei uit 'n plaaslik geweeg polinoom regressie model. Ons opleiding en toetsing stelle word geskei deur tyd. Hierdie strategie weerspieël die algemene praktyk van die opleiding van die model met behulp van data in die verlede en die toepassing daarvan op toekomstige data. Opleiding data bestaan ​​uit 1460 dae vanaf 1 Januarie 2010, tot 31 Desember, 2013. Toets data bestaan ​​uit 365 dae in die jaar 2014. Die eienskappe van die opleiding en validering groep word in Tabel 4. Die meeste bly was kort, ongeveer 65 van pasiënte gebly vir minder as 5 dae. Eienskappe van opleiding en validering kohorte. Die huidige hospitaal strategie behels die gebruik van vorige ondervinding beskikbaar beddens voorsien. Om die doeltreffendheid van ons voorgestelde benaderings te vergelyk, model wat ons die volgende basislyne: (1) Naïef vooruitskatting met behulp van die laaste dag van die week ontslag: Sedert ons data gevind weeklikse patrone te omskryf, model wat ons die volgende dag ontslag as die aantal ontlaai vir dieselfde dag tydens die vorige week (2) naïewe vooruitskatting met behulp gemiddelde van verlede week ontlaai: om 'n beter model die variasie en geraas in weeklikse ontlaai, model wat ons die volgende dag ontslag as die gemiddelde van ontlaai tydens vorige 7 dae en (3) naïef vooruitskatting met behulp gemiddelde van die vorige 3 weke ontlaai: om rekenskap te gee van die maandelikse en weeklikse variasies in ons data, gebruik ons ​​gemiddeld van daaglikse ontlaai die afgelope 3 weke na die volgende dag ontslag model. Die meting van voorspellings oor die prestasie Ons vergelyk die volgende dag-voorspelling van ons voorgestelde benaderings met die basislyn metodes op die maat van die gemiddelde voorspelling fout, beteken absolute fout, simmetriese gemiddelde absolute persentasiefout en wortel-gemiddelde-kwadraat fout 64. 65. As y t is die gemeet ontslag op tydstip t. f t is die geskatte dishcharge op tydstip t. Ons kan definieer die volgende: Mean voorspelling fout (MFE): word gebruik om model vooroordeel te meet en word bereken as MFE beteken (y t - f t) vir 'n ideale model, MFE 0. As MFE 62 0, die model is geneig om underforecast. Wanneer MFE 60 0, die model is geneig om overforecast. Beteken absolute fout (MAE): is die gemiddeld van ongetekende foute: MAE mean124 y t - f t 124. MAE dui die absolute grootte van die foute. Wortel-gemiddelde-kwadraat fout (RMSE) is 'n maatstaf van die afwyking van voorspelling foute. Dit word bereken as: RMSE gemiddelde (y t - f t) 2 Weens kwadratuur en gemiddelde, groot foute is geneig om meer invloed oor RMSE het. In teenstelling, is individuele foute dieselfde gewig in MAE. Daar is reeds baie debat oor die keuse van MAE of RMSE as 'n aanduiding van model prestasie 66. 67 is. Simmetriese beteken absolute persentasiefout (sMAPE): Dit is volgens skaal onafhanklike en dus gebruik kan word om voorspellings oor die prestasie tussen verskillende data-reeks te vergelyk. Dit oorwin 2 nadele van gemiddelde absolute persentasiefout (Mape) naamlik (1) die onvermoë om fout te bereken wanneer die ware ontslag is nul en (2) swaarder strawwe vir positiewe foute as negatiewe foute. sMAPE is 'n meer robuuste skatting van voorspelling fout en word bereken as: sMAPE beteken (200124 y t - f t 124 / y t f t). Maar sMAPE wissel 200-200, gee dit 'n dubbelsinnige interpretasie 68. Resultate Model Performance In hierdie artikel, ons die resultate van die vergelyking van ons verskillende vooruitskatting metodes te beskryf. Die model parameters vir KNN voorspelling, RF, en SVR modelle is ingeskakel om voorspelling foute te verminder. Vir KNN regressie, die optimale waarde van lengte patroon: d en aantal naaste bure: k. verkry deur die ontleding vooruitskatting RMSE vir waardes d (1100) en K (5,1000). Minimum RMSE van 3,77 is verkry by d 70 en k 125. Die SVR parameters C (straf koste) en (hoeveelheid toegelaat fout) is bepaal deur die keuse van die beste waarde uit 'n soektog rooster, wat die model RMSE minimum beperk word. Net so is die optimale aantal veranderlikes in die bou van elke knoop van die RF is gekies deur die ondersoek van die uitwerking daarvan op die vermindering van die buite-sak skatting. Ons vergelyk die naïewe vooruitskatting metodes met ons voorgestelde 5 modelle met behulp van MFE, MAE, RMSE, en sMAPE. Die resultate word in Tabel 5. terwyl Figuur 13 vergelyk die verspreiding van werklike ontlaai met ander model voorspellings. Voorspel akkuraatheid van verskillende modelle. 'n ARIMA: outoregressiewe geïntegreerde bewegende gemiddelde b ARMAX: outoregressiewe bewegende gemiddelde met eksogene veranderlikes Die naïewe voorspellings is nie in staat om alle variasies in die data vas te lê en het gelei tot die maksimum fout in vergelyking met ander modelle. Die verskille in seisoen en tendens is beter vasgevang word in ARIMA en ARMAX modelle. Die tydreekse wat bestaan ​​uit afgelope 3 maande ontlaai is gebruik om die volgende dag ontslag voorspelling genereer. Die ARMAX model ook die dag van die week en wyk besetting as eksogene veranderlikes, wat gelei het tot 'n beter voorspelling prestasie oor ARIMA. Dis interessant dat KNN was meer suksesvol as ARIMA en ARMAX in die bewaring van die variasies in ontslag, toon sowat 3 verbetering in MAE, wanneer dit vergelyk word met ARMAX.


No comments:

Post a Comment