Saturday 23 September 2017

Trading Strategie To Exploit News Sentimento


Archivi categoria: Carte Trading Ho appena imbattuto in questo documento e ha voluto documentare qui per qualcosa di tornare a prova e per me stesso, si spera lo troverete interessante come ho fatto io. Il metodo ha quattro parametri: Sentiment periodo analizzato 8211 Quanti giorni di dati sentiment precedenti di utilizzare Tenere Periodo 8211 Quanto tempo per tenere un commercio per capitalizzazione di mercato 8211 Do small cap e large cap rispondere lo stesso Diversication 8211 Quanti titoli di avere in portafoglio Ciascuno dei parametri del modello di trading è anche analizzato e spiegato loro effetti. Il documento delinea un algoritmo di mercato neutrale sentimento basato il commercio che è di nuovo testato nel corso di un periodo di cinque anni (2005-2009) e produce alcuni rendimenti eccezionalmente impressionanti quasi 40 in alcuni anni, a seconda della configurazione. Quello che mi piace di più la carta è che l'attività di commercio viene selezionato basa su un criterio fisso (cioè è nella top n sentimenti più estremi), questo si ferma effetti positivi di polarizzazione in cui l'autore potrebbe semplicemente presentare scenari redditizie ciliegia scegliere i risultati . Il sentimento si basa su analisi di notizie messaggi, blog e tweet. Dal momento che Twitter è entrato in esistenza solo nel 2009 gli autori hanno avuto solo mezzo anni di dati di Twitter da analizzare. I grandi risultati in questo documento sono stati raggiunti senza dati di Twitter utilizzando le normali fonti di notizie e blog. Il documento dimostra che le dimensioni contano corpus, utilizzando i blog possono essere un metodo più economico per raccogliere un corpus (raschiare un sacco di feed RSS), mentre con Twitter non ci sono limitazioni per i dati che si può ottenere gratuitamente (datafeeds pieni iniziare a 3500 al mese. ). Un'idea di serie in economia comportamentale è che le emozioni svolgono un ruolo importante nel processo decisionale e profondamente influenzare un comportamento degli agenti. Questa linea di logica può essere applicata al mercato azionario, il prezzo si muove sono in funzione delle emozioni degli agenti del mercato. Nel 2011 un articolo di Johan Bollen, Huina Mao, Xiaojun Zeng chiamato 8220Twitter umore predice il magazzino market8221. è dimostrato che mediante l'applicazione di sentiment analysis al post di Twitter (tweets) è possibile valutare l'attuale stato emotivo di agenti. Il documento passa poi a sostenere che l'emozione di Twitter è correlata con i movimenti del mercato e forse anche predittivo dei movimenti. Dopo questo lavoro è stato punto di riferimento pubblicano un certo numero di fondi hedge hanno preso l'idea e prodotto fondi Twitter, il fondo di Twitter più pubblicamente noto è gestito da Derwent Capital. Ho intenzione di indagare ulteriormente questa idea in questo blog, ma se si vuole iniziare prima di me il seguente dovrebbe essere utile: Strategie di Trading per sfruttare Blog e notizie sentimento. Citazioni Citazioni 49 Referenze Referenze 22 quotOpinion estrazione (noto anche come sentiment analysis) 1, 2 è stato in primo luogo proposto all'inizio di questo secolo ed è diventato un'area di ricerca attiva gradualmente. Inoltre, varie applicazioni pratiche di opinion mining, come ad esempio i prezzi dei prodotti 3, competitive intelligence 4, la previsione di mercato del 5, 6, la previsione delle elezioni 7, 8. nazione rapporto ana - sis 9, e la rilevazione del rischio nel sistema bancario 10, disegnano ampie attenzioni da comunità industriali. D'altra parte, la crescita dei social media. commercio elettronico e siti di recensioni online, come Twitter, Amazon, e Yelp, fornisce una grande quantità di corpora, che sono risorse cruciali per la ricerca accademica. quot Mostra astratto Nascondi Abstract Abstract: Come la prevalenza di mezzi di comunicazione sociale su Internet, opinion mining è diventato un approccio essenziale per analizzare tanti dati. Varie applicazioni appaiono in una vasta gamma di settori industriali. Nel frattempo, le opinioni sono diverse espressioni che portano insieme le sfide della ricerca. Entrambe le esigenze pratiche e sfide di ricerca fanno opinion mining un'area di ricerca attiva negli ultimi anni. In questo articolo, presentiamo una rassegna di Natural Language Processing (NLP) tecniche di opinion mining. In primo luogo, si introduce tecniche di PNL generali che sono necessari per la pre-elaborazione del testo. In secondo luogo, si indaga gli approcci di opinion mining per diversi livelli e situazioni. Poi si introduce comparativa mineraria opinione e approcci di apprendimento profondi per opinion mining. Parere riepilogo e argomenti avanzati vengono introdotti in seguito. Infine, si discute alcune sfide e problemi aperti legati alla opinion mining. Testo integrale dell'articolo Nov 2016 su riviste internazionali di Advanced Computer Science e Applicazioni risultati Shiliang Sun Chen Luo Junyu Chen quotOur conformi a quelle del 14 in cui è stato dimostrato che la polarità sentimento non è in grado di catturare il rapporto di causalità di tutti gli indici. I nostri risultati sono conformi anche con quelli di 15, 16, dove è stato dimostrato che il sentimento tweets e il volume influenzano lo stock prezzi cambiano. Lo stesso si può dire per 3, 4, anche se hanno usato comportamenti sentiment differenti che si basano su l'emozione presentato nel contenuto tweet. quot Mostra astratto Nascondi Abstract Abstract: gli utenti dei social media al giorno d'oggi esprimere le loro opinioni e sentimenti su molti evento verificatosi nella loro vita. Per alcuni utenti, alcuni degli eventi più importanti sono quelli relativi ai mercati finanziari. Un campo di ricerca interessante è emerso negli ultimi dieci anni per studiare la possibile relazione tra la fluttuazione dei mercati finanziari e il social media on-line. In questa ricerca vi presentiamo uno studio completo per identificare la relazione tra tweets finanziari legati araba e la variazione dei mercati azionari utilizzando una serie di indici azionari arabi più attivi. I risultati mostrano che vi è una relazione Granger causalità tra il volume e il sentimento di tweet in arabo e il cambiamento in alcuni dei mercati azionari. studi di analisi Articolo giugno 2016 Khalid Alkhatib Abdullateef Rababah Mahmoud Al-Ayyoub Yaser Jararweh quotPast sentimento full-text sono stati condotti per predire l'andamento delle vendite 4, prevedere il mercato azionario, 5, strategie di studio di trading 6, correlare i sondaggi di opinione pubblica a Twitter sentimento 7, e prevedere i risultati sentimento 8. Mentre alcune ricerche sono state condotte per studiare punti di vista politici 9 e caratterizzare le relazioni sociali 10, studi di analisi pochi sentiment sono stati condotti con l'obiettivo esplicito di prevenzione dei conflitti e costruzione della pace strategica. quot Mostra astratto Nascondi Abstract Abstract: Noi cerchiamo di sviluppare una applicazione web-based per rilevare conflitti emergenti in aree geografiche specifiche. L'applicazione si baserà su una informazione continua nutrire da una fonte di dati come ad esempio Twitter. Dai dati raccolti, si individueranno raffiche di attività ed eseguire un sentiment analysis sulla raccolta di testo in ogni raffica di attività. Sulla base dei risultati dell'analisi sentimento, identificheremo l'argomento sentimento o eventi, sequenza di eventi, il rapporto tra eventi, e il rapporto tra soggetti coinvolti in ciascun evento. Ci sarà anche individuare come gli attori e gli eventi sono legati gli uni agli altri. Dato un insieme di dati esistenti Twitter, identifichiamo le questioni connesse o eventi che soddisfano criteri specifici sentimento, misurano come le persone si sentono sui problemi, ed esaminare la relazione tra gli eventi ad esempio se un evento provoca un altro o se un evento è stato causato da un attore. Testo integrale Technical Report Maggio 2016 International Journal of Advanced Computer Science and Applications Henry Dambanemuya Christopher RaySentiment Analysis in Finanza I partecipanti dei mercati finanziari, vale a dire, dealerbrokers, market maker, scrivanie prop trading delle banche d'investimento, analisti in fondi hedge e fondi di investimento come così come i commercianti al dettaglio, tutto entrare nel mercato di sfruttarlo da diverse prospettive. Per i commercianti e gestori di fondi la sfida è quella di trasformare le informazioni di mercato in un aumento del valore delle loro partecipazioni di asset, cioè, di catturare l'alfa sempre sfuggente. Dove e come possono le aziende innovare per ottenere tale analisi alfa sentiment è un settore emergente in cui i dati strutturati e non viene analizzato per generare indicazioni utili che portano al miglioramento delle prestazioni. Attraverso text mining di notizie, microblog, ed i risultati di ricerca online (Google, Wikipedia), enormi quantità di dati vengono distillate in informazioni. Queste informazioni vengono poi utilizzate per costruire le strategie attuabili per (i) il commercio, (ii) la gestione del fondo e (iii) il controllo dei rischi. In questa conferenza, leader di pensiero ed esperti in materia provenienti da Europa, Regno Unito, Stati Uniti d'America e della regione AsiaPac (tra cui India e Cina) presenteranno i loro risultati, la loro conoscenza e l'attuale stato dell'arte in questo settore in rapida emergente di Sentiment Analysis applicata alla Finanza . Il programma si concentra sull'applicazione della Sentiment Analysis ai rispettivi modelli di trading, gestione di fondi e di controllo del rischio. I leader di mercato e fornitori di contenuti event-driven e analisi, vale a dire Thomson Reuters e Bloomberg, e loro esperti di dominio di alto livello, presenti e spiegare i loro prodotti e servizi in questo settore di sentiment analysis applicata alla finanza. aree argomento trattato: Fondamenti 038 Tecnologie di Sentiment Analysis per il sentimento Finanza Multi-Dimensional Analysis Notizie sentimento e di Borsa reazioni Sfruttare Sentiment Analysis in mercati finanziari A chi è rivolto Il convegno è rivolto ai seguenti gruppi: professionisti del settore FinTech squadre Quant da investimento e hedge fund trader ad alta frequenza Prop trading desk delle banche d'investimento Consumermarketing analisi aziende Introduzione e benvenuto dal professor Gautam Mitra, Optirisk UCL Prof. Gautam Mitra Gautam Mitra misurare e prevedere Human Behaviour Utilizzo di dati in linea Tobias Preis, Warwick business School In questo discorso, mi illustrerà alcuni punti salienti recenti della nostra ricerca, affrontando due questioni. In primo luogo, possono grandi risorse di dati fornire approfondimenti di crisi dei mercati finanziari Analizzando i volumi di query di Google per i termini di ricerca relative ai finanziamenti e vista articoli di Wikipedia, troviamo i modelli che possono essere interpretati come segni premonitori di movimenti del mercato azionario. In secondo luogo, possiamo fornire una conoscenza delle differenze internazionali in benessere economico confrontando modelli di interazione con Internet Per rispondere a questa domanda, si introduce un indice futureorientation per quantificare il grado in cui gli utenti di Internet cercano maggiori informazioni sulla anni nel futuro rispetto agli anni in passato. Analizziamo i log di Google e trovare una correlazione evidente tra il PIL countrys e la predisposizione dei suoi abitanti per guardare al futuro. I nostri risultati dimostrano il potenziale che combinando ampie serie di dati comportamentali offerte per una migliore comprensione del comportamento economico umana larga scala. Tobias Preis TEA Coffee Break Una cosa che ogni Quant ha bisogno di conoscere le lingue asiatiche Elia DePalma, Thomson Reuters Opportunità abbonda di Markets asiatico dalla vendita al dettaglio al settore bancario globale. Accesso gli strumenti giusti per analizzare i sentimenti e le tendenze sono particolarmente preziosi, mentre continuiamo a vedere turni, la frammentazione e cambiamenti nel paesaggio. Dall'Australia, all'ASEAN in Giappone, Thomson Reuters può aiutare a ottenere il vantaggio, così come uno dei primi a fornire una larghezza di analisi lingue asiatiche che le richieste di mercato. Per aiutarvi a navigare le sfide e le opportunità con il giusto strumenti di analisi di dati Questo webinar discutere: Bull New Asia Regione Analytics: Intelligenza intorno reazioni intraday di mercato e un'ampia dati toro sentiment di mercato Larghezza di Thomson Reuters dati: set di contenuti unici, indici sentimento e la copertura della sicurezza attraverso una varietà di imprese regionali, tra cui le imprese in Giappone, Australia e Nuova Zelanda toro stile d'investimento casi d'uso: il contenuto robusto fornisce l'accesso e l'intelligenza necessarie anche per i più complessi stili di investimento e tipi. Elia DePalma Insights in sentiment del mercato e Trading Strategies Gautam Mitra, OptiRisk Sistemi Sentiment Analysis sta emergendo come un importante strumento di tecnologia dolce che sta influenzando Business Intelligence e Performance Evaluation come queste sono praticate nell'industria e nel commercio di oggi. In questo discorso abbiamo prima introduciamo le molteplici fonti di informazioni, vale a dire, Notizie Fili, Annunci macro-economiche, Social Media, MicroblogsTwitter, in linea (di ricerca) Informazioni come Google Trends e Wiki. Abbiamo poi descriviamo un modello con il quale si misura l'impatto di questi e, infine, come questo provvedimento impatto è utilizzato per migliorare i modelli predittivi della risorsa behaviour. As il nostro obiettivo è quello di migliorare la ALPHA dei nostri portafogli commerciali che descriviamo strategie con cui facciamo delle scelte per asset allocation. In particolare si descrive come applicare Secondo Ordine stocastico dominanza di asset allocation e combinare questo con la strategia Kellys per la gestione del denaro. A base di Sentiment Gautam Mitra PAUSA PRANZO Commodity Trading Svetlana Borovkova, Vrije Universiteit Amsterdam In questa presentazione, si affronta la questione del commercio di materie prime sulla base di notizie sentimento. In primo luogo, si delineano gli effetti di notizie sentiment sui prezzi dei vari futures su materie prime. Redditizie strategie di trading sentimento-based sono poi costruiti per singole materie prime, con l'eventuale obiettivo di costruire una strategia di trading diversificata multi-merce redditizia. Il sentimento notizia è estratto dal Thomson Reuters News Analytics motore (TRNAE) e le materie prime scambiate sono i componenti del Dow Jones Commodity Index (DJCI). Abbiamo dimostrato che proficue strategie di trading sentimento-based possono essere costruiti, che mostrano coerente buone prestazioni per vari prodotti, nonché per i portafogli delle materie prime. Analizziamo le strategie anche in termini di profili di rischio e mostrare come il rovescio della medaglia può essere limitata. Svetlana Borovkova testo e analisi della rete per i sentimenti estrazione Enza Messina, Università di Milano-Bicocca In questo discorso si mostra come le relazioni sociali possono essere riuscito a migliorare a livello utente sentiment analysis di microblog, superando la limitazione dello stato-of-the-art metodi che considerano generalmente i messaggi come dati indipendenti. Mostriamo come conciliano contenuti postali e informazioni struttura di rete possono portare a miglioramenti significativi nella classificazione di polarità del sentimento sia a posto ea livello di utente. Enza Messina TEA PAUSA CAFFE 'Sentiment in valuta Changjie Liu, Analytics a studi Sentiment MarketPsych sui mercati finanziari sono tipicamente focalizzati sulle azioni. Qui ci concentriamo su valute, cercando in loro caratteristiche sentimento, esempi di eventi storici, e prova da fuori l'applicazione di strategie sentimento per questa classe di attivi. ascolto Changjie Liu sociale folla di informazione finanziaria Quasi tutte le fonti di notizie on-line, che sono le fonti tradizionali che conosciamo del calibro di Bloomberg e Reuters, sono una frazione del contenuto che è disponibile sul World Wide Web. Il contenuto rimanente proviene da nuove fonti dei media tra cui Twitter, YouTube e Facebook generato da individui che parlano di eventi in tempo reale. Questi milioni di voci, quando strutturato, in grado di generare intuizioni che possono aiutare gli investitori a prendere decisioni di investimento. Questa presentazione toccherà su come Sentifi strutture e fornisce queste informazioni, fornendo un vantaggio informativo per le piattaforme dei media a livello globale. Huyen Tran Panel Session 2- nuovi paradigmi per Sentiment Analysis applicato alle grandi strategie FinanceTrading di sfruttare Notizie Sentiment Strategie Trascrizione 1 di trading per sfruttare Notizie Sentiment Wenbin Zhang e Steven Skiena e Dipartimento di Informatica Università di Stony Brook Stony Brook, NY USA astratta Usiamo notizie quantitativa dati generati da un sistema di analisi di notizie su larga scala di elaborazione del linguaggio naturale (NLP) di effettuare uno studio completo su come una società s frequenza di notizie riportate, la polarità sentimento e la soggettività anticipa o riflette i suoi volumi di compravendita di azioni e ritorni finanziari. La nostra analisi fornisce la prova concreta che le notizie dei dati è altamente informativo, come già suggerito in letteratura, ma mai studiato sulla nostra scala di oltre 500 giornali ogni giorno per più di quattro anni. Basandosi sui nostri risultati, diamo una strategia di trading market neutral news-based che dà rendimenti costantemente positivi con bassa volatilità nel corso di un periodo di quattro anni (). I nostri risultati sono significativi nel confermare le prestazioni dei metodi di analisi sentimento generale oltre ampi domini e fonti. 1 Introduzione L'ipotesi di mercato efficiente afferma che i mercati finanziari sono vista informativo efficiente, il che significa che i prezzi delle azioni attuali riflettono già tutte le informazioni note e tutti i fatti si sono verificati. Inoltre, i prezzi in mercati finanziari sono imparziale e contengono tutta la saggezza o previsioni per il futuro da parte degli investitori. Pertanto, gli investitori non possono fare profitti in eccesso dal mercato se le loro strategie di trading si basano su informazioni note, in quanto i prezzi di mercato sono in modo efficiente la raccolta e l'aggregazione varie informazioni e continuare a cambiare immediatamente. Tuttavia, una grande e crescente letteratura documenta che i movimenti di indicatori finanziari non sono sempre coerenti con le misure quantitative delle imprese fondamentali (ad esempio 5, 18, 20, 21). Questo mandati un ripensamento della fluttuazione dei prezzi delle azioni a cercare altre prove di spiegarlo. Alcuni risultati incoraggianti dimostrano l'uso del condizionale ipotesi di mercato efficiente. In particolare, 3 mostra che i prezzi delle azioni sembrano andare alla deriva dopo importanti eventi societari per fino a diversi mesi. Questo suggerisce che alcuni la deriva è causata dal s prezzo sotto-reazione alle informazioni. dati Notizie in tal modo potrebbero fornire un modo fattibile e utile per analizzare i mercati finanziari. Il nostro obiettivo primario è quello di studiare la relazione tra i dati del mercato azionario e dei dati di notizie, e per illustrare la misura in cui possono contribuire alla progettazione di strategie di investimento. I nostri principali contributi in questo documento sono: Large-Scale Approfondimenti Diamo risultati completi di analisi del mercato azionario utilizzando circa un terabyte di dati di notizie e migliaia di aziende diverse. Questa scala di analisi non è mai stato tentato in precedenza nella letteratura, e ci permette di individuare a breve termine, ma le correlazioni statisticamente significative tra il sentimento del volume notizie e ritorni finanziari volumi di scambio. Corpus Size Matters impieghi precedenti sull'analisi finanziaria sentimentbased (ad esempio 21) si concentrano in modo esplicito sui quotidiani finanziari nazionali, in particolare il Dow Jones News Service e il Wall Street Journal. Tuttavia, abbiamo dimostrato che un più significativo, segnale di sentimento affidabile proviene da analisi di un corpus completo di 500 statunitensi quotidiani di una semplice lettura del New York Times. Sentiment orientata azionario Trading Proponiamo una strategia di trading azionario market neutral, basata completamente su dati sentimento tratti da fonti di notizie pubblicate. Attraverso un'attenta sperimentazione in quattro anni pieni di newsprice () dei dati, dimostriamo che la nostra strategia offre rendimenti interessanti con una bassa varianza (ignorando sia i costi di transazione e la risoluzione temporale discusso nella sezione 3.3). Convalida di Sentiment Analysis metodi Forse il contributo più importante del nostro lavoro è la validazione più forte fino ad oggi della precisione della metodologia di analisi sentimento Lydia. convalida adeguata è impossibile in assenza di qualsiasi concordato gold standard per il livello di entità sentiment analysis 17. 1 2 Ma la nostra capacità di estrarre un segnale sentimento sufficientemente affidabile per la negoziazione con successo su (a prescindere dalla risoluzione temporale) fornisce la prova rigorosa che i nostri metodi sentimento riflettere accuratamente reali cambiamenti in risposta a eventi di cronaca. Pubblicato convalida è fondamentale per stabilire la nostra analisi come una risorsa per la legittima ricerca delle scienze sociali. I progetti che utilizzano l'analisi Lydia sono già in corso in scienze politiche, sociologia, e le relazioni internazionali. Questo documento è organizzato come segue. Esaminiamo attività collegate nella sezione 2. Abbiamo poi descrivere l'origine e le caratteristiche delle notizie e dati finanziari con cui lavoriamo. Nella sezione 4, diamo una completa analisi della correlazione tra le principali variabili del mercato azionario e le principali variabili di notizie, che è la parte più importante di questa carta. Infine, nella sezione 5, proponiamo e valutare una strategia di trading marketneutral sulla base dei dati di notizie. Concludiamo che i prezzi finanziarie sono significativamente correlati con i dati di notizie quantitativa e possono essere utilizzati per formulare strategie di trading interessanti. 2 Il lavoro correlati impieghi precedenti è divisa tra finanza e informatica comunità accademiche. In primo luogo abbiamo Survey Research dal regno finanziario. Tetlock 21 indaga se il verificarsi di parole negative in articoli di notizie firm-specific può aiutare a prevedere i flussi di cassa delle imprese e se i prezzi di mercato delle imprese magazzino incorporare in modo efficiente informazioni linguistiche. Essi sostengono che i prezzi delle aziende Stock Under-reagiscono alle informazioni negative alla base di articoli di notizie. Più in particolare, le informazioni negative in articoli di notizie si riflettono nei prezzi di borsa con circa il ritardo di un giorno. Chan 3 esamina rendimenti mensili a un sottoinsieme delle scorte dopo la notizia del pubblico su di loro viene rilasciato e scopre che gli investitori reagiscono lentamente alle informazioni, soprattutto dopo le cattive notizie. Un altro dato importante è che le scorte tendono a invertire il mese successivo dopo i movimenti di prezzo estreme non accompagnati da notizie pubblico. Questi modelli sono statisticamente significativi, anche dopo aver escluso annunci di utili, controllando per dimensione, book-to-market, l'esposizione al rischio e altri effetti. Una limitazione di questo studio è grossolana, granularità mensile dell'analisi. Nel nostro documento, forniamo l'analisi delle news e dei prezzi movimenti quotidiani. Antweiler e Frank 1 studio oltre 1,5 milioni di messaggi da Yahoo Finance e Raging Bull, che sono i due più popolari di Internet messaggio stock stiro. Hanno impiegato Naive Bayes e supporto Vector classificatori macchina per valutare il contenuto tendenza al rialzo di questi messaggi azionari. Essi mostrano queste bacheche sono abbastanza informativo, e, inoltre, che tendenza al rialzo è positivamente e significativamente associato con ritorni. In termini di volume degli scambi, il documento mostra opinioni controverse sono associati con più mestieri. Il documento mostra anche i messaggi messaggio di aiuto per prevedere la volatilità sia per scambi giornalieri e intraday. Dal lato Computer Science, le ricerche intense sono forniti da comunità minerarie testo o di machine learning. La loro idea di base è quella di quantificare le informazioni linguistiche con tecniche di text mining, ottenere il set predefinito di caratteristiche dei dati di formazione, e poi costruire vari modelli con approcci statistici classici o algoritmi di apprendimento statistico. Un'indagine dettagliata del text mining per la risposta del mercato alla notizia può essere trovato in 14. In particolare, il modello 3-categoria è ampiamente utilizzato per i documenti di etichette o parole. La prima categoria (sentimento positivo) consiste di articoli di notizie o parole che rendono le variabili finanziarie associate aumentare in una certa misura in un certo periodo di tempo, per esempio, un evento di notizie rende il prezzo del singolo magazzino IBM aumentare 0,5 nel giorno successivo . La seconda categoria (sentimento negativo) consiste di articoli di notizie o parole che rendono le variabili finanziarie associate diminuiscono in una certa misura in un certo periodo di tempo. La terza categoria è costituita da articoli di notizie neutri o parole. Le tre categorie potrebbero essere etichettati come incremento (almeno 0.5), diminuzione (almeno 0.5) e rimangono costanti, o pollici in su, pollice verso, e nessuna raccomandazione. La ricerca che può caratterizzata a questo modello include 7, 8, 11, 12, 15, 19, 22, 23. C'è stato anche notevole interesse per l'estrazione e la comunità parere NLP sull'utilizzo di testo finanziaria flussi come dominio per testare metodi di analisi sentimento , di cui 4, 10, 16. in generale, si applicano il recupero delle informazioni o tecniche di apprendimento automatico per classificare il testo flussi in alcune categorie e sperano di produrre una migliore precisione di classificazione di essere umano, e quindi il parere di fondo potrebbe essere scoperto. Pang e Lee 17 ha dato una recensione dettaglio in questo settore. 3 Stock e Notizie dati Qui si descrivono le azioni e notizie fonti di dati che è la base per l'analisi in questo documento. 3.1 dati Stock Il nostro prezzo delle azioni e il volume dei dati è ottenuto da Thomson Datastream Servizi 6, un database completo con serie storiche su più di due milioni di strumenti. Qui consideriamo solo i titoli quotati sul New York Stock Exchange, perché gli stock hanno una copertura media più intensa di scorte in altri mercati. Abbiamo scaricato i dati di tutti gli stock 3238 entro il periodo dal 1 ° gennaio, 03-31 ottobre 2008 per il loro aperto tutti i giorni, stretti, alti, bassi prezzi, volumi di fatturato, e le capitali di mercato mensili. 3.2 Analisi notizie Notizie dati riguardanti la Società è stata generata utilizzando il Lydia (13, un sistema di elaborazione di testo ad alta velocità, che riduce il testo di grandi dimensioni flussi di dati di serie storiche sulla frequenza del sentimento di entità notizie sottostanti. In questo lavoro, si confrontano due diverse raccolte di nuove fonti. I quotidiani depositario comprende la copertura di oltre 500 giornali a livello nazionale e locale tra il 1 novembre 2004 e il 30 ottobre 2008, mentre il depositario del New York Times è costituito da un unico quotidiano nazionale su un periodo di tempo più lungo (dal 1981 al 2008). 3.3 Notizie Problemi di temporizzazione corretta interpretazione dei nostri risultati richiede attenzione alla tempistica di nostre notizie spidering (text retrieval) agenti. per la notizia corpus Dailies impieghiamo, il programma spidering comincia a scaricare notizie a 11pm EST tutti i giorni, un processo che può richiedere quasi 12 ore. Tutti questi articoli sono accreditati al giorno in cui il programma di ragno cominciò a correre. Così, mentre la maggior parte della nostra notizia è stata sicuramente recuperata prima della 09:30 apertura del NYSE ogni giorno, non possiamo garantire che è inquinata da eventi notizie di segnalazione dopo l'apertura del mercato. Diversi problemi di temporizzazione sono associati con il corpus del New York Times, in cui la data di pubblicazione è fornita dalla fonte di notizie. Come un giornale del mattino, esso si rivolge la pubblicazione ben prima dell'apertura dei mercati, ma la pubblicazione contemporanea on-line offusca il ritmo del ciclo di notizie così. La consistenza generale dei nostri risultati in entrambe corpora (in differenti modelli di temporizzazione) presta sostegno alle nostre conclusioni, ma il grado in cui seguiamo piuttosto che anticipare i movimenti dei prezzi non possono essere definitivamente risposta da questo studio. 3.4 Lydia Sentiment Analysis I dati di sentiment analizzati nel presente documento è stato scaricato da e si compone di serie temporali di favorevoli (positivi) e sfavorevoli parole (negativi) co-referenziato con occorrenze di ogni nome dell'entità (qui le aziende che denotano). Il lessico di quasi 5.000 parole sentimento-Laden è stato costruito attraverso l'ampliamento synonymsantonyms da piccoli insiemi di parole di semi con le imprese associate, Crimine, salute, politica, sport, e domini Media. Un indice generale sentimento aggrega i lessici da tutti questi domini. Ulteriori dettagli delle variabili ArtCounts GenPola GenDiffPer GenSubj Correlazioni Tabella 1: coefficienti di correlazione di quattro variabili di notizie tra il New York Times e corpus di notizie Dailies. Qui esaminiamo Conti Articolo normalizzati, Generale polarità, differenza Generale Per riferimento, e il generale soggettività oltre una scala temporale mensile. metodi di analisi sentimento Lidia e la loro convalida sono riportati in 2, 9. Per l'analisi dei mercati finanziari, siamo stati più interessati a categorie generali, commerciali, e Media. Dopo l'analisi iniziale di correlazione, abbiamo identificato la categoria generale è quella più rilevante, e quindi usiamo solo il sentimento generale nella successiva analisi. Sia p ed n il numero di riferimenti positivi e negativi prime per una data entità, che si verifica per un totale di N volte nel corpus (compresi i riferimenti neutri). Poi ricaviamo le seguenti misure sentimentsubjectivity naturale da questi conteggi prime: polarità (pn) soggettività (PN) (np) n pos arbitri per ref arbitri pn neg per ref nn diff Senti per ref (pn) n Queste misure non sono altamente correlati con sentimento grezzo conta e che può fornire ulteriori informazioni che i dati grezzi non può. Pertanto, con loro saremo in grado di evitare multicollinearità durante l'analisi lineare. 3,5 di corrispondenza notizie Stock Entità un importante problema di problemi tecnici che rispondono ai nomi di riserva e di entità notizie. Ad esempio, il primo NYSElisted del Commonwealth finanziario è associato a tre entità nel nostro database notizie: in primo luogo del Commonwealth finanziari, prima del Commonwealth Financial Corporation, e prima del Commonwealth Financial Corp. Noi aggreghiamo le serie storiche di tutte le tre entità notizie per definire la serie storica notizia per questa specifica società. Il nostro algoritmo di matching produce dati di notizie su 1113 titoli per i quotidiani notizie e 867 scorte per il New York Times. 3.6 New York Times contro Dailies Qui indagare il rapporto tra i due corpus di notizie che studiamo. È la copertura nazionale o locale più prezioso per l'analisi finanziaria La tabella 1 elenca i coefficienti di correlazione per alcune variabili di notizie tra New York Times e quotidiani. Le principali osservazioni sono: 3 4 frequenza di riferimento La correlazione tra i mensili (annuali) normalizzato conta articolo di News York Times contro Dailies è (0,6651). Il corpus condividono una correlazione più alta con frequenza rispetto alle variabili sentimento, che riflette sia la maggiore variabilità nella prospettiva editoriale e la difficoltà di individuare con precisione sentimento utilizzando metodi algoritmici. Sentiment polarità La correlazione sentimento di polarità mensile tra i due corpus è. ed è statisticamente significativo. Tuttavia, il volume notizie più piccola di New York Times provoca sempre più frequenti valori polarità estreme (1, 0, o -1). Questo problema si riduce utilizzando differenze sentimento per riferimento, (GenDiffPer) per cui New York Times e quotidiani rimangono positivamente e significativamente correlati. Tabella 1 indica che GenDiffPer è una misura migliore di polarità. La soggettività Il coefficiente di correlazione di soggettività tra i corpus è. come riportato in Tabella 1. Una osservazione è che la soggettività media di New York Times è maggiore di quella dei quotidiani. Queste correlazioni sostanziali spiegano perché si ottengono risultati qualitativamente simili per entrambi i corpus. Tuttavia, i quotidiani fornisce risultati migliori rispetto del New York Times a causa del suo volume un'entità superiore. Per motivi di spazio, ci limitiamo successive discussioni alla quotidiani corpus se non esplicitamente menzionato il contrario. 4 Correlazione di News Prezzo Dati In questa sezione, si analizzano le correlazioni tra news e archivio variabili su larga scala. Qui su larga scala significa analisi per tutte le notizie vs. coppie nome NYSE abbinati. 4.1 Notizie frequenza vs. volume degli scambi Il primo problema che si studia è il rapporto tra i riferimenti di notizie e il volume degli scambi. Intuitivamente, più riferimenti di notizie dovrebbero portare a volume di scambio superiore. Per compensare le variazioni tecniche in spidering efficacia, usiamo articolo normalizzato risiedono invece di conteggi articolo prime per correggere le fluttuazioni del volume totale di notizie spidered ogni giorno. In particolare, si utilizzerà sempre connesso conta articolo normalizzati come la nostra misura standard di frequenza di notizie entità, che segue una distribuzione gaussiana. Alcune osservazioni significativi sulla frequenza notizie sono: Forza di correlazione Per entrambi i quotidiani e depositari New York Times, il coefficiente di correlazione tra i conteggi registrati articolo normalizzata e registrati volume di compravendita di azioni sono più di 0,4. Figura 2: Logged mensile normalizzato articolo Conti vs connessi Stock Trading volume per quotidiani notizie, suddivise per capitalizzazione di mercato. Articolo conta contro altre frequenze Abbiamo confrontato tre misure distinte di frequenza notizie di riferimento: le frequenze di entità, i conteggi di frase, e conta articolo. I nostri esperimenti mostrano conteggi articolo correlato con volumi di compravendita di azioni al meglio, quindi, tutto il nostro articolo uso dell'analisi conta invece le altre due misure. analisi giornaliera, mensile e annua Il coefficiente di correlazione di registrati conta articolo normalizzati rispetto registrato volume di compravendita di azioni normalizzato per il quotidiano, mensile e analisi annuale sono. rispettivamente. Pertanto, l'analisi mensile è una scala di tempo adeguato per l'analisi. Persistenza nel tempo In che oggi s conta articolo correlato con ieri s o domani s volumi di negoziazione Un giorno di ritardo genera la più alta correlazione (0,74), ma i coefficienti di correlazione persistono (tra 0,64 e 0,68) per periodi fino a dieci giorni nel futuro. Ciò è dovuto alla elevata autocorrelazione per entrambi i fronti di articoli e volumi di commercio. Infatti, i volumi di auto-correlazione di commercio era al di sopra dello 0,9 per ritardi fino a dieci giorni. Influenza del secondo settori La Figura 1 mostra l'analisi per i diversi settori. Troviamo che per i settori farmaceutici amp Biotechnolog, aerospaziale amp Difesa e automobili amp parti, riferimenti notizie intensivi hanno maggiori probabilità di causare più mestieri. Al contrario, i volumi di scambio per i settori amp elettronico apparecchiature elettriche ed Software amp Computer Services sono meno sensibili alla esposizione mediatica. Ripartizione per capitalizzazione di mercato Figura 2 mostra 4 5 Figura 1: Connesso mensile normalizzato articolo Conteggi vs. connessi Stock Trading volume per quotidiani notizie, suddiviso per settori di mercato. la scomposizione di analisi per le diverse capitali del mercato. Questo dato indica che i coefficienti di correlazione tra i conteggi degli articoli e il volume di compravendita di azioni diventano più forti e più forte con l'aumento della capitalizzazione di mercato. Per le grandi imprese a sufficienza, la copertura delle notizie riflette l'importanza relativa più di notiziabilità distintivo. 4.2 Frequenza vs maiuscole Il secondo problema che abbiamo studiato è il rapporto tra i riferimenti aziende notizie e le loro corrispondenti capitali di mercato. Di solito le imprese più grandi ricevono più la copertura delle notizie. Infatti, la nostra analisi mensile mostra il coefficiente di correlazione tra le capitali del mercato imprese e volumi di negoziazione è pari al 0,8. Infatti, il mensile conteggio articolo normalizzato registrato anche correlata positivamente con le capitali mercato registrati con un coefficiente di correlazione di 0,42, ed è statisticamente significativa. 4.3 Notizie polarità rispetto della restituisce una domanda più interessante è il ritorno delle scorte. Crediamo che il ritorno degli stock sono rilevanti per l'opinione pubblica delle imprese corrispondenti, ad esempio, quanto bene o male come la gente pensare a queste imprese. Se la gente pensa una ditta è buono, più probabile che il prezzo delle azioni alzerà, e, quindi, ci sarà ottenere un ritorno positivo, e viceversa. Nella nostra analisi, la polarità è un termine quantitativa per descrivere quanto è buono una società è Selezioni variabili Prima di tutto individuare la migliore misura delle notizie polarità. Nella Sezione 3.4, definiamo due variabili rilevanti, la polarità e le differenze positivo-negativo per riferimento (DiffPer). I nostri esperimenti hanno mostrato DiffPer ad essere una misura più robusta del sentimento di polarità, in modo da utilizzare DiffPer misura della polarità nel seguito. Consideriamo tre diverse misure di performance per i rendimenti azionari un determinato stock s (R ​​(s)), la prima differenza ordine dei prezzi delle azioni, e rendimenti anomali. La prima differenza ordine è la variazione assoluta di due contigui giorni i prezzi delle azioni. La R ritorno anomalo (s) è calcolato da R (s) R (s) R (NY SE) Nella nostra analisi di correlazione confrontiamo ogni variabile notizie da polarità, il cambiamento di polarità, variazione percentuale della polarità, per ogni variabile magazzino a magazzino ritorno, fotografia di ritorno anomalo, prima differenza ordine dei prezzi delle azioni. Questo dà sei coppie di combinazione per il test. I nostri esperimenti mostrano (polarità, rendimenti azionari) coppia ha le correlazioni più significative tra tutte le combinazioni, in modo (a causa di limiti di spazio) diamo solo i risultati di analisi per la polarità rispetto ai rendimenti azionari nelle seguenti sezioni. L'(polarità, rendimenti azionari anormale) coppia raggiunge prestazioni molto simile con (polarità, rendimenti azionari) Analisi Correlazione con Spostamento del Tempo figura 3 esamina come oggi molto s polarità è correlata con rendimenti azionari nei giorni prossime. Vediamo che (1) il coefficiente di correlazione di oggi s polarità rispetto ritorno precedente diminuiscono gradualmente, e (2) per i giorni 1 e successivamente, tutti i coefficienti di correlazione sono quasi zero, e tutte queste correlazioni non sono statisticamente significativi. Questo dimostra che oggi s notizie quasi non hanno alcun potere predittivo per il ritorno di domani o giorni più tardi. Abbiamo notato anche che il ritorno del giorno 0 ha la migliore correlazione con 5 6 Figura 5: GenPolarity vs mensile della Chiudere Indietro per Dailies notizie. L'analisi è suddivisa per settori di mercato. Figura 3: GenPolarity vs andata e ritorno giornalieri. I coefficienti di correlazione sono calcolati con sfasamenti temporali di da -5 a 5 giorni. polarità. In realtà, la maggior parte della nostra cronaca quotidiana sono pubblicati la mattina presto ogni giorno, e quindi è ragionevole dedurre che hanno un certo potere predittivo per il giorno corrente s ritorno. In altre parole, oggi s notizia ha relazione significativa con il giorno corrente s ritorno, ha qualche relazione con il ritorno di ieri s, ma quasi non ha alcun rapporto con il ritorno di domani s. L'ipotesi di mercato efficiente afferma che il mercato riflette informazione pubblica nel prezzo delle azioni entro un tempo molto breve. Pertanto, la Figura 3 illustra perfettamente questa teoria, cioè la correlazione tra notizie di polarità e rendimenti azionari scompaiono dopo 1 giorno Rafforzare la correlazione La correlazione sentimento ritorno può essere migliorata rimuovendo le aziende con i più deboli di polarità rilevata a focalizze - Figura 4: GenPolarity vs. ritorno mensile per le notizie quotidiani per le società con una capitalizzazione di mercato oltre 50 miliardi. I coefficienti di correlazione sono calcolati con l'eliminazione certa percentuale dei punti dati sentimento più neutri. CUS su quelli che mostrano significativi segnali sentimento. La Figura 4 mostra l'effetto di coefficienti di correlazione se alfa neutro dati vengono rimossi. Una volta 80 del sentimento neutro vengono rimossi, i coefficienti di correlazione diventare molto forte. Figura 5 presenta la correlazione tra i rendimenti di polarità e azionari per settore di mercato. In particular, the Household Goods amp Home Constructions, Life Insurance, and Financial Services sectors are most strongly affected by news sentiment all of which are strongly associated with the subprime mortgage crisis. By contrast, returns from the staid Fixed Line Telecommunications, Industrial Transportation, and Beverages sectors have near zero correlation with news sentiment. 6 7 Figure 6: GenPolarity vs. Monthly Stock Close Return for Dailies news. The analysis are broken down by the scale of market capitals. Figure 7: Yearly return vs. number of selected top and bottom stocks. We tune n from 1 to 20, and fix parameters: s 1, h 2, C l 10 billions, C u 600 billions. From Figure 6, we can see that correlation coefficient for bigger firms is much stronger than those for smaller firms, especially, for firms who have more than 50-billion market capitalization. The result makes sense, because large firms generate more intensive news coverage and thus the collective information can better indicate the firms situation. 4.4 Subjectivity vs. Trading Volume Now we consider the relationship between news subjectivity and stock trading volume. Subjectivity means the amount of sentiment references among total references. Within the sentiment analysis community, subjectivity is considered a more robust measure than polarity 17. In all cases, subjectivity is positively and significantly correlated with stock trading volume. This conclusion coincides with the result from Antweiler and Frank 1 that controversial opinions are associated with more trades. 5 A News-Based Trading Agent We have demonstrated significant correlations between news data and financial market indicators. In this section, we design a market-neutral trading agent to demonstrate the predictive power of news data. A market-neutral strategy seeks to profit from both increasing and decreasing prices in a single or numerous markets by taking matching long and short positions in different stocks. We propose our market-neutral algorithm and backtest it using real market data from 2004 to The results suggest that news analysis should be employed as an informative component of trading agents. 5.1 The Market-neutral Strategy Our market-neutral strategy first ranks companies by their reported sentiment each day, then goes long (short) on equal amounts of positive (negative) sentiment stocks. Sentiment here is taken to mean the polarity of firms. The monthly returns generated by such a trading agent will be used for performance evaluation. Our initial investment is M and backtesting period is from start date D s to end date D e. We identify four key tunable parameters in this strategy: n: The number of stocks selected from the top and bottom of the firm list (sorted by sentiment). s: The number of historical days used for sentiment calculation. If s 1, we only consider the sentiment of current day. h: Holding days, which means how many days we will hold for the current portfolio. C l and C u. The lower bound and upper bound of firms market capital. We only consider the stocks whose market capitals are in range C l, C u . The four parameters impact our stock returns substantially, and the details will be given in the following sections. The detailed algorithm is described in Algorithm 1. Because we always long stocks with the best sentiment, and short stocks with the worst sentiment, this algorithm is also called the best-sentiment strategy. 5.2 Performance Evaluation In this section, we backtest our market-neutral strategy with real news data and stock data. In our simulation, all the 7 8 Algorithm 1 A news-based market-neutral strategy Require: 1) Consider top n and bottom n stocks of sentiment. 2) Only whose market capital in range C l, C u are considered. 3) Consider historical s days for sentiment computation. 4) Stocks are hold for h business days. 5) Initial investment M gt 0. 6) Simulation period D s, D e. 1: Get a list of matched pairs of NYSE stocks and company entities in news. 2: For each matched pairs, get the stock open price time series, news time series, including the news polarity time series with considering the previous s days for sentiment computation. 3: for each day D i from D s to D e do 4: if D i is one of the first h trading days in D s, D e then 5: Sort all stocks based on their polarity of day D i. 6: Filter out stocks if their corresponding market capital is not in C l, C u. 7: Get top n and bottom n stocks based on their polarity. 8: For each stock in the top and bottom list, invest M(2nh) amount of money with their opening price of day D i. 9: else if D i is one of the final h trading days in D s, D e then 10: Redeem stocks bought at trading day (D i h) with their opening price of day D i. 11: else 12: Sort all stocks based on their polarity of day D i. 13: Filter out stocks if their corresponding market capital is not in C l, C u. 14: Get top n and bottom n stocks based on their polarity. 15: Redeem stocks bought at trading day (D i h) with their opening price of day D i, get bank roll M Di. 16: For each stock in the top and bottom list, invest M Di (2n) amount of money with their opening price of day D i. 17: end if 18: end for 19: return Total number of transactions N, final bank roll M, and yearly return R y. top and bottom stocks are selected from the 1113 dailiesmentioned stocks. For all simulations, the backtesting period are from November 2004 to October 2008, with each year running from November to October. There are four key parameters (n, s, h, C l and C u ) that contribute to the final returns. We performed experiments to isolate one parameter while fixing the other three: Diversification Figure 7 shows the impact of the number of selected stocks. As we can see, with the increasing of the number of selected stocks, the yearly return decreases. The reason is straightforward the stocks with the highest (lowest) sentiment should have the biggest price movement. If we select fewer stocks, the average sentiment of selected stocks will be higher, and the expected return will be higher as well. Sentiment Analysis Period For three of the four years studied (except 2008), yearly returns decrease with the increasing of sentiment analysis period s. This is consistent with the efficient market hypothesis, since longer periods dilute the freshness of the news. Holding Period Another tunable parameter is length of time we hold the stock. For all the four years, longer Figure 8: Portfolio Landscape of Monthly Return vs. Volatility analysis for experiments shown in Figure 7. holding time leads to lower returns. Again, the market will quickly reflect all the news information, and thus we will not benefit from extra holding days. Moreover, quickly redeeming the investment frees up capital to invest in more recently reported-on stocks. Market Capitalization Our experiments showed an interesting influence of market capitals on returns. Both large and small firms showed greater returns than medium-capitalization firms. The return for small firms is enhanced because their price is more affected by news eventssentiment. For large firms, we more accurately measure sentiment due to the greater volume of news coverage. From these experiments, we conclude that our agent should hold small numbers of selected stocks, use short sentiment-calculation and stock holding periods, and avoid holding medium-sized firms. 5.3 Returns and Volatility Returns only capture part of investment performance. The degree of risk (volatility) taken on to achieve these returns determines to amount of leverage which can safely be employed to exploit the agent, and the overall desirability of a given portfolio in the risk-return horizon. Here we analyze the monthly returns and volatility. The monthly return is taken to be the mean value of returns for all 48 months the volatility is the standard deviation of these monthly returns. Space does not permit a complete recapitulation of these experiments, which largely mirror those of Section 5.2. The greatest difference is that increasing the stock holding period decreases the volatility, by decreasing our exposure to reversals in news periods of rapid change. 8 9 Figure 9: 95 confidence internal of monthly return for experiments shown in Figure 7. Figure 11: Four-year Monthly Return Volatility comparison of bestsentiment, worst-sentiment, random-selection strategies. Figure 8 demonstrates the tradeoff between risk and return, with a scatter plot of performance vs. volatility for strategies differing only in the number of stocks held in each period. Increased diversification reduces risk. The result is consistent with modern portfolio theory regarding risk and return. If we assume monthly return follows standard Gaussian distribution, two standard deviations from the mean will account for about 95 coverage of all possible monthly returns. Figure 9 shows the 95 confidence interval of monthly return for experiments shown in Figure 7. We can see that smaller n may contribute to either huge positive or huge negative returns, while bigger n will make the investment less risky, but simultaneously it will reduce return. 5.4 Investment Performance Comparison Worst-sentiment Strategy Previously, we sort firms polarity from the lowest to the highest, long top stocks and short bottom stocks. By contrast, here we can do the opposite, i. e. long bottom stocks and short top stocks, and expect to gain negative returns. Note that compounding effects mean the performance of this strategy is not equivalent to the reflection of the bestfirst results. Random-selection Strategy Here, we do not care firms polarity, but just randomly select stocks to be long and short. Figure 10 shows the four-year monthly return for the three strategies. We see that best-sentiment strategy always returns positive gains, worst-sentiment strategy always produces negative returns, while random-selection strategy oscillates about zero return. With the increasing of n, the absolute return of former two strategies decrease, but the return of random-selection strategy continues steady around zero. Figure 11 shows the four-year monthly volatility decreases with diversification for the three strategies, from 4.5 down to about 1. Indeed all show similar volatility, reflecting the market-neutral nature of all three trading agents. By contrast, the volatilities of the long and short portfolios (discussed below) remained around 40 even when diversified over twenty holdings. 5.5 Long vs. Short Figure 10: Four-year Monthly Return comparison of best-sentiment, worst-sentiment, random-selection strategies. We compare our market-neutral best sentiment strategy against two other agents: An interesting question in any market-neutral strategy is the relative contribution of returns going long vs. going short. To answer this, we partition the experiments in Figure 7 into long and short components in Figure 12. Figure 12(a) shows long returns positive in 2005 to 2007, turning negative in By contrast, Figure 12(b) shows 9 10 near zero short returns in 2005 to 2007, but very high short returns in This difference results from the collapse of the broad market in 2008 after three years of growth, and validates the market-neutrality of our strategy. Figure 12: Returns for long vs. short in the experiments of Figure 7. 6 Conclusions We have shown that raw news variables or derived news variables are significantly correlated with some indicators in stock markets, e. g. news references versus stock trading volume, news references versus market capital, news polarity versus stock returns, news subjectivity versus stock trading volume, and the opinions from one news depository can reflect those from another news depository. Our market-neural strategy based on news data is able to generate consistent returns for investors. There are four tunable parameters in our strategy, number of selected stocks, number of historical days for sentiment calculation, number of holding days, and lower and upper bounds of market capitals. These parameters impact return and volatility significantly, and thus investors need to carefully tune them to balance risk and return. References 1 W. Antweiler and M. Z. Frank. Is all that talk just noise the information content of internet stock message boards. Journal of Finance, 3. June 2 M. Bautin, L. Vijayarenu, and S. Skiena. International sentiment analysis for news and blogs. In Second Int. Conf. on Weblogs and Social Media (ICWSM 2008), 3 W. S. Chan. Stock price reaction to news and no-news: Drift and reversal after headlines. Journal of Financial Economics, 70. 4 P. Chaovalit and L. Zhou. Movie review mining: a comparison between supervised and unsupervised classification approaches. In Proceedings of the Hawaii International Conference on System Sciences (HICSS), 5 D. M. Cutler, J. M. Poterba, and L. H. Summers. What moves stock prices Journal of Portfolio Management, 15:4 12, 6 T. Datastream. 7 G. Fung, J. Yu, and W. Lam. News sensitive stock trend prediction. Proceedings 6th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages. 8 G. Gidoacutefalvi and C. Elkan. Using news articles to predict stock price movements. Technical Report, Department of Computer Science and Engineering. University of California, San Diego, 9 N. Godbole, M. Srinivasaiah, and S. Skiena. Large-scale sentiment analysis for news and blogs. In Proceedings of the First International Conference on Weblogs and Social Media, pages. March 10 S. Kogan, D. Levin, B. Routledge, J. Sagi, and N. Smith. Predicting risk from financial reports with regression. In Proc. NAACL Human Language Technologies Conf. 11 V. Lavrenko, M. Schmill, D. Lawrie, P. Ogilvie, D. Jensen, and J. Allan. Language models for financial news recommendation. In Proceedings of 9th Int. Conference on Information and Knowledge Management, pages. 12 V. Lavrenko, M. Schmill, D. Lawrie, P. Ogilvie, D. Jensen, and J. Allan. Mining of concurrent text and time series. In Proceedings of 6th ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining, pages 37 44, 13 L. Lloyd, D. Kechagias, and S. Skiena. Lydia: A system for large-scale news analysis. In Proc. 12th String Processing and Information Retrieval (SPIRE 2005), volume LNCS 3772, pages. 14 M. Mittermayer and G. F. Knolmayer. Text mining system for market response to news: A survey. Working Paper No 184, August 15 M.-A. Mittermayer and G. Knolmayer. Newscats: A news categorization and trading system. In Proceedings of the International Conference in Data Mining (ICDM06), 16 B. Pang and L. Lee. Thumbs up sentiment classification using machine learning techniques. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 79 86, Philadelphia, July 17 B. Pang and L. Lee. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, Vol. 2, No 1-2:1 135, 18 R. W. Roll. R-squared. Journal of Finance, pages. 19 Y. Seo, J. Giampapa, and K. Sycara. Text classification for intelligent portfolio management. Technical Report CMU - RI-TR-02-14, Robotics Institute, Carnegie Mellon University, Pittsburgh, May 20 R. J. Shiller. Do stock prices move too much to be justified by subsequent changes in dividends American Economic Review, 71. 11 21 P. C. Tetlock, M. Saar-Tsechansky, and S. Macskassy. More than words: Quantifying language to measure firms fundamentals. In Proceedings of 9th Annual Texas Finance Festival, May 22 J. Thomas. News and trading rules. Dissertation of Carnegie Mellon University, Pittsburgh, 23 B. Wuthrich, V. Cho, and etc. Daily prediction of major stock indices from textual www data. In Proceedings of 4th ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining, pages ,

No comments:

Post a Comment