Tip:
Highlight text to annotate it
X
>> लुकास Freitas: सुनो.
हर किसी का स्वागत है.
मेरा नाम लुकास Freitas है.
मैं पढ़ाई [सुनाई] में एक जूनियर हूँ में ध्यान देने के साथ कंप्यूटर विज्ञान
कम्प्यूटेशनल भाषा विज्ञान.
तो मेरा माध्यमिक भाषा में है और भाषाई सिद्धांत.
मैं सच में तुम लोगों को पढ़ाने के लिए उत्साहित हूँ क्षेत्र के बारे में थोड़ा सा.
यह अध्ययन करने के लिए एक बहुत ही रोमांचक क्षेत्र है.
इसके अलावा बहुत सी संभावनाएँ साथ भविष्य के लिए.
तो, मैं बहुत उत्साहित हूँ कि तुम लोग परियोजनाओं में विचार कर रहे हैं
कम्प्यूटेशनल भाषा विज्ञान.
और मुझे सलाह देने के लिए खुश से अधिक हो जाएगा आप में से किसी भी आप के लिए तय है
उन में से एक को आगे बढ़ाने.
>> कम्प्यूटेशनल क्या कर रहे हैं तो सब से पहले भाषा विज्ञान?
तो कम्प्यूटेशनल भाषा विज्ञान है भाषा विज्ञान और बीच चौराहे
कंप्यूटर विज्ञान.
तो, भाषा विज्ञान क्या है?
कंप्यूटर विज्ञान क्या है?
खैर भाषा विज्ञान से, क्या हम भाषाएं हैं ले.
तो भाषा विज्ञान वास्तव में अध्ययन है सामान्य रूप में प्राकृतिक भाषा की.
इसलिए प्राकृतिक भाषा - हम इस बारे में बात हम वास्तव में करने के लिए उपयोग किए जाने वाले भाषा
एक दूसरे के साथ संवाद.
इसलिए हम वास्तव में बात नहीं कर रहे सी या जावा के बारे में.
हम अंग्रेजी के बारे में अधिक बात कर रहे हैं चीनी और अन्य भाषाओं कि हम
एक दूसरे के साथ संवाद करने के लिए उपयोग करें.
>> उस के बारे में चुनौतीपूर्ण बात है कि अभी हम लगभग 7,000
दुनिया में भाषा.
इसलिए काफी एक उच्च किस्म है हम अध्ययन कर सकते हैं कि भाषा की.
और फिर आप यह शायद लगता है कि ऐसा करने के लिए बहुत मुश्किल है, उदाहरण के लिए,
एक भाषा से अनुवाद अन्य, है कि आप पर विचार
लगभग 7,000 उनमें से.
तो, आप अनुवाद करने की सोच भी अगर एक भाषा से अन्य के लिए आप
लगभग एक लाख से अधिक विभिन्न संयोजनों कि आप कर सकते हैं
भाषा से भाषा के लिए है.
तो यह वास्तव में कुछ करने की चुनौती दे रहा है उदाहरण: अनुवाद प्रणाली की तरह के लिए
हर एक भाषा.
>> तो, वाक्य रचना के साथ भाषा विज्ञान मानते हैं, अर्थ विज्ञान, pragmatics.
तुम लोग बिल्कुल जरूरत नहीं है वे क्या कर रहे हैं पता करने के लिए.
लेकिन बहुत ही दिलचस्प बात यह है कि जब तुम सीख एक देशी वक्ता के रूप में
बच्चे के रूप में भाषा, तुम वास्तव में सीखना उन चीजों के सभी - वाक्यविन्यास अर्थ विज्ञान
और उपयोगितावाद -
अपने आप से.
और कोई नहीं के लिए आप वाक्यविन्यास सिखाने के लिए है आप वाक्य हैं समझने के लिए कैसे
संरचित.
इसलिए, यह वाकई दिलचस्प है क्योंकि यह बहुत आता है कि कुछ है
intuitively.
>> और तुम से क्या ले जा रहे हैं कंप्यूटर विज्ञान?
खैर, सबसे महत्वपूर्ण बात यह है कि हम कंप्यूटर विज्ञान में है पहली की है
सभी, कृत्रिम बुद्धि और मशीन सीखने.
तो, हम ऐसा करने के लिए कोशिश कर रहे हैं कम्प्यूटेशनल भाषा विज्ञान सिखाने
कुछ करने के लिए कैसे अपने कंप्यूटर भाषा के साथ.
>> तो, उदाहरण के लिए, मशीन में अनुवाद.
मैं अपने कंप्यूटर कैसे सिखाने की कोशिश कर रहा हूँ एक से संक्रमण के लिए कैसे पता करने के लिए
दूसरे से भाषा.
तो, मूल रूप से शिक्षण की तरह एक कंप्यूटर दो भाषाओं.
मैं प्राकृतिक भाषा प्रसंस्करण करते हैं, उदाहरण के लिए मामला है जो
फेसबुक का ग्राफ खोज, आप सिखाना समझने के लिए कैसे अपने कंप्यूटर
प्रश्नों अच्छी तरह से.
>> तो, आप "की तस्वीरें कहते हैं मेरे मित्रों. "फेसबुक का इलाज नहीं करता
है कि एक पूरी स्ट्रिंग के रूप में सिर्फ शब्दों का एक गुच्छा.
यह वास्तव में संबंध समझता "तस्वीरें" और "मेरे दोस्त" और के बीच
"तस्वीरें" समझता है कि की संपत्ति "मेरे दोस्त."
>> तो, कि, उदाहरण के लिए, का हिस्सा है प्राकृतिक भाषा संसाधन.
यह समझने की कोशिश कर रहा है बीच का रिश्ता है
एक वाक्य में शब्दों.
और बड़ा सवाल, आप यह कर सकते है बात करने के लिए कैसे एक कंप्यूटर सिखाने
सामान्य रूप में एक भाषा?
एक बहुत ही दिलचस्प सवाल है जो , यदि आप हो सकता है भविष्य में, लगता है
आप करने के लिए सक्षम होने के लिए जा रहे हैं अपने सेल फोन से बात करो.
एक तरह से हम सिरी साथ क्या करना पसंद है लेकिन अधिक कुछ पसंद है, तुम वास्तव में कर सकते हैं
तुम जो चाहो कह और फोन सब कुछ समझने के लिए जा रहा है.
और यह सवाल अप का पालन कर सकते हैं और बात कर रखो.
यही है, वास्तव में रोमांचक कुछ है मेरी राय में.
>> तो, प्राकृतिक भाषा के बारे में कुछ.
के बारे में वास्तव में कुछ दिलचस्प प्राकृतिक भाषा है, और यह है
मेरी भाषा विज्ञान के प्रोफेसर के लिए क्रेडिट, मारिया Polinsky.
वह एक उदाहरण देता है और मुझे लगता है कि यह वाकई दिलचस्प है.
हम जब से भाषा सीखने क्योंकि हम अपने देशी तब पैदा हुआ था और कर रहे हैं
भाषा प्रकार का हम पर बढ़ता है.
>> और मूल रूप से आप भाषा सीख न्यूनतम इनपुट से, सही?
तुम बस से इनपुट हो रही है आपके अपनी भाषा क्या लगता है की माता पिता
पसंद है और आप सिर्फ यह जानने.
अगर तुम देखो इसलिए, क्योंकि यह दिलचस्प है उन वाक्यों में, उदाहरण के लिए.
तुम देखो, "मेरी हर एक कोट पर डालता है समय वह घर छोड़ देता है. "
>> इस मामले में, यह संभव है शब्द "वह" सही, मरियम को देखें?
आप "मेरी एक कोट पर डालता कह सकते हैं मैरी छोड़ देता है हर बार
घर. "तो ठीक है.
लेकिन तब तुम वाक्य को देखो "वह मेरी एक कोट पर हर बार कहते हैं
घर छोड़ देता है. "आप यह जानते हैं "वह" है कि कहने के लिए असंभव
मैरी का जिक्र है.
>> "मेरी डालता है कि कहने का कोई रास्ता नहीं है एक कोट पर मैरी छोड़ देता है हर बार
घर. "तो यह दिलचस्प है क्योंकि इस अंतर्ज्ञान की तरह है
हर देशी वक्ता है कि.
और कोई भी यह है कि सिखाया था वाक्यविन्यास काम करता है जिस तरह से.
और आप केवल इस "वह" हो सकता है कि , इस पहले मामले में मैरी की चर्चा करते हुए
और वास्तव में यह दूसरी में भी, लेकिन नहीं इस एक में.
लेकिन हर तरह से हो जाता है एक ही जवाब देने के लिए.
हर कोई उस पर सहमत हैं.
तो यह कैसे हालांकि वाकई दिलचस्प है आप सभी नियमों को नहीं जानता
अपनी भाषा में आप की तरह समझते हैं भाषा कैसे काम करता है.
>> तो प्राकृतिक के बारे में दिलचस्प बात यह है कि भाषा आप के लिए नहीं है यह है कि
पता करने के लिए किसी भी वाक्यविन्यास पता है अगर एक वाक्य के लिए व्याकरण या ungrammatical है
ज्यादातर मामलों.
आपको लगता है जो कि शायद क्या ऐसा होता है कि आप अपने जीवन के माध्यम से है
बस अधिक से अधिक हो रही रखने वाक्य आप करने के लिए कहा.
और फिर तुम याद रखना रखना वाक्य के सब.
और फिर किसी ने तुम्हें बताता है जब कुछ है, तुम उस वाक्य में सुना है और
आप अपनी शब्दावली को देखो वाक्य की और देखो अगर
उस वाक्य है.
और यह वहाँ आप अगर यह व्याकरण है कहना.
यदि ऐसा नहीं है कि आप यह कहते हैं कि ungrammatical.
>> तो, उस मामले में, तुम, ओह, कहेंगे इसलिए आप सभी का एक विशाल सूची है
संभव वाक्य.
और फिर आप एक वाक्य सुना है, यह व्याकरण है या यदि आप जानते हैं
उस पर आधारित नहीं है.
बात यह है कि अगर तुम देखो एक वाक्य, उदाहरण के लिए, "
पांच अध्यक्षता CS50 TFS अंधा पकाया एक DAPA मग का उपयोग कर ऑक्टोपस. "यह
निश्चित रूप से नहीं एक वाक्य आप पहले सुना कि.
लेकिन एक ही समय में आप यह जानते हैं सही, व्याकरण बहुत ज्यादा?
कोई व्याकरण की गलती कर रहे हैं और आप कह सकते हैं कि
यह एक संभव वाक्य है.
>> तो यह है हमें लगता है कि वास्तव में हम भाषा सीखने तरीका है कि न केवल
संभव का एक विशाल डाटाबेस होने से शब्दों या वाक्यों, लेकिन के अधिक
के बीच संबंध को समझने उन वाक्यों में शब्दों.
कि मतलब?
तो, फिर सवाल कर सकते है कंप्यूटर भाषा सीखना?
हम कंप्यूटर के लिए भाषा सिखा सकते हो?
>> तो, चलो अंतर के बारे में सोचो एक भाषा की एक देशी वक्ता के बीच
और एक कंप्यूटर.
तो, क्या वक्ता के लिए होता है?
खैर, देशी वक्ता एक सीखता यह करने के लिए जोखिम से भाषा.
आमतौर पर अपने बचपन के वर्षों.
तो, मूलतः, तुम सिर्फ एक बच्चा है और आप इसे करने के लिए बात कर रखो, और यह
सिर्फ बात करने के लिए कैसे सीखता भाषा, है ना?
तो, आप मूल रूप से दे रहे हैं बच्चे के लिए इनपुट.
तो, तो आप बहस कर सकते हैं कि एक कंप्यूटर ठीक है, एक ही बात कर सकते हैं?
तुम सिर्फ भाषा दे सकते हैं कंप्यूटर के लिए निवेश के रूप में.
>> उदाहरण के लिए के रूप में फ़ाइलों का एक गुच्छा अंग्रेजी में किताबें हैं कि.
हो सकता है कि एक ही रास्ता है कि आप उस संभवतः एक सिखा सकते हैं
कंप्यूटर अंग्रेजी, सही?
और वास्तव में, यदि आप इसके बारे में सोचते हैं, यह शायद एक जोड़े को ले जाता है
एक किताब को पढ़ने के लिए दिन.
एक कंप्यूटर के लिए यह एक दूसरा लेता है एक किताब के सभी शब्द पर दिखेगा.
तो आपको लगता है कि हो सकता है सोच सकते हैं बस इस आप चारों ओर से इनपुट के तर्क,
वह यह है कि कहना है कि पर्याप्त नहीं है केवल मनुष्य कर सकता है कुछ.
आप कंप्यूटर में सोच सकते हैं भी इनपुट मिल सकती है.
>> दूसरी बात यह है कि देशी वक्ताओं यह भी है कि एक मस्तिष्क है
भाषा सीखने की क्षमता.
लेकिन अगर आप इसके बारे में सोचते हैं, एक मस्तिष्क एक ठोस बात है.
आप पैदा होते हैं, यह पहले से ही तय है -
यह आपका मस्तिष्क है.
तुम बड़े हो और, जैसा कि आप बस अधिक मिलता है भाषा के इनपुट और शायद पोषक तत्वों
और अन्य सामान.
लेकिन बहुत ज्यादा अपने मस्तिष्क एक ठोस बात है.
>> तो आप अच्छी तरह से, शायद आप कर सकते हैं, कह सकते हैं एक गुच्छा की है कि एक कंप्यूटर का निर्माण
कार्यों और सिर्फ नकल तरीकों भाषा सीखने की क्षमता.
तो उस अर्थ में, आप मुझे अच्छी तरह से कह सकते हैं, सब है कि एक कंप्यूटर हो सकता है
मैं भाषा सीखने की जरूरत है बातें.
और आखिरी बात है कि एक देशी स्पीकर परीक्षण और त्रुटि से सीखता है.
तो बुनियादी तौर पर एक और महत्वपूर्ण बात में भाषा सीखने की है कि आप की तरह
का बनाकर चीजें सीख आप क्या सुनना की सामान्यीकरण.
>> आप बड़े हो रहे हैं तो जैसा कि आप सीखना है कि कुछ शब्द अधिक संज्ञाओं की तरह हैं,
कुछ अन्य लोगों के विशेषण हैं.
और अगर आप किसी के लिए नहीं है भाषा विज्ञान का ज्ञान
समझने की है कि.
लेकिन तुम सिर्फ कुछ शब्दों को जानते हैं कि वहाँ के कुछ हिस्से में तैनात हैं
वाक्य और अन्य में कुछ अन्य लोगों वाक्य के कुछ हिस्सों.
>> और कि आप है कि कुछ करने के लिए जब सही नहीं है कि एक वाक्य की तरह -
हो सकता है क्योंकि एक से अधिक सामान्यीकरण की उदाहरण के लिए.
आप ऊपर बढ़ रहे हैं जब हो सकता है, तुम नोटिस बहुवचन आमतौर पर है कि
पर एक एस डाल द्वारा गठित शब्द के अंत.
और फिर आप का बहुवचन करने की कोशिश "हिरणों" या "दाँत" के रूप में "हिरण"
"Tooths." तो फिर अपने माता पिता या किसी को आप ठीक हो जाती है और कहते हैं, नहीं,
"हिरण" का बहुवचन ", हिरण" है और "दाँत" का बहुवचन "दांत है." और फिर
आप उन चीजों को सीखते हैं.
तो आप परीक्षण और त्रुटि से सीखते हैं.
>> लेकिन अगर आप भी ऐसा कर सकते हैं एक कंप्यूटर के साथ.
आप बुलाया कुछ हो सकता है सुदृढीकरण सीखने.
एक देने की तरह है, जो मूलतः यह करता है जब भी कंप्यूटर एक इनाम
सही ढंग से कुछ.
और यह एक इनाम के विपरीत दे और यह गलत कुछ भी करता है.
आप वास्तव में देख सकते हैं कि अगर तुम जाओ गूगल अनुवाद और आप के लिए प्रयास करने के लिए
एक वाक्य का अनुवाद, यह प्रतिक्रिया के लिए पूछता है.
अगर आप कहते हैं तो, ओह, एक बेहतर है इस वाक्य के लिए अनुवाद.
तब आप इसे टाइप कर सकते हैं और यदि का एक बहुत लोगों को लगता है कि एक बेहतर है कह रहो
अनुवाद, यह सिर्फ सीखता है कि यह बजाय कि अनुवाद का उपयोग करना चाहिए
यह दे रहा था एक.
>> इसलिए, यह एक बहुत ही दार्शनिक सवाल है कंप्यूटर होने जा रहे हैं देखने के लिए
भविष्य में बात करने या नहीं करने के लिए सक्षम.
लेकिन मैं उच्च उम्मीद है कि वे कर सकते सिर्फ उन तर्कों पर आधारित है.
लेकिन यह एक दार्शनिक की अभी और भी है प्रश्न.
>> कंप्यूटर अभी भी बात नहीं कर सकते तो, जबकि हम क्या कर सकते हैं कि चीजें हैं?
कुछ वास्तव में अच्छा काम कर रहे हैं डेटा वर्गीकरण.
तो, उदाहरण के लिए, आप लोगों को पता है उस ईमेल सेवाओं के लिए करते हैं,
उदाहरण के लिए, स्पैम फ़िल्टर.
आप स्पैम प्राप्त तो, जब भी यह एक और बॉक्स को फिल्टर करने के लिए प्रयास करता है.
तो कैसे यह है कि क्या करता है?
यह कंप्यूटर सिर्फ जानता है की तरह नहीं है क्या ईमेल पते स्पैम भेज रहे हैं.
तो यह और अधिक की सामग्री पर आधारित है संदेश, या शायद शीर्षक, या
शायद है कि आप कुछ पैटर्न.
>> तो, मूलतः, तुम क्या कर सकते हैं मिलता है एक स्पैम होते हैं कि ईमेल के डेटा के बहुत है,
स्पैम नहीं कर रहे हैं, और जानने के लिए कि ईमेल क्या आप में है पैटर्न की तरह
स्पैम होते हैं कि लोगों को.
और इस कम्प्यूटेशनल का हिस्सा है भाषा विज्ञान.
यह डेटा वर्गीकरण कहा जाता है.
और हम वास्तव में देखने जा रहे हैं एक अगले स्लाइड्स में इस बात का उदाहरण है.
>> दूसरी बात यह है कि प्राकृतिक भाषा है बात है जो प्रसंस्करण कि
ग्राफ़ खोजने की अनुमति की कोशिश कर रही है आप एक वाक्य लिखना.
और यह आप समझ में भरोसा करता है क्या अर्थ है और देता है
आप एक बेहतर परिणाम.
असल में, आप गूगल या बिंग के पास जाओ अगर और तुम औरत की तरह कुछ खोज
गागा की ऊंचाई, तुम वास्तव में जा रहे हैं जानकारी के बजाय 5 '1 "पाने के लिए
यह वास्तव में समझता है क्योंकि उसे से आप के बारे में बात कर रहे हैं.
इसलिए स्वाभाविक है कि का हिस्सा है भाषा संसाधन.
>> या फिर भी आप पहली बार, सिरी उपयोग कर रहे हैं जब आप करने की कोशिश करता है कि एक एल्गोरिथ्म है
आप क्या कह रहे हैं अनुवाद शब्दों में, पाठ में.
और फिर यह अनुवाद करने के लिए कोशिश करता है उस अर्थ में.
तो यह है कि सभी प्राकृतिक का हिस्सा है भाषा संसाधन.
>> तो फिर तुम मशीन अनुवाद है -
वास्तव में एक है जो मेरे पसंदीदा में -
बस से अनुवाद कर रहा है जो दूसरे करने के लिए एक भाषा.
तो तुम क्या कर रहे हैं जब आपको लगता है कि कर सकते हैं मशीन अनुवाद, आपके पास
वाक्य की अनंत संभावनाओं.
तो बस के संचय के लिए कोई रास्ता नहीं है हर एक अनुवाद.
तो आप दिलचस्प के साथ आने के लिए है एल्गोरिदम करने के लिए सक्षम होने के लिए
हर एक अनुवाद किसी तरह से वाक्य.
>> तुम लोग अब तक किसी भी प्रश्न हैं?
नहीं?
ठीक है.
>> तो क्या हम आज देखने के लिए जा रहे हैं?
सबसे पहले, मैं इस बारे में बात करने जा रहा हूँ वर्गीकरण समस्या.
तो मैं था कि एक स्पैम के बारे में कह रही है.
मैं क्या करने जा रहा हूँ दी बोल, है एक गीत के लिए, आप यह पता लगाने की कोशिश कर सकते हैं
उच्च संभावना के साथ गायक कौन है?
कहते हैं कि मैं लेडी से गीत है कि हम कहते हैं गागा और कैटी पेरी, मैं तुम्हें एक दे
नया गीत, आप समझ सकते हैं यह कैटी पेरी या लेडी गागा?
>> दूसरा एक, मैं सिर्फ बात करने के लिए जा रहा हूँ विभाजन समस्या के बारे में.
तो मैं तुम लोगों को पता है कि अगर पता नहीं है, लेकिन चीनी, जापानी, अन्य पूर्व एशियाई
भाषा, और अन्य भाषाओं सामान्य रूप में नहीं है,
शब्दों के बीच रिक्त स्थान.
और फिर आप उस तरह के बारे में अगर आपको लगता है कोशिश करता है की अपने कंप्यूटर तरह करने के लिए
प्राकृतिक भाषा संसाधन समझते हैं, यह शब्द को देखता है और
संबंधों को समझने की कोशिश उन दोनों के बीच, है ना?
लेकिन तब क्या आप चीनी हैं, और अगर शून्य रिक्त स्थान है, यह करने के लिए वास्तव में मुश्किल है
बीच का रिश्ता क्या है पता शब्द, क्योंकि वे किसी भी नहीं है
पहली बार में शब्दों.
तो तुम्हें बुलाया कुछ करना है बस डालने का मतलब है जो विभाजन
हम क्या कहते होता बीच रिक्त स्थान उन भाषाओं में शब्दों.
भावना करें?
>> और फिर हम करने जा रहे हैं वाक्य रचना के बारे में बात करते हैं.
प्राकृतिक के बारे में तो बस थोड़ा सा भाषा संसाधन.
यह सिर्फ एक सिंहावलोकन होने जा रहा है.
तो आज, बुनियादी तौर पर मैं क्या करना चाहते हैं लोगों को आप एक का एक छोटा सा दे रहा है
संभावनाओं क्या कर रहे हैं के अंदर आप कम्प्यूटेशनल के साथ क्या कर सकते हैं
भाषा विज्ञान.
और फिर आप क्या सोचते हैं देख सकते हैं उन बातों के अलावा शांत है.
और हो सकता है कि आप एक परियोजना के बारे में सोच सकते हैं और मुझसे बात आते हैं.
और मैं आपको सलाह दे सकते हैं इसे लागू करने के बारे में.
>> तो वाक्यविन्यास एक छोटा सा होने जा रहा है ग्राफ़ खोज और मशीन के बारे में
अनुवाद.
मैं बस का एक उदाहरण देने जा रहा हूँ तुम, उदाहरण के लिए, अनुवाद कर सकते हैं
अंग्रेजी पुर्तगाली से कुछ.
अच्छा लगता है?
>> तो सबसे पहले, वर्गीकरण समस्या.
मैं कहता हूँ कि संगोष्ठी के इस भाग सबसे चुनौतीपूर्ण होने जा रहा है
वहाँ जा रहा है, सिर्फ इसलिए कि कुछ कोडिंग हो.
लेकिन यह अजगर होने जा रहा है.
मैं तुम लोगों को अजगर पता है, इसलिए नहीं है मैं सिर्फ उच्च पर समझा जा रहा हूँ
मैं क्या कर रहा हूँ स्तर.
और तुम भी वास्तव में परवाह करने की जरूरत नहीं वजह है कि वाक्य रचना के बारे में ज्यादा
तुम लोग कुछ सीख सकते.
ठीक है?
अच्छा लगता है.
>> इसलिए वर्गीकरण समस्या क्या है?
तो आप को कुछ बोल दिया हो एक गीत, और आप अनुमान करना चाहते हैं
जो इसे गा रहा है.
और यह किसी भी तरह के लिए किया जा सकता है अन्य समस्याओं की.
तो यह, उदाहरण के लिए, आप एक है किया जा सकता है राष्ट्रपति पद के अभियान और आप एक है
भाषण, और आप पता लगाना चाहते हैं यह था बाहर हैं, उदाहरण के लिए,
ओबामा या मिट रोमनी.
या फिर आप ईमेल का एक गुच्छा है और कर सकते हैं आप अगर वे बाहर आंकड़ा करना चाहते हैं
स्पैम या नहीं.
तो यह सिर्फ कुछ वर्गीकृत है शब्दों के आधार पर डेटा
तुम वहाँ है कि.
>> तो यह है कि ऐसा करने के लिए, आप के लिए है कुछ मान्यताओं करना.
तो कम्प्यूटेशनल भाषा विज्ञान के बारे में एक बहुत मान्यताओं बना रही है,
आमतौर पर स्मार्ट मान्यताओं, इतना है कि आप अच्छे परिणाम प्राप्त कर सकते हैं.
इसके लिए एक मॉडल बनाने के लिए कोशिश कर रहा है.
और फिर, यह बाहर की कोशिश करो और देखो अगर यह काम यह आपको अच्छा परिशुद्धता देता है.
और अगर यह होता है, तो आप इसे सुधारने की कोशिश.
यह, आप, ठीक है, की तरह हो नहीं करता, तो शायद मैं एक अलग धारणा बनाना चाहिए.
>> तो हम करने जा रहे हैं कि इस धारणा बनाने के एक कलाकार आमतौर पर गाती है
शायद के बारे में एक विषय कई बार, और शब्द कई बार उपयोग करता है बस
वे इसे करने के लिए इस्तेमाल कर रहे हैं.
तुम बस अपने दोस्त के बारे में सोच सकते हैं.
मैं तुम लोगों के सारे दोस्त हैं यकीन उनके हस्ताक्षर वाक्यांश कहना है कि
सचमुच हर एक वाक्य के लिए -
कुछ विशिष्ट शब्द या कुछ विशिष्ट तरह वे के लिए कहना है कि वाक्यांश
हर एक वाक्य.
>> और क्या आप कह सकते है कि आप देखते हैं एक हस्ताक्षर है कि एक वाक्य
वाक्यांश, आप अनुमान लगा सकते हैं कि शायद अपने दोस्त है
एक सही, यह कह रही है?
तो क्या आप फिर धारणा है कि और कि आप एक मॉडल बनाने के लिए है.
>> मैं देने के लिए जा रहा हूँ कि उदाहरण पर है कैसे लेडी गागा, उदाहरण के लिए, लोग
वह के लिए "बेबी" का उपयोग करता है का कहना है कि उसके सारे नंबर एक गाने.
और वास्तव में यह एक वीडियो है कि शो उसके शब्द "बेबी" के लिए कह रही है
अलग गाने.
>> [वीडियो प्लेबैक]
>> - (गायन) बेबी.
बेबी.
बेबी.
बेबी.
बेबी.
बेबे.
बेबी.
बेबी.
बेबी.
बेबी.
>> [अंत वीडियो प्लेबैक
>> लुकास Freitas: तो, मुझे लगता है, वहाँ रहे हैं वे कहती हैं, जिसमें यहां 40 गाने
शब्द "बेबी." तो आप मूल रूप से अनुमान लगा सकते हैं कि तुम है कि एक गाना देखते हैं
शब्द "बच्चे," कुछ उच्च वहाँ यह लेडी गागा की संभावना है कि.
लेकिन इस विकसित करने की कोशिश करते हैं इसके अलावा अधिक औपचारिक रूप से.
>> तो इन से गाने के लिए गीत हैं लेडी गागा और कैटी पेरी.
तो तुम लेडी गागा को देखो, तुम वे देखते हैं की घटनाओं का एक बहुत कुछ है "बच्चे," एक
की घटनाओं की बहुत "तरीका है." और फिर कैटी पेरी की घटनाओं का एक बहुत है
"," की घटनाओं का एक बहुत "आग."
>> तो बुनियादी तौर पर हम क्या चाहते हैं क्या आप एक गीत मिलता है.
मान लीजिए कि आप एक के लिए एक गीत मिलता है कि हम कहते हैं "बेबी" सिर्फ "बेबी" है. कि गीत अगर
तुम सिर्फ शब्द "बच्चे," और इस मिल आप से है कि सभी डेटा है
लेडी गागा और कैटी पेरी, जो होगा आपको लगता है व्यक्ति
जो गीत गाती है?
लेडी गागा या कैटी पेरी?
लेडी गागा, सही?
वह कहते हैं, जो केवल एक ही है क्योंकि "बेबी." यह ठीक है, बेवकूफ लग रहा है?
ठीक है, यह वास्तव में आसान है.
मैं सिर्फ दो गीतों में और की चाहत है जाहिर है, वह केवल एक है जो है
"बेबी."
>> लेकिन अगर आप शब्दों का एक गुच्छा क्या है?
आप एक वास्तविक गीत, कुछ है जैसे, "बच्चे, मैं बस
एक [देखने के लिए चला गया? सीएफटी?]
व्याख्यान, "या ऐसा कुछ है, और तो आप वास्तव में यह पता लगाने की है -
उन सभी शब्दों के आधार पर -
जो कलाकार है जो शायद यह गीत गाया?
तो चलो विकसित करने की कोशिश करते हैं एक छोटे से आगे इस.
>> ठीक है, तो सिर्फ आंकड़ों पर आधारित है कि हम मिल गया, यह बेहूदा शायद लगता है कि
गायक.
लेकिन हम कैसे लिख सकते हैं यह और अधिक औपचारिक रूप से?
और एक छोटे से होने जा रहा है आँकड़ों के सा.
तो अगर तुम चले जाओ, बस कोशिश अवधारणा को समझने की.
आप समझते हैं कि अगर यह बात नहीं है समीकरण पूरी तरह से अच्छी तरह से.
यह सब ऑनलाइन होने जा रहा है.
>> तो बुनियादी तौर पर क्या मैं गणना कर रहा हूँ है इस गीत से है कि संभावना
लेडी गागा दिया है कि -
इसलिए इस बार यह देखते हुए कि इसका मतलब है -
मैं शब्द देखा "बेबी." कि मतलब?
तो मुझे लगता है की गणना करने के लिए कोशिश कर रहा हूँ संभावना है कि.
>> इसलिए कहा जाता है इस प्रमेय है का कहना है कि कि Bayes प्रमेय
एक दिया बी की संभावना है ए, टाइम्स दिए बी की संभावना
संभावना खत्म ए की संभावना, बी की यह एक लंबा समीकरण है.
लेकिन क्या आप से समझना होगा कि यह है कि मैं चाहता हूँ कि है
सही गणना?
उस गाने से है कि तो संभावना लेडी गागा मैं शब्द देखा कि दी
"बेबी."
>> और अब क्या मैं हो रही है दिए गए शब्द 'बेबी' की संभावना
मैं लेडी गागा है कि.
और कहा कि असल में क्या है?
इसका मतलब यह है क्या, क्या है शब्द "बेबी" को देखने का संभावना
गागा गीत में?
मैं एक बहुत में है कि गणना करने के लिए चाहते हैं सरल तरीका है, इसके बारे में अभी नंबर
कई बार मैं कुल संख्या से अधिक 'बेबी' देखने गागा गीत में शब्दों की, है ना?
मैं देख रहा हूँ कि आवृत्ति क्या है गागा के काम में वह शब्द?
भावना करें?
>> दूसरा शब्द है गागा की संभावना.
इसका क्या मतलब है?
वह मूल रूप से मतलब है, क्या है वर्गीकृत करने की संभावना
गागा के रूप में कुछ बोल?
और उस तरह की अजीब है, लेकिन चलो एक उदाहरण के बारे में सोचो.
तो हम कहते हैं कि की संभावना एक गीत में 'बेबी' होने में ही है
गागा और ब्रिटनी स्पीयर्स के लिए.
लेकिन ब्रिटनी स्पीयर्स दो बार है लेडी गागा से भी ज्यादा गाने.
तो किसी को सिर्फ बेतरतीब ढंग से आप देता है पहली बात, "बेबी" के गीत आप
पर देखो, की संभावना क्या है एक गागा गीत में 'बेबी' होने, "बेबी"
एक ब्रिटनी गीत में?
और यह एक ही बात है.
>> तो आप देखेंगे कि दूसरी बात यह है, ठीक है, की संभावना क्या है
अपने आप में इस गीत, एक गागा गीत जा रहा है और की संभावना क्या है
एक ब्रिटनी गीत जा रहा है?
तो ब्रिटनी इतने अधिक गीत है के बाद से गागा की तुलना में, आप शायद होगा
कहते हैं, ठीक है, यह शायद है एक ब्रिटनी गीत.
हम यह है तो इसलिए यहीं शब्द.
गागा की संभावना है.
समझ में आता है?
यह क्या?
ठीक है.
>> और पिछले एक बस संभावना है "बेबी" का जो नहीं करता है
सच बात है कि ज्यादा.
लेकिन यह की संभावना है अंग्रेजी में 'बेबी' को देखकर.
हम आम तौर पर कोई परवाह नहीं है कि उस अवधि के बारे में बहुत कुछ.
कि मतलब?
इसलिए गागा की संभावना है पूर्व संभाव्यता बुलाया
वर्ग गागा की.
यह सिर्फ मतलब है कि क्योंकि, क्या है उस वर्ग के होने की संभावना -
गागा जो है -
सिर्फ सामान्य में, बस कोई शर्तों के साथ.
>> और फिर मैं की संभावना है जब "बच्चे," हम यह कह प्लस दी गागा
क्योंकि यह एक संभावना teary होने की संभावना
गागा कुछ सबूत दिया.
तो मैं आपको सबूत दे रहा हूँ मैं शब्द बच्चे को देखा और कहा कि
गीत समझ बनाने के?
ठीक है.
>> मैं गणना की तो है कि प्रत्येक के लिए लेडी गागा के लिए गाने की,
कि क्या होगा -
जाहिर है, मैं इस कदम नहीं कर सकते.
गागा की संभावना हो जाएगा कुछ की तरह, 2 पर 24, गुना 1/2,
53 से अधिक से अधिक 2.
यदि आप जानते हैं यह बात नहीं है क्या इन नंबरों से आ रहे हैं.
लेकिन यह जा रहा है कि सिर्फ एक संख्या है ठीक है, 0 से अधिक होना करने के लिए?
>> और फिर मैं कैटी पेरी, करते हैं कैटी दिया "बेबी" की संभावना है
पहले से ही 0, सही है?
कोई 'बेबी' क्योंकि वहाँ कैटी पेरी में.
तो फिर इस 0 हो जाता है, और गागा जीतता है, जो गागा का मतलब है कि
शायद गायक.
कि मतलब?
ठीक है.
>> इसलिए मैं इस अधिक अधिकारी बनाना चाहते हैं, मैं वास्तव में एक मॉडल कर सकते हैं
कई शब्दों के लिए.
तो चलो मैं कुछ है कि हम कहते हैं जैसे, "बेबी, मैं हूँ
आग पर, "या कुछ और.
इसलिए यह कई शब्द है.
और इस मामले में, आप देख सकते हैं कि 'बेबी', गागा में है
लेकिन यह कैटी में नहीं है.
और "आग" कैटी में है, लेकिन यह सही, गागा में नहीं है?
तो यह ठीक है, पेचीदा मामला हो रही है?
क्योंकि यह लगता है कि आप लगभग दोनों के बीच एक टाई है.
>> तो क्या तुम्हें क्या करना है की कल्पना है शब्दों के बीच आज़ादी.
तो बुनियादी तौर पर मतलब है कि क्या यह है कि मैं बस है क्या गणना कर रहा हूँ
देखने की संभावना "बच्चे," क्या है देखने की संभावना "मैं," और
"आग" "हूँ", और "पर," और सब अलग.
तब मैं उन सभी को गुणा कर रहा हूँ.
और मैं संभावना है क्या देख रहा हूँ के पूरे वाक्य को देखकर.
भावना करें?
>> तो बुनियादी तौर पर, मैं सिर्फ एक शब्द है, क्या मैं मिल चाहते ARG अधिकतम है,
जिसका मतलब है, है कि वर्ग क्या है मुझे सबसे अधिक संभावना दे रही है?
इसलिए दे रहा है कि क्लास में क्या है मेरे लिए सबसे अधिक संभावना
वर्ग की संभावना शब्द दिया.
तो इस मामले में, बेहूदा "बेबी." दिया या कैटी "बेबी." दिया भावना करें?
>> और बस Bayes से, कि मैं पता चला है कि समीकरण,
हम इस अंश बना.
केवल एक चीज आप देखते हैं कि यह है कि दिए शब्द की संभावना
आधार पर कक्षा परिवर्तन वर्ग पर, सही?
मुझे लगता है कि 'बेबी' एस की संख्या गागा में कैटी से अलग है.
वर्ग की संभावना भी यह सिर्फ संख्या में परिवर्तन की वजह से
उनमें से गाने से प्रत्येक.
>> लेकिन शब्द ही की संभावना सभी के लिए समान होने जा रहा है
कलाकारों, सही?
तो शब्द की संभावना है बस, की संभावना क्या है
में उस शब्द को देखकर अंग्रेजी भाषा?
तो यह उन सभी के लिए एक ही है.
यह निरंतर है तो के बाद से, हम कर सकते हैं बस इस गिरावट और इसके बारे में परवाह नहीं.
तो यह वास्तव में हो जाएगा हम देख रहे हैं समीकरण.
>> मैं कई शब्द है, तो मैं कर रहा हूँ अभी भी पहले की है जा
यहाँ संभावना.
केवल एक चीज मैं गुणा रहा है की संभावना
अन्य सभी शब्द.
इसलिए मैं उन सभी को गुणा कर रहा हूँ.
भावना करें?
यह अजीब लगता है, लेकिन मूल रूप से मतलब वर्ग के पहले, और गणना
तब प्रत्येक की संभावना से गुणा उस वर्ग में किया जा रहा है शब्दों की.
>> और आप जानते हैं कि एक की संभावना एक वर्ग दिए गए शब्द होने जा रहा है
आप में उस शब्द को देखने के अवसरों की संख्या की संख्या से विभाजित है कि वर्ग,
शब्दों को आप उस में है सामान्य रूप में वर्ग.
भावना करें?
यह 2 से अधिक बस कैसे "बेबी" था शब्दों की संख्या कि
मैं गीत में था.
तो बस आवृत्ति.
>> लेकिन एक बात है.
मैं दिखा रहा था कि कैसे याद रखें कि "बेबी" होने के बोल की संभावना
कैटी पेरी से 0 था सिर्फ इसलिए कैटी पेरी सब पर "बेबी" नहीं था?
लेकिन यह सिर्फ करने के लिए थोड़ा कठोर लगता है बस के बोल से नहीं किया जा सकता का कहना है कि
वे नहीं है सिर्फ इसलिए कि एक कलाकार किसी भी समय विशेष रूप से उस शब्द.
>> तुम तो अगर आप बस, अच्छी तरह से कह सकते हैं, इस शब्द नहीं है, मैं जा रहा हूँ
आप एक कम संभावना दे, लेकिन मैं अभी नहीं जा रहा हूँ
आप अभी 0 दे.
शायद यह कुछ की तरह था, क्योंकि है जो "आग, आग, आग, आग,"
पूरी तरह से कैटी पेरी.
और फिर "बच्चे," और यह सिर्फ करने के लिए चला जाता है 0 सही दूर नहीं था क्योंकि
"बेबी."
>> तो बुनियादी तौर पर हम क्या कुछ है लाप्लास समरेखण कहा जाता है.
और यह सिर्फ मैं देने हूँ कि इसका मतलब यहां तक कि शब्दों को कुछ संभावना
कि अस्तित्व में नहीं है.
तो मैं क्या है कि मैं कर रहा हूँ जब इस गणना के, मैं हमेशा के लिए 1 जोड़ें
अंश.
शब्द में मौजूद नहीं है, तो भी अगर इस 0 है, तो इस मामले में, मैं अब भी हूँ
1 से अधिक के रूप में इस की गणना शब्दों की कुल संख्या.
अन्यथा, मैं कितने शब्द मेरे पास है और मैं 1 जोड़ें.
इसलिए मैं दोनों ही मामलों के लिए भरोसा कर रहा हूँ.
भावना करें?
>> तो अब चलो कुछ कोडिंग करते हैं.
मैं बहुत तेजी से यह करने के लिए किया जा रहा हूँ लेकिन यह सिर्फ महत्वपूर्ण है आपको लगता है कि
लोग अवधारणाओं को समझने में.
तो क्या हम ऐसा करने की कोशिश कर रहे हैं वास्तव में यह लागू है
मैं सिर्फ इतना कहा कि बात -
मैं आप से बोल डाल करना चाहते हैं लेडी गागा और कैटी पेरी.
और कार्यक्रम के लिए सक्षम होने जा रहा है इन नए गीत गागा से कर रहे हैं, तो कहते हैं
या कैटी पेरी.
भावना करें?
ठीक है.
>> इसलिए मुझे लगता है मैं जा रहा हूँ इस कार्यक्रम है classify.py कॉल करने के लिए.
तो यह अजगर है.
यह एक नई प्रोग्रामिंग भाषा है.
यह कुछ में बहुत समान है सी और PHP के लिए तरीके.
आप करना चाहते हैं क्योंकि अगर यह इसी तरह है सी जानने के बाद अजगर जानने के लिए, यह है
एक चुनौती के सच है कि बहुत नहीं अजगर बहुत आसान है, सिर्फ इसलिए कि
की तुलना में सी, सब से पहले.
और चीजों की एक बहुत पहले से ही कर रहे हैं आप के लिए लागू किया है.
तो बस कैसे PHP की तरह कार्य करता है कि एक सूची तरह, या कुछ और संलग्न
एक सरणी, या बकवास, बकवास, बकवास करने के लिए.
अजगर के रूप में अच्छी तरह से उन सभी है.
>> तो मैं बस जल्दी से समझा जा रहा हूँ हम वर्गीकरण कैसे कर सकता है
यहाँ के लिए समस्या है.
तो चलो इस मामले में, मुझे लगता है कि हम कहते हैं गागा और कैटी पेरी से बोल.
मैं उन गीत है कि जिस तरह से है कि गीत का पहला शब्द है
कलाकार का नाम, और बाकी गीत है.
तो चलो मैं में इस सूची में है कि हम कहते हैं जो पहले एक गागा ने गीत है.
तो यहाँ मैं सही रास्ते पर हूँ.
और अगले एक कैटी है, और यह भी गीत है.
>> तो यह आप की घोषणा कैसे है पायथन में एक चर.
आप डेटा प्रकार देने की जरूरत नहीं है.
तुम बस "बोल" लिखने एक तरह से PHP में पसंद है.
भावना करें?
>> तो मुझे लगता है कि चीजों को क्या कर रहे हैं गणना करने में सक्षम होने की गणना
संभावनाओं?
मैं "priors" की गणना करने के लिए है अलग से प्रत्येक की
मुझे लगता है कि कक्षाओं.
मैं "कूल्हे," गणना करने के लिए है या बहुत ज्यादा संभावनाओं की
विभिन्न शब्दों की प्रत्येक कि मैं प्रत्येक कलाकार के लिए हो सकता है.
इसलिए गागा के भीतर, उदाहरण के लिए, मैं जा रहा हूँ मैं देख रहा हूँ कि कितने समय की एक सूची है
शब्दों का प्रत्येक.
भावना करें?
>> और अंत में, मैं अभी किया जा रहा हूँ एक बस जा रहा है कि "शब्द" नामक सूची
है की कितने शब्द मैं प्रत्येक कलाकार के लिए है.
इसलिए गागा के लिए, उदाहरण के लिए, जब मैं देखो गीत के लिए, मैं, मुझे लगता था, 24
कुल शब्द.
तो यह सूची अभी किया जा रहा है गागा 24, और कैटी दूसरे नंबर.
भावना करें?
ठीक है.
>> तो अब, वास्तव में, चलो कोडिंग के पास जाओ.
तो पायथन में, तुम वास्तव में कर सकते हैं अलग से एक गुच्छा लौटने
एक समारोह से बातें.
तो मैं इस समारोह बनाने के लिए जा रहा हूँ जा रहा है जो "सशर्त" कहा जाता है
, उन सब बातों के वापस जाने के लिए "Priors," "संभावनाओं," और
"शब्द." तो, "सशर्त" और यह बात है में बुला होने जा रही "गीत."
>> तो अब मैं आप वास्तव में करना चाहते हैं इस समारोह में लिखें.
मैं यह लिख सकते हैं कि तो रास्ता समारोह मैं सिर्फ यह परिभाषित किया गया है
साथ समारोह "डेफ." इसलिए मैं डेफ "किया सशर्त, "और यह ले जा रहा है
"बोल." और क्या यह करने के लिए जा रहा है , सब से पहले, मैं अपने priors है है
मैं गणना करना चाहते हैं.
>> इसलिए मैं यह कर सकते हैं कि जिस तरह से बना है अजगर, में एक शब्दकोश जो
एक हैश के रूप में बहुत ज्यादा एक ही बात है तालिका, या यह एक चलने की तरह है
PHP में सरणी.
यह मैं एक शब्दकोश की घोषणा कैसे है.
और असल में क्या इसका मतलब यह है कि गागा की priors हैं, उदाहरण के लिए, 0.5 है
गीत के 50% से कर रहे हैं गागा, 50% कैटी से कर रहे हैं.
भावना करें?
इसलिए मैं यह पता लगाने की है कि कैसे priors गणना करने के लिए.
>> मुझे क्या करना है कि अगले लोगों को, भी, संभावनाओं और शब्द हैं.
इसलिए गागा की संभावनाओं सूची है सभी संभावनाओं की कि मैं
गागा के लिए शब्दों से प्रत्येक के लिए है.
मैं गागा की संभावनाओं को जाना तो अगर "बच्चे," उदाहरण के लिए, यह मुझे दे देंगे
2 उस मामले में 24 से अधिक की तरह कुछ.
भावना करें?
तो मैं "संभावनाओं," करने के लिए जाने के लिए जाना सभी की एक सूची है कि "बेहूदा" बाल्टी
गागा शब्दों, तो मैं ", बेबी" के लिए जाना और मैं संभावना देखते हैं.
>> और अंत में मैं यह है "शब्द" शब्दकोश.
तो यहाँ, "संभावनाओं." और फिर "शब्द." तो मैं "शब्द," "गागा," करते हैं
क्या होने वाला है यह है कि , मुझे 24 देने जा कह रही है कि मैं
गागा से बोल भीतर 24 शब्द हैं.
समझ में आता है?
तो यहाँ, "शब्द" दाह-दाह-दाह बराबर होती है.
अच्छा
>> तो मैं क्या करने जा रहा हूँ मैं जा रहा हूँ तो, बोल के प्रत्येक पर पुनरावृति
तार के प्रत्येक कि मैं इस सूची में है.
और मैं उन चीजों की गणना करने के लिए जा रहा हूँ उम्मीदवारों में से प्रत्येक के लिए.
समझ में आता है?
तो मैं एक पाश के लिए क्या करना है.
>> तो पायथन में मैं क्या कर सकता लाइन के लिए "है गीत में. "एक के रूप में एक ही बात
PHP में बयान "प्रत्येक के लिए".
यह PHP था अगर मैं कैसे कर सकता याद रखें के रूप में प्रत्येक गीत के लिए कहते हैं "
लाइन. "समझ में आता है?
इसलिए मैं इस में, लाइनों के प्रत्येक ले जा रहा हूँ मामला है, इस स्ट्रिंग और अगले
स्ट्रिंग तो मैं क्या कर रहा हूँ लाइनों में से प्रत्येक के लिए क्या करने जा मैं करने जा रहा हूँ, पहला है
की एक सूची में इस लाइन विभाजित रिक्त स्थान के द्वारा अलग शब्द.
>> तो अजगर के बारे में अच्छी बात यह है कि आप गूगल की तरह "कैसे कर सकते हैं सकता है मैं
शब्द में एक स्ट्रिंग विभाजन? "और यह बात है यह कैसे करना है आपको बताने जा रहा.
और ऐसा करने का तरीका है, यह सिर्फ "रेखा है = Line.split () "और यह मूल रूप से है
आप के साथ एक सूची देने के लिए जा रहा यहाँ शब्दों की प्रत्येक.
समझ में आता है?
तो अब मैं मैं जानना चाहता था कि कि उस गाने के गायक कौन है.
और मैं सिर्फ पाने के लिए है कि ऐसा करने के लिए सरणी के पहले तत्व, सही?
तो मैं सिर्फ कह सकते हैं कि मैं "गायक = रेखा (0) "समझ में आता है?
>> और फिर क्या मैं क्या करने की जरूरत पहले की है, सभी, मैं अद्यतन करने के लिए जा रहा हूँ कि कितने
शब्दों मैं नीचे है "गागा." तो मैं कर रहा हूँ बस गणना करने के लिए जा रहा है कि कितने शब्द मैं
ठीक है, इस सूची में है?
इस मेरे पास कितने शब्द है क्योंकि गीत में है और मैं अभी जा रहा हूँ
"बेहूदा" सरणी में जोड़ें.
कि मतलब?
वाक्यविन्यास पर बहुत ज्यादा ध्यान मत करो.
अवधारणाओं के बारे में अधिक लगता है.
यही सबसे महत्वपूर्ण हिस्सा है.
ठीक है.
>> "बेहूदा" अगर ऐसा है तो क्या मैं यह कर सकता है पहले से ही उस सूची में है, तो "गायक में अगर
शब्द "जिसका अर्थ है कि मैं पहले से ही गागा हुए शब्द है.
मैं सिर्फ अतिरिक्त जोड़ना चाहते हैं उस के लिए शब्द.
तो मैं क्या "शब्द (गायक) है + = लेन (लाइन) - 1 ".
और फिर मैं अभी क्या कर सकते हैं रेखा की लंबाई.
तो कितने तत्वों मैं सरणी में है.
और मुझे क्या करना है 1 शून्य से सिर्फ इसलिए सरणी के पहले तत्व बस है
एक गायक और उन के बोल नहीं हैं.
समझ में आता है?
ठीक है.
>> "वरना," यह मैं चाहता हूँ कि इसका मतलब करने के लिए वास्तव में सूची में गागा डालें.
इसलिए मैं सिर्फ शब्द (गायक) "करना = लेन (लाइन) - 1, "क्षमा करें.
इसलिए दोनों के बीच फर्क सिर्फ इतना है लाइनों यह एक है, यह नहीं है
अभी तक अस्तित्व में है, तो मैं कर रहा हूँ बस यह आरंभ.
यह एक मैं वास्तव में जोड़ रहा हूँ.
ठीक है.
इसलिए इस शब्द को जोड़ने था.
>> अब मैं priors को जोड़ना चाहते हैं.
तो कैसे मैं priors गणना कैसे करते हैं?
priors गणना की जा सकती कितनी बार से.
आपको लगता है कि गायक देखते तो कितनी बार कि तुम गायकों के सभी के बीच
ठीक है, है ना?
, गागा और कैटी पेरी के लिए तो इस मामले में, मैं गागा देखना
एक बार, कैटी पेरी एक बार.
>> गागा के लिए तो बुनियादी तौर पर priors और कैटी पेरी के लिए होगा
बस सही, एक हो?
तुम बस कितनी बार मैं कलाकार देखते हैं.
तो यह गणना करने के लिए बहुत आसान है.
मैं कर सकता हूँ समान सिर्फ कुछ की तरह "के रूप में अगर priors में गायक, "मैं अभी जा रहा हूँ
उनके priors बॉक्स को 1 जोड़ने के लिए.
"तो," और फिर "" priors (गाना) "+ = 1 बाकी मैं "priors (गायक) क्या करने जा रहा हूँ
= 1. "समझ में आता है?
>> तो यह अस्तित्व में नहीं है, तो मैं सिर्फ डाला 1 के रूप में, नहीं तो मैं सिर्फ 1 जोड़ें.
ठीक है, तो अब सब मुझे क्या करना छोड़ दिया है कि भी करने के लिए शब्दों का प्रत्येक जोड़ रहा है
संभावनाओं.
इसलिए मैं गिनती करने के लिए कितनी बार मैं शब्दों के प्रत्येक देखते हैं.
तो मैं बस एक और क्या करना है लाइन में पाश के लिए.
>> मैं क्या करने जा रहा हूँ तो यह है कि पहली बात यह है गायक पहले से ही एक है की जाँच
संभावनाओं सरणी.
गायक नहीं करता है तो अगर मैं जाँच कर रहा हूँ एक संभावनाओं सरणी है, मैं अभी कर रहा हूँ
उनके लिए एक को प्रारंभ करने जा रहा.
यह भी एक सरणी नहीं है, माफ करना, यह एक शब्दकोश है.
तो गायक की संभावनाओं जा रहा है एक खुला शब्दकोश होने के लिए है, तो मैं कर रहा हूँ
बस इसके लिए एक शब्दकोश आरंभ.
ठीक है?
>> और अब मैं वास्तव में एक पाश के लिए क्या कर सकते हैं शब्दों के प्रत्येक 'की गणना करने के लिए
संभावनाओं.
ठीक है.
तो मैं क्या कर सकता हूँ पाश के लिए एक है.
तो मैं बस पुनरावृति करने के लिए जा रहा हूँ सरणी पर.
मैं पायथन में ऐसा कर सकते हैं तो यह है कि जिस तरह से "श्रृंखला में मैं के लिए है." 1 से
मैं दूसरे में शुरू करना चाहते हैं क्योंकि पहले एक तत्व है क्योंकि
गायक का नाम.
तो एक से करने के लिए ऊपर रेखा की लंबाई.
और मैं सीमा है जब यह वास्तव में से जाना यहाँ की तरह 1 से की लेन करने के लिए
रेखा शून्य से 1.
तो यह पहले से ही कर रही है कि बात करता है बहुत है जो सरणियों के लिए एन शून्य से 1
सुविधाजनक.
समझ में आता है?
>> इसलिए इनमें से प्रत्येक के लिए, क्या मैं करने जा रहा हूँ करो, बस एक दूसरे में, जैसे है
मैं जाँच करने के लिए जा रहा हूँ अगर इस में शब्द लाइन में स्थिति में पहले से ही है
संभावनाओं.
और फिर मैं संभावनाओं, यहाँ के रूप में कहा शब्दों के रूप में, मैं डाल
"संभावनाओं (गायक)".
तो गायक का नाम.
तो यह पहले से ही है अगर "Probabilit (गायक)", इसका मतलब है कि मैं
यह करने के लिए 1 जोड़ना चाहते हैं, तो मैं करने जा रहा हूँ "संभावनाओं (गायक)", और कर
शब्द "रेखा (मैं)" कहा जाता है.
मैं 1 जोड़ने के लिए जा रहा हूँ और "और" मैं कर रहा हूँ बस 1 को आरंभ करने के लिए जा रहा है.
"रेखा (मैं)".
समझ में आता है?
>> तो, मैं सरणियों के सभी गणना की.
तो, अब सब मैं के लिए क्या करना है कि यह सिर्फ एक ", priors वापसी है
संभावनाओं और शब्द. "चलो ठीक है, कोई भी देख रहे हैं.
यह सब कुछ अब तक काम कर रहा है लगता है.
तो, कि समझ में आता है?
किसी तरह से?
ठीक है.
तो अब मैं सभी संभावनाओं है.
तो अब मुझे छोड़ दिया है केवल बात बस उस बात के लिए है कि
सभी के उत्पाद की गणना करता है मैं बोल पाने जब संभावनाओं.
>> तो चलो मैं अब कॉल करना चाहते हैं कि हम कहते हैं इस समारोह में ") (वर्गीकृत" और
बात यह है कि समारोह लेता है सिर्फ एक तर्क है.
के "बेबी, मैं आग पर हूँ" हम कहते हैं और यह बात है क्या है यह पता लगाने के लिए जा रहा
यह बेहूदा है कि संभावना?
क्या है संभावना इस केटी है कि?
अच्छा लगता है?
तो मैं बस बनाने के लिए किया जा रहा हूँ एक कहा जाता नई समारोह ") (वर्गीकृत" और
यह कुछ ले जा रहा है गीत के रूप में अच्छी तरह से.
और गीत के अलावा मैं भी priors भेज दिया है,
संभावनाओं और शब्द.
तो मैं बोल, priors भेजने के लिए जा रहा हूँ, संभावनाओं के शब्दों.
>> तो यह गीत, priors ले जा रहा है, संभावनाओं के शब्दों.
तो, यह क्या करता है?
यह मूल रूप से सभी के माध्यम से जाना जा रहा है संभावित उम्मीदवारों है कि आप
एक गायक के रूप में है.
और जहां उन उम्मीदवारों कर रहे हैं?
वे priors में हैं, सही?
तो मैं वहाँ उन सभी को है.
तो मैं एक शब्दकोश है जा रहा हूँ सभी संभावित उम्मीदवारों की.
और उसके बाद में प्रत्येक उम्मीदवार के लिए priors, यह करने के लिए जा रहा है तो इसका मतलब है
अगर मैं था गागा, केटी हो अधिक इसे और अधिक हो जाएगा.
मैं गणना शुरू करने जा रहा हूँ इस संभावना.
हम में देखा संभावना PowerPoint पिछले बार है
में से प्रत्येक के उत्पाद अन्य संभावनाओं.
>> इसलिए मैं यहां वही कर सकता है.
मैं सिर्फ संभावना है क्या कर सकते हैं शुरू में सिर्फ पहले.
उम्मीदवार की तो priors.
है ना?
और अब मैं सब से अधिक पुनरावृति करने के लिए है मैं होने के लिए गीत में है कि शब्द
संभावना जोड़ने के लिए सक्षम ठीक है, उनमें से प्रत्येक के लिए?
तो, "गीत में शब्द के लिए" क्या मैं जा रहा हूँ शब्द में है, तो क्या करना है
"संभावनाओं (उम्मीदवार)", जो यह एक शब्द है कि इसका मतलब है कि
उम्मीदवार अपने गीत में है -
गागा के लिए उदाहरण के लिए, "बेबी" -
मैं क्या करने जा रहा हूँ है कि संभावना गुणा किया जा रहा है
प्लस संभावनाओं का 1 से उस शब्द के लिए उम्मीदवार.
और यह "शब्द" कहा जाता है.
यह शब्दों की संख्या से विभाजित मुझे लगता है कि उम्मीदवार के लिए है कि.
मुझे लगता है कि शब्दों की कुल संख्या मैं देख रहा हूँ कि गायक के लिए.
>> "नहीं." यह यह एक नया शब्द है इसका मतलब तो यह उदाहरण के लिए की तरह होगा
लेडी गागा के लिए "आग".
तो मैं बस पर 1 क्या करना चाहते हैं "शब्द (उम्मीदवार)".
इसलिए मैं यहाँ इस अवधि डाल नहीं करना चाहती.
>> तो यह मूल रूप से किया जा रहा है कॉपी करने और इस चिपकाने.
लेकिन मैं इस हिस्से को हटाने के लिए जा रहा हूँ.
तो यह है कि बस पर 1 होने जा रहा है.
अच्छा लगता है?
और अब अंत में, मैं अभी जा रहा हूँ उम्मीदवार का नाम और मुद्रित
आप की है कि संभावना उनके गीत पर होने.
समझ में आता है?
और मैं वास्तव में नहीं भी करते हैं इस शब्दकोश की जरूरत है.
समझ में आता है?
>> तो, यह वास्तव में काम करता है, तो चलो देखते हैं.
मैं इस दौड़ तो, अगर यह काम नहीं किया.
एक मिनट रुको.
"शब्द (उम्मीदवार)", "शब्द (उम्मीदवार)", कि
सरणी का नाम.
ठीक है तो, यह कुछ बग है कहते हैं priors में उम्मीदवार के लिए.
मुझे बस थोड़ा सा ठंडा करते हैं.
ठीक है.
चलो कोशिश करते हैं.
ठीक है.
>> तो यह कैटी पेरी इस है देता है करने के लिए इस बार 10 की संभावना
शून्य से 7, और गागा यह है बार शून्य से 6 10.
तो आप यह पता चलता है कि देखने गागा एक उच्च संभावना है.
ऐसा है "बेबी, मैं आग पर हूँ" शायद एक गागा गीत.
समझ में आता है?
तो यह है कि हम क्या किया है.
>> इस कोड को ऑनलाइन पोस्ट कर दिया जा रहा है, तो तुम लोग इसे बाहर की जाँच कर सकते हैं.
यदि आप चाहते हैं शायद के लिए यह कुछ का उपयोग एक परियोजना या कुछ इसी तरह की.
ठीक है.
यह सिर्फ दिखाने के लिए था क्या कम्प्यूटेशनल
भाषाविज्ञान कोड की तरह दिखता है.
लेकिन अब और अधिक करने के लिए जाओ उच्च स्तर के सामान.
ठीक है.
>> तो अन्य समस्याओं मैं के बारे में बात कर रहा था -
विभाजन समस्या उनमें से पहला है.
तो तुम यहाँ जापानी है.
और फिर आप देखते हैं कि कोई स्थान नहीं है.
तो यह मूल रूप से यह है कि इसका मतलब है कुर्सी के ऊपर, ठीक है?
तुम जापानी बात की?
यह ठीक है, कुर्सी के ऊपर है?
>> छात्र: मैं नहीं जानता कि क्या कांजी वहाँ पर है.
>> लुकास Freitas: यह [जापानी बोल रही है] है
ठीक है.
तो यह मूल रूप से शीर्ष की कुर्सी का मतलब है.
आप एक अंतरिक्ष लगा दिया था तो अगर यह यहां होगा.
और फिर तुम [है? Ueda-सान. ?]
जो मूल रूप से श्री Ueda मतलब है.
और आपको लगता है कि "Ueda" देखते हैं और आपके पास एक अंतरिक्ष और फिर "सान." तो आप देखते हैं कि
यहाँ आप "Ue" से ही की तरह है.
और यहाँ यह एक चरित्र है यह करने के लिए अगले.
>> तो यह उन भाषाओं में पसंद नहीं है एक शब्द है यह तो आप अर्थ वर्ण
बस रिक्त स्थान की एक बहुत डाल दिया.
वर्ण एक दूसरे से संबंधित हैं.
और वे एक साथ किया जा सकता है जैसे दो, तीन, एक.
तो आप वास्तव में किसी तरह का बनाने के लिए है के रास्ते से उन स्थानों लगा.
>> और यह बात है कि आप जब भी उन एशियाई भाषाओं से डेटा,
सब कुछ unsegmented आता है.
क्योंकि जापानी लिखते हैं, जो कोई नहीं या चीनी रिक्त स्थान के साथ लिखते हैं.
आप चीनी लिख रहे हैं जब भी, जापानी आपको बस सब कुछ लिखने
कोई रिक्त स्थान के साथ.
यह भी मतलब नहीं है रिक्त स्थान डाल दिया.
तो फिर तुम कुछ, से डेटा प्राप्त जब पूर्व एशियाई भाषा, अगर तुम चाहते हो
वास्तव में उस के साथ कुछ करना आप पहले खंड के लिए है.
>> उदाहरण के कर के बारे में सोचो रिक्त स्थान के बिना गीत.
तो है कि आप केवल बोल सही, वाक्य होगा?
समय से अलग.
लेकिन तब सिर्फ वाक्य रहा होगा वास्तव में जानकारी देने पर मदद नहीं
के उन गीतों से जो कर रहे हैं.
है ना?
इसलिए आपका पहला रिक्त स्थान रखता है.
आप तो यह है कि कैसे कर सकते हैं?
>> तो फिर एक भाषा का विचार आता है वास्तव में कुछ है जो मॉडल
कम्प्यूटेशनल के लिए महत्वपूर्ण भाषा विज्ञान.
तो एक भाषा मॉडल मूल रूप से एक संभावनाओं की मेज कि शो
संभावना है क्या सब से पहले की एक भाषा में शब्द आ रहा है?
तो एक शब्द है कितनी देर में दिखा.
और फिर भी संबंध दिखा एक वाक्य में शब्दों के बीच.
>> एक अजनबी आया तो मुख्य विचार है, आप और एक वाक्य को कहा
तुम, संभावना है कि, के लिए क्या है उदाहरण के लिए, "यह मेरी बहन है [? GTF"?]
व्यक्ति ने कहा कि वाक्य था?
तो जाहिर है कुछ वाक्य हैं दूसरों की तुलना में अधिक सामान्य.
उदाहरण के लिए, "सुप्रभात" या "अच्छा रात, "या" वहाँ अरे, "बहुत अधिक है
सबसे वाक्य से आम हम एक अंग्रेजी है कि.
तो क्यों उन वाक्यों हैं अधिक लगातार?
>> क्योंकि तुम सब से पहले, यह है अधिक पाये जाते हैं कि शब्द.
अगर आप कहते हैं तो, उदाहरण के लिए, कुत्ता है बड़ा, और कुत्ते को आप, विशाल है
आमतौर पर शायद कुत्ता बड़ा है सुना "बड़े" अधिक है और अधिक बार क्योंकि
"विशाल." से अंग्रेजी में लगातार तो, एक
चीजें शब्द आवृत्ति है.
>> सच है, जो दूसरी बात महत्वपूर्ण है बस
शब्दों के आदेश.
तो, यह "बिल्ली का कहना है कि आम है . बॉक्स के अंदर "लेकिन आप ऐसा नहीं कर आमतौर पर
में देखने के लिए "बॉक्स के अंदर बिल्ली है." इतना आप कुछ महत्व है कि वहाँ देखना
शब्दों के क्रम में.
तुम सिर्फ यह नहीं कह सकते कि उन दो वाक्य ही संभावना है
वे एक ही शब्द है सिर्फ इसलिए.
तुम वास्तव में परवाह है आदेश के बारे में के रूप में अच्छी तरह से.
भावना करें?
>> तो हम क्या करें?
तो क्या मैं तुम्हें पाने के लिए कोशिश कर सकते हैं?
मैं तुम्हें क्या हम पाने के लिए कोशिश कर रहा हूँ N-ग्राम मॉडल को बुलाओ.
तो N-ग्राम मॉडल मूल रूप से ग्रहण कि प्रत्येक शब्द के लिए कि
आप एक वाक्य में है.
यह होने की संभावना है कि शब्द पर न केवल वहाँ निर्भर करता है
भाषा में उस शब्द की आवृत्ति, लेकिन यह भी शब्दों पर कि
यह आस कर रहे हैं.
>> तो उदाहरण के लिए, आम तौर पर जब आप देखते हैं पर या आप कर रहे हैं पर जैसे कुछ
शायद एक को देखने के लिए जा रहा इसके बाद संज्ञा, सही?
क्योंकि आप एक वाक्य है जब आमतौर पर यह बाद यह एक संज्ञा लेता है.
या फिर आप संक्रामक है कि एक क्रिया है अगर आप आमतौर पर करने जा रहे हैं
एक संज्ञा वाक्यांश है.
तो यह एक संज्ञा है जा रहा है यह आसपास कहीं.
>> तो, मूलतः, यह क्या करता है कि यह होने की संभावना पर विचार करता है
शब्द एक दूसरे के बगल में, जब आप गणना कर रहे हैं
एक वाक्य की संभावना.
और क्या है कि एक भाषा है मॉडल मूल रूप से है.
बस संभावना है क्या कह की एक विशिष्ट होने
एक भाषा में वाक्य?
तो यही कारण है कि मूल रूप से उपयोगी है?
और सब से पहले क्या है एक एन ग्राम मॉडल, तो?
>> तो एक एन ग्राम मॉडल का मतलब है कि प्रत्येक शब्द पर निर्भर करता है
अगले एन शून्य से 1 शब्द.
तो, मूलतः, यह मैं देखो अगर इसका मतलब है कि उदाहरण के लिए, CS50 TF पर जब
मैं की संभावना की गणना कर रहा हूँ वाक्य, आप की तरह हो जाएगा "
शब्द "" होने की संभावना होने के समय संभावना "
होने के CS50 "टाइम्स संभावना "CS50 TF." तो, मूलतः, मैं भरोसा
यह खींच के सभी संभव तरीके से.
>> और फिर आम तौर पर आप यह कर रहे हैं जब एक परियोजना के रूप में, आप होना एन डाल
एक कम मूल्य.
तो, आमतौर पर bigrams या trigrams है.
आप सिर्फ दो शब्द, एक गिनती तो यह है कि दो शब्द, या तीन शब्दों का समूह,
सिर्फ प्रदर्शन के मुद्दों के लिए.
और इसलिए भी कि शायद अगर आपके पास जैसे कुछ "CS50 TF." जब आप
है "TF," यह बहुत महत्वपूर्ण है कि "CS50" ठीक है, यह करने के लिए अगले है?
उन दो बातें आम तौर पर कर रहे हैं एक दूसरे के बगल में.
>> आप के बारे में सोच "TF," यह शायद है के लिए जा रहा है क्या
इसके लिए TF'ing की क्लास.
इसके अलावा "" वास्तव में महत्वपूर्ण है CS50 TF के लिए.
लेकिन आप "CS50 की तरह कुछ है TF क्लास में गया और दिया उनके
छात्रों कुछ कैंडी. "" कैंडी "और" " ठीक है, वास्तव में कोई रिश्ता नहीं है?
वे एक दूसरे से बहुत दूर हो कि यह वास्तव में क्या कोई फर्क नहीं पड़ता
शब्द तुम्हारे पास है.
>> तो एक बाइग्राम या एक trigram करने से, यह बस आप को सीमित कर रहे हैं इसका मतलब है कि
अपने आप को कुछ शब्दों को चारों ओर हैं.
भावना करें?
तो आप विभाजन करना चाहते हैं, असल में, आप क्या करना चाहते हैं देखना है
सभी संभव तरीके क्या हैं आप खंड वाक्य कर सकते हैं.
>> आप क्या देखते हैं कि इस तरह के उन वाक्यों में से प्रत्येक की संभावना
भाषा में मौजूदा?
तो तुम्हें क्या पसंद है, ठीक है, चलो है मुझे यहाँ एक अंतरिक्ष रखने की कोशिश.
तो तुम वहाँ एक अंतरिक्ष डाल और तुम क्या है देखने
उस वाक्य की संभावना?
तो फिर तुम ठीक है, की तरह, शायद कर रहे हैं कि कि अच्छा नहीं था.
तो मैं एक अंतरिक्ष वहाँ एक अंतरिक्ष डाल दिया है और वहाँ, और आप की गणना
संभावना अब, और आप देखेंगे कि यह संभावना अधिक है.
>> तो इस टैंगो नामक एक एल्गोरिथ्म है विभाजन एल्गोरिथ्म, जो है
वास्तव में सच होगा कि कुछ एक परियोजना के लिए शांत जो
मूल रूप से unsegmented पाठ लेता है जो जापानी या चीनी या शायद हो सकता है
अंग्रेजी रिक्त स्थान के बिना और डाल करने की कोशिश करता है शब्दों और यह करता है के बीच रिक्त स्थान
एक भाषा है कि मॉडल का उपयोग करके और उच्चतम क्या है यह देखने की कोशिश कर रहा
आपको मिल सकता है संभावना.
ठीक है.
तो इस विभाजन है.
>> अब वाक्यविन्यास.
तो, वाक्य रचना के लिए इस्तेमाल किया जा रहा है अभी तो बहुत सी बातें.
ग्राफ़ खोज के लिए, सिरी के लिए के लिए तो प्राकृतिक की बहुत ज़्यादा किसी भी तरह
भाषा संसाधन तुम्हारे पास है.
तो क्या महत्वपूर्ण हैं वाक्य रचना के बारे में बातें?
तो, सामान्य रूप में वाक्य है हम घटक क्या कहते हैं.
किस तरह के शब्दों के समूह की तरह हैं वाक्य में एक समारोह है कि.
और वे वास्तव में नहीं किया जा सकता एक दूसरे से अलग.
>> अगर मैं कहूँ तो, उदाहरण के लिए, "लॉरेन प्यार करता है मिलो. लॉरेन "है," मैं जानती हूँ कि "एक
घटक और फिर "प्यार करता है मिलो "भी एक और एक है.
आप "लॉरेन मिलो की तरह यह नहीं कह सकते क्योंकि एक ही अर्थ है "प्यार करता है.
यह है नहीं जा रहा है एक ही अर्थ.
या मैं "मिलो लॉरेन की तरह नहीं कह सकता प्यार करता है. "नहीं सब कुछ एक ही है
कर रही है कि अर्थ.
>> के बारे में तो दो अधिक महत्वपूर्ण बातें वाक्य रचना है जो शाब्दिक प्रकार हैं
मूल रूप से समारोह है कि आप स्वयं द्वारा शब्द के लिए है.
तो आप को पता है कि "लॉरेन" और "मिलो" संज्ञाएं हैं.
"प्यार" एक क्रिया है.
और दूसरी महत्वपूर्ण बात यह है वे phrasal प्रकार परेशानी न हो.
तो आप "मिलो प्यार करता है" कि पता वास्तव में एक मौखिक वाक्यांश है.
जब मैं कहता हूँ तो "लॉरेन," मुझे पता है कि लॉरेन कुछ कर रही है.
वह क्या कर रहा है?
वह मिलो प्यार है.
तो यह एक पूरी बात है.
लेकिन इसके घटक हैं एक संज्ञा और क्रिया.
लेकिन साथ में, वे एक क्रिया वाक्यांश बनाते हैं.
>> तो, हम वास्तव में साथ क्या कर सकते हैं कम्प्यूटेशनल भाषा विज्ञान?
तो, मैं उदाहरण के लिए कुछ है "एलीसन के दोस्तों से." मैं देख रहा हूँ अगर मैं सिर्फ
एक वाक्यात्मक पेड़ मुझे पता होता था कि 'दोस्त' यह एक संज्ञा वाक्यांश है एक
"एलीसन की" तब संज्ञा और एक है "का" जिसमें पूर्वसर्गीय वाक्यांश है
एक प्रस्ताव और "एलीसन" एक संज्ञा है.
क्या मैं कर सकता है मेरे कंप्यूटर सिखाना है कि मैं एक संज्ञा वाक्यांश एक है और जब
फिर एक पूर्वसर्गीय वाक्यांश.
की "तो फिर इस मामले में," दोस्त "तो और मिलो "मैं इस का मतलब है कि पता है कि
NP2, दूसरा एक, NP1 का मालिक है.
>> इसलिए मैं संबंध में किसी तरह का बना सकते हैं, इसके लिए समारोह में किसी तरह का.
इसलिए मैं इस संरचना दिखाई देता है तो जो के मित्र "से बिल्कुल मेल खाता है
एलीसन, "मुझे पता है कि एलीसन मित्रों का मालिक है.
तो दोस्तों के कुछ कर रहे हैं एलीसन है कि.
समझ में आता है?
तो यह असल में क्या है ग्राफ़ खोज करता है.
यह सिर्फ नियम बनाता है बहुत सारी चीज़ें के लिए.
तो "एलीसन के दोस्त हैं," "मेरे दोस्त "", कैम्ब्रिज में अपने दोस्तों के रहने वाले
हार्वर्ड के लिए जाना था. "यह नियम बनाता है उन सब बातों के लिए.
>> अब मशीन अनुवाद.
तो, मशीन अनुवाद भी है सांख्यिकीय कुछ.
और वास्तव में आप में शामिल हो कम्प्यूटेशनल भाषा विज्ञान, का एक बहुत
अपना सामान आंकड़े होने जा रहा है.
मैं साथ उदाहरण कर रहा था तो रूप मैं था कि संभावनाओं का एक बहुत
की गणना, और उसके बाद आप इस के लिए मिल आखिरी फैसला है कि बहुत छोटी संख्या
संभावना है, और वह है क्या आप का जवाब देता है.
मशीन अनुवाद भी उपयोग करता है एक सांख्यिकीय मॉडल.
और आप मशीन के बारे में सोचना चाहते हैं सरल संभव में अनुवाद
इस तरह, क्या आप सोच सकते हैं बस है सही, शब्द से शब्द का अनुवाद?
>> आप के लिए एक भाषा सीख रहे हैं पहली बार, कि आम तौर पर क्या है
आप सही, क्या?
यदि आप चाहते हैं कि आप एक वाक्य का अनुवाद भाषा को अपनी भाषा में
यदि आप आमतौर पर पहले, सीख रहे हैं शब्दों का प्रत्येक अनुवाद
व्यक्तिगत रूप से, और फिर आप कोशिश जगह में शब्दों को डाल.
>> , मैं इस का अनुवाद करना चाहते थे तो [बोल पुर्तगाली]
"सफेद बिल्ली भाग गई." जिसका अर्थ है मैं से अनुवाद करना चाहता था
अंग्रेजी पुर्तगाली, क्या मैं कर सकता है मैं सिर्फ पहला, है
शब्द द्वारा शब्द का अनुवाद.
तो "ओ" "," "गातो," "बिल्ली" है "ब्रांको," "सफेद," और फिर "fugio" है
"दूर भाग गया."
>> तो फिर मैं यहाँ सभी शब्दों है लेकिन वे क्रम में नहीं कर रहे हैं.
"बिल्ली सफेद भाग गया" की तरह है जो ungrammatical है.
तो, तो मैं एक दूसरा कदम है, जो हो सकता है आदर्श को खोजने जा रहा है
शब्दों में से प्रत्येक के लिए स्थिति.
इसलिए मुझे लगता है कि मैं वास्तव में है चाहता हूँ कि पता के बजाय "सफेद बिल्ली" "बिल्ली सफेद." इतना
क्या मैं कर सकता सबसे अनुभवहीन विधि है, बनाने के लिए किया जाएगा सब
के संभव permutations पदों के शब्दों,.
और फिर एक है जो देखने सबसे अधिक संभावना अनुसार
मेरी भाषा मॉडल के लिए.
और फिर मैं एक है कि लगता है जब है जो सबसे अधिक संभावना यह,
शायद "सफेद बिल्ली, दूर भाग गया" कि मेरे अनुवाद है.
>> और यह समझाने का एक सरल तरीका है कैसे मशीन अनुवाद का एक बहुत
एल्गोरिदम काम करते हैं.
कि मतलब?
यह भी वास्तव में रोमांचक कुछ है तुम लोग शायद एक के लिए तलाश कर सकते हैं कि
अंतिम परियोजना, हाँ?
>> छात्र: ठीक है, तुम यह कहा था कि भोली रास्ता है, तो क्या है
गैर अनुभवहीन तरीका है?
>> लुकास Freitas: गैर अनुभवहीन तरीका है?
ठीक है.
के बारे में बुरा है कि तो पहली बात इस विधि मैं सिर्फ अनुवाद किया है
शब्द, शब्द से शब्द.
लेकिन कभी कभी आप शब्दों है कि कई अनुवाद कर सकते हैं.
मुझे लगता है की कोशिश करने जा रहा हूँ कुछ की.
पुर्तगाली में कर सकते हैं उदाहरण के लिए, "मंगा" हो "वध" या "आस्तीन." या तो इतना
आप शब्द का अनुवाद करने की कोशिश कर रहे हैं शब्द से, यह आपको दे रही हो सकता
नहीं समझ में आता है कि कुछ और.
>> तुम सब पर देखने के लिए तो आप वास्तव में चाहते हैं के संभव अनुवादों
शब्द और देखो, सब से पहले, क्रम क्या है.
हम permutating के बारे में बात कर रहे थे बातें?
सभी संभव आदेश देखने के लिए उच्चतम साथ एक का चयन
संभावना?
आप भी हर संभव चुन सकते हैं प्रत्येक के लिए अनुवाद
तो शब्द और देखते -
क्रमपरिवर्तन के साथ संयुक्त -
जो एक सबसे अधिक संभावना है.
>> इसके अलावा, आप भी नहीं पर देख सकते हैं केवल शब्दों लेकिन वाक्यांशों.
इसलिए यदि आप के बीच संबंधों का विश्लेषण कर सकते हैं शब्द और उसके बाद एक मिल
बेहतर अनुवाद.
इसके अलावा कुछ और ही है, इसलिए इस सेमेस्टर मैं वास्तव में शोध कर रहा हूँ
चीनी, अंग्रेजी, मशीन अनुवाद, इतने से अनुवाद
अंग्रेजी में चीनी.
>> और हम ऐसा कुछ का उपयोग कर के अलावा, है बस है जो एक सांख्यिकीय मॉडल,
देखने की संभावनाओं को देखकर एक वाक्य में कुछ की स्थिति, मैं हूँ
वास्तव में यह भी करने के लिए कुछ वाक्य रचना जोड़ने मेरी मैं इस तरह देख अगर मॉडल,, ओह, कह रही है
निर्माण की, यह मैं क्या चाहता है मैं अनुवाद करने के लिए जब इसे बदलने के लिए.
तो अगर आप भी किसी तरह की जोड़ सकते हैं बनाने के लिए वाक्यविन्यास के तत्व
अनुवाद अधिक कुशल और अधिक सटीक.
ठीक है.
>> अगर आप चाहते हैं तो आप कैसे शुरू कर सकते हैं कम्प्यूटेशनल में कुछ करने के लिए
भाषा विज्ञान?
>> सबसे पहले, आप एक परियोजना का चयन उस भाषा शामिल है.
तो, वहाँ बहुत सारे हैं.
आप कर सकते हैं तो वहाँ बहुत सी बातें है.
और फिर एक मॉडल के बारे में सोच सकते हैं आप उपयोग कर सकते हैं.
आम तौर पर उस के बारे में सोच का मतलब मान्यताओं, जब मैं था, ओह, तरह के रूप में
गीत के बारे में सोच की तरह.
मैं आंकड़ा करना चाहते हैं, अगर मैं अच्छी तरह से, जैसा था यह लिखा था, जो एक बाहर, मैं शायद चाहते हैं
शब्दों को देखने के लिए व्यक्ति का इस्तेमाल किया और बहुत बार उस शब्द का उपयोग करता है जो देखते हैं.
तो मान्यताओं बनाने के लिए कोशिश करते हैं और मॉडल की सोचने की कोशिश करें.
और फिर तुम भी के लिए ऑनलाइन खोज कर सकते हैं आप यह है कि समस्या की तरह,
और यह सुझाव जा रहा है आप मॉडल के लिए है कि हो सकता है
अच्छी तरह बात यह है कि मॉडलिंग की.
>> और भी तुम हमेशा मुझे ईमेल कर सकते हैं.
me@lfreitas.com.
और मैं सिर्फ अपने सवालों का जवाब कर सकते हैं.
हम भी तो मैं कर सकता हूँ ऊपर पूरा हो सकता है सकते हैं के तरीकों पर सुझाव देने
अपनी परियोजना को लागू करने.
आप के साथ शामिल हो और अगर मेरा मतलब कम्प्यूटेशनल भाषा विज्ञान, यह हो रहा है
महान होने के लिए.
तुम वहाँ देखने जा रहे हैं इतनी क्षमता है.
और उद्योग किराया चाहता है उसकी वजह से आप इतना बुरा.
तो मैं तुम लोगों को इस मजा उम्मीद है.
आप लोग किसी भी प्रश्न हैं, आप इस के बाद मुझसे पूछ सकते हैं.
लेकिन धन्यवाद.